如何分析海量数据
前一阵子分析了一个将近1TB的数据群(gz文件,压缩率10%)。因为第一次分析如此巨大的数据,没有经验,所以浪费了许多时间。下面是我整理的一些经验,方便后者。
下载数据
Q:怎么自动下载多个文件?
这是我遇到的第一个问题。当数据量很大时,一般都会分成很多个文件存放。这时下载文件比较麻烦。
A:用Wget命令。Windows下花费一点时间去下载安装。但之于手动下载,能省不少时间。
我提供两种方
http://cyqdata.cn/cnblogs/article-detail-39081
程序员应知 -- 如何分析海量数据
在这个云计算热炒的时代,如果你没有处理过海量数据的话,你将不再是个合格的Coder。现在赶紧补补吧~
前一阵子分析了一个将近1TB的数据群(gz文件,压缩10%)。因为第一次分析如此巨大的数据,没有经验,所以浪费了许多时间。下面是我整理的一些经验,方便后者。
欢迎各种补充,我会不断更新这篇文章;觉得有用的话,速度分享链接;有不同意见的话,请果断拍砖;
下载数据
Q:怎么自动下载多个文件?
这是我遇到的第一个问题。当数据量很大时,一般都会分成很多个文件存放。这时下载文件比较麻烦。
A:用Wget命令。Windows下花费一点时间去下载安装。但之于手动下载,能省不少时间。
我提供两种方式方式下载文件,
a)用Wget的递归下载选项 “-r”。一般命令如下
wget –r http://<下载数据的根目录>/ -o <下载记录
http://cyqdata.cn/cnblogs/article-detail-169