为什么Hadoop将一定会是分布式计算的未来?
版权声明: 写本文由leftnoteasy发布于http://leftnoteasy.cnblogs.com 本文可以被全部或者部分的使用,但请注明出处,如果有问题,可以联系wheeleast (at) gmail.com, 也可以加我的新浪微博:http://weibo.com/leftnoteasy
http://cyqdata.cn/cnblogs/article-detail-52698
hadoop示例程序wordcount分析
采用ubuntu下的伪分布式(Pseudo-distributed mode)hadoop-0.20.2运行,运行步骤略,仅对wordcount程序进行分析,以理清MapReduce工作方式.
本文部分引自http://www.iteye.com/topic/606962
package org.apache.hadoop.examples
http://cyqdata.cn/cnblogs/article-detail-41837
Hadoop的那些事儿
文/张巡
在说Hadoop之前,作为一个铁杆粉丝先粉一下Google。Google的伟大之处不仅在于它建立了一个强悍的搜索引擎,它还创造了几项革命性的技术:GFS,MapReduce,BigTable,即所谓的Google三驾马车。Google虽然没有公布这几项技术的实现代码,但它发表了详细的设计论文,这给业界带来了新鲜气息,很快就出现了类似于Google三驾马车的开源实现,Hadoop就是其
http://cyqdata.cn/cnblogs/article-detail-39810
Apache Hadoop最佳实践和反模式
Apache Hadoop是一个用于构建大规模,共享存储和计算基础设施的软件框架,Hadoop集群经常用于各种研究和开发项目,如Yahoo!,eBay,Facebook,Twitter等互联网公司就大量使用了Hadoop,并在核心业务系统中扮演中关键角色,因此正确部署Hadoop集群是确保获得最佳投资回报的关键。
本文介绍了在Apache Hadoop上运行应用程序的最佳实践,实际上,我们引
http://cyqdata.cn/cnblogs/article-detail-38351
深入Hadoop HDFS
1. hdfs架构简介 1.1 hdfs架构挑战 1.2 架构简介 1.3 文件系统命名空间File System Namespace 1.4 数据复制 1.5 元数据持久化 1.6 信息交换协议 2. hdfs数据可访问性 2.1 web interface 2.2 shell command
http://cyqdata.cn/cnblogs/article-detail-36615
Hadoop入门简介
1. Hadoop简介
2. Hadoop环境建立3. 参考资料
<1>. Hadoop简介
hadoop是apache的开源项目,开发的主要目的是为了构建可靠,可拓展scalable,分布式的系统,hadoop是一系列的子工程的总和,其中包含。
1. hadoop common:为其他项目提供基础设施
2. HDFS:分布式的文件系统
3. MapReduc
http://cyqdata.cn/cnblogs/article-detail-36606
HADOOP实践101:在Hadoop集群中添加机器和删除机器
无论是在Hadoop集群中添加机器和删除机器,都无需停机,整个服务不中断。
本次操作之前,Hadoop的集群情况如下:
HDFS的机器情况如下:
MR的机器情况如下:
添加机器
在集群的Master机器中,修改$HADOOP_HOME/conf/slaves文件,在其中添加需要加入集群的新机器(hp3)的主机名:
hp3hp2dell1dell2dell3dell4
然后在Master机器
http://cyqdata.cn/cnblogs/article-detail-36266
[翻译]JavaScript秘密花园 - Array, Array Constructor, for in loop, typeof, instanceOf
JavaScript Garden - 原文
JavaScript Garden - 中文翻译
数组遍历与属性
虽然在 JavaScript 中数组是是对象,但是没有好的理由去使用 `for in` 循环 遍历数组。
相反,有一些好的理由不去使用 for in 遍历数组。
注意: JavaScript 中数组不是 关联数组。
JavaScript 中只有对象 来管理键值的对应关系。但是关
http://cyqdata.cn/cnblogs/article-detail-35436
CCIE中的portfast和Bpdu Guard、Bpdu Filter、Root Guard、Loop Guard
PortFast 加快终端主机连接入stp网络的收敛.只适用于在交换机与PC相连的端口,不应该在交换机与交换机,路由器,HUB互连的网络设备的端口使用。
把一个port设置了portfast,就是让那个port不再使用STP的算法。在STP中,port有5个状态:disable、blocking、listening、learning、forwarding。只有forwarding状态,p
http://cyqdata.cn/cnblogs/article-detail-32400
简洁优雅的JavaScript OOP风格
还是以老生常谈的User举例子,说明已在代码注释中。
function User()
{
/**
* constant
*/
var MAX_AGE = 100;
var MIN_AGE = 10;
/**
* private variable
*/
var
http://cyqdata.cn/cnblogs/article-detail-31869
Hadoop in Action 翻译 第三章(文件操作命令部分)
Components of Hadoop
在上一章节我们了解了如何安装及配置Hadoop。我们了解了不同节点的作用以及这些节点是如何工作的,还了解了如何配置这些节点。现在我们可以运行Hadoop了,现在我们从程序的角度了解一下Hadoop框架。
首先我们讲解HDFS,HDFS用来存储你的Hadoop应用的各种数据。之后我们讲解MapReduce框架的细节。第一章时,我们已经看到了MapReduce
http://cyqdata.cn/cnblogs/article-detail-25277
Hadoop的本地库(Native Libraries)介绍
Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。
目前在Hadoop中,本地库应用在文件的压缩上面:
zlib
gzip
在使用这两种压缩方式的时候,Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本地库
http://cyqdata.cn/cnblogs/article-detail-25205
漫谈Hadoop HDFS Balancer
Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。可见,保证HDFS中的数据平衡是非常重要的。
在Hadoop中,包含一个Balancer程序,通过运行这个程序,可以使得HDFS集群达到一个平衡的
http://cyqdata.cn/cnblogs/article-detail-25147
Hadoop in Action 翻译 第二章续(介绍伪分布式)
Pseudo-distributed mode(伪分布式) 伪分布式模式就是将所有hadoop程序运行在一台服务器上.这种模式将单机模式分割为各模块,主要还是用来debug你的程序,以便于测试内存占用量,HDFS input/output问题,已经各个deamons之间的交互等等. 下面就是这种模式的配置例子: core-site.xml <?xml version=”1
http://cyqdata.cn/cnblogs/article-detail-7100
Hadoop中的CRC数据校验文件
Hadoop系统为了保证数据的一致性,会对文件生成相应的校验文件,并在读写的时候进行校验,确保数据的准确性。
比如我们遇到的这个Case:
执行的命令:
hadoop jar dw-hadoop-2010_7_23.jar jobDriver -files tb_steps_url_path_dim.txt multisteps_output 2011-01-25
出错日
http://cyqdata.cn/cnblogs/article-detail-6936
Hadoop in Action 翻译 第一章
Hadoop介绍 内容简介: 1. 编写可扩展的,分布式的,海量数据处理的程序的基础 2. 介绍hadoop与MapREduce 3. 编写一个简单的MapReduce程序
http://cyqdata.cn/cnblogs/article-detail-6932
HBase入门笔记(三)-- 完全分布模式Hadoop集群安装配置
本来这篇文章该在去年11月底写出来的,被各种繁杂的事情所烦扰,再者网络上也有非常多比较完善的配置的文章,但是依旧是表述不太清晰。依旧写个Step By Step的教程,留待己用。
Hadoop的部署环境是经过虚拟化之后的四台主机,OS是U
http://cyqdata.cn/cnblogs/article-detail-5431