`
welcome66
  • 浏览: 397617 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop简介

阅读更多

        HadoopApache 下的一个项目,由HDFSMapReduceHBaseHive ZooKeeper等成员组成。其中,HDFS MapReduce 是两个最基础最重要的成员。

        HDFSGoogle GFS 的开源版本,一个高度容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量(PB 级)的大文件(通常超过64M),其原理如下图所示:

 

        采用Master/Slave 结构。NameNode 维护集群内的元数据,对外提供创建、打开、删除和重命名文件或目录的功能。DatanNode 存储数据,并提负责处理数据的读写请求。DataNode定期向NameNode 上报心跳,NameNode 通过响应心跳来控制DataNode。 

        InfoWordMapReduce 评为2009 年十大新兴技术的冠军。MapReduce 是大规模数据(TB 级)计算的利器,Map Reduce 是它的主要思想,来源于函数式编程语言,它的原理如下图所示:Map负责将数据打散,Reduce负责对数据进行聚集,用户只需要实现map reduce 两个接口,即可完成TB级数据的计算,常见的应用包括:日志分析和数据挖掘等数据分析应用。另外,还可用于科学数据计算,如圆周率PI 的计算等。Hadoop MapReduce的实现也采用了Master/Slave 结构。Master 叫做JobTracker,而Slave 叫做TaskTracker用户提交的计算叫做Job,每一个Job会被划分成若干个TasksJobTracker负责Job Tasks 的调度,而TaskTracker负责执行Tasks

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics