Hadoop是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员。
HDFS是Google GFS 的开源版本,一个高度容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量(PB 级)的大文件(通常超过64M),其原理如下图所示:
采用Master/Slave 结构。NameNode 维护集群内的元数据,对外提供创建、打开、删除和重命名文件或目录的功能。DatanNode 存储数据,并提负责处理数据的读写请求。DataNode定期向NameNode 上报心跳,NameNode 通过响应心跳来控制DataNode。
InfoWord将MapReduce 评为2009 年十大新兴技术的冠军。MapReduce 是大规模数据(TB 级)计算的利器,Map 和Reduce 是它的主要思想,来源于函数式编程语言,它的原理如下图所示:Map负责将数据打散,Reduce负责对数据进行聚集,用户只需要实现map 和reduce 两个接口,即可完成TB级数据的计算,常见的应用包括:日志分析和数据挖掘等数据分析应用。另外,还可用于科学数据计算,如圆周率PI 的计算等。Hadoop MapReduce的实现也采用了Master/Slave 结构。Master 叫做JobTracker,而Slave 叫做TaskTracker。用户提交的计算叫做Job,每一个Job会被划分成若干个Tasks。JobTracker负责Job 和Tasks 的调度,而TaskTracker负责执行Tasks。
相关推荐
hadoop简介,可以初步认识hadoop
1、Hadoop 简介 2、Hadoop 的发展历史 3、Hadoop 的特点 三、Hadoop 核心 1、分布式文件系统——HDFS 2、分布式计算框架——MapReduce 3、集群资源管理器——YARN 四、Hadoop 常用组件 五、Hadoop 在国内外的应用...
带图带说明:Hadoop简介及Apache Hadoop三种搭建方式
云计算简介,Hadoop简介,云计算环境下信息安全问题
Chapter11_Hadoop简介.pdf
福建师范大学精品大数据导论课程系列 (5.1.1)--4.1.1 hadoop简介之一.pdf 福建师范大学精品大数据导论课程系列 (5.2.1)--4.1.2 hadoop简介之二.pdf 福建师范大学精品大数据导论课程系列 (5.3.1)--4.2 HDFS的简要介绍...
福建师范大学精品大数据导论课程系列 (5.1.1)--4.1.1 hadoop简介之一.pdf 福建师范大学精品大数据导论课程系列 (5.2.1)--4.1.2 hadoop简介之二.pdf 福建师范大学精品大数据导论课程系列 (5.3.1)--4.2 HDFS的简要介绍...
hadoop简介 ,ppt格式,简要的介绍,适合初学者
大数据与云计算教程课件 优质大数据课程 01.Hadoop简介与安装入门(共29页).pptx 大数据与云计算教程课件 优质大数据课程 02.MapReduce(共23页).pptx 大数据与云计算教程课件 优质大数据课程 03.Hadoop YARN(共...
大数据概述包括: 大数据绪论,Hadoop简介,数据库技术历史和发展,分布式计算架构
Hadoop是现阶段数据开发的基础,Hadoop通常是指一个更广泛的概念—-Hadoop生态圈(基于或关于Hadoop的大数据开发的各种软件环境) 是Apache公司使用Java语言编写的开源的,分布式系统的基础架构 分布式就是,当储存...
福建师范大学精品大数据导论课程系列 (5.1.1)--4.1.1 hadoop简介之一.rar
福建师范大学精品大数据导论课程系列 (5.2.1)--4.1.2 hadoop简介之二.rar
Hadoop本身是由Yahoo!公司开发的后来贡献给了Apache的一套开源的、可靠的分布式架构 Hadoop提供了简单的编程模型能够对大量的数据进行分布式处理(The Apache Hadoop software library is a framework that allows ...
简要介绍了hadoop的发展历程、原理、特征以及基于hadoop的分布式系统的安装方法。
Hadoop-0.21.0分布式集群配置.doc