1.Hadoop 从三个角度将主机划分为二种角色。
第一,最基本划分为Master和Slave;
第二,从HDFS角度上,划分为NameNoe(目录管理者)和DataNode;
第三,从MapReduce角度上,划分为JobTracker和TaskTracker.
2.Hadoop三种运行方式:
单机模式:无需配置,单进程,用于调试;
伪分布式:一个节点的集群,配置简单
完全分布式:
3.起于2002 Apache Nutch.06年独立,HDFS + MapRedue 。HDFS高容错,数据管理,基于Java,移植。MapReduce 处理任务高效及开源。 可靠,可扩展,高效,高容错。
08.02 Yahoo 2000个节点上1W个Hadoop虚拟机处理5PB网页。
4.特点原理:
数据分布存储;NameNode ,DataNode HDFS block; 64MB
分布式并行计算;主控JobTracker,用户提交的计算叫Job,每一个Job会被划分成若干个Tasks,JobTracker负责Job和Tasks的调度,而TaskTracker负责执行Tasks;
本地计算,数据存储在哪台上,就在哪台上执行;
任务粒度;64MB,M个小数据集,M个Map任务;
数据分割, Hash(key) mod R;
数据合并,对中间结果合并;
Reduce,形成最终结果文件 ;
任务管道,结果成为另一个计算任务的输入,开始下一个任务。
5.MapReduce 是大规模数据(TB)计算的利器,Map和Reduce是它的主要思想,来源于函数式编程语言,原理:
Map负责将数据打散,Reduce负责将数据进行聚集,用户只需要实现map和reduce二个接口,即可完成TB级数据的计算,常见的应用包括:日志分析,数据挖掘等数据分析应用,还有科学数据计算等。
相关推荐
hadoop 笔记
hadoop学习笔记,分天学习,原创,亲测,放心使用,没问题。
Hadoop架构分析之集群结构分析,Hadoop架构分析之HDFS架构分析,Hadoop架构分析之NN和DN原生文档解读,Hadoop MapReduce原理之流程图.Hadoop MapReduce原理之核心类Job和ResourceManager解读.Hadoop MapReduce原理之...
hadoop平台搭建相关资料,如何利用hadoop搭建大数据平台,以及一些基本的Linux命令。shell编程
hadoop学习资料下载.包括hdfs,集群,MapReduce,HBase,Hive等等.完全收录.
IT十八掌徐培成HADOOP笔记
IT十八掌HADOOP笔记.docx
云计算,hadoop,学习笔记, dd
尚硅谷大数据技术之Hadoop笔记加代码
hadoop的学习笔记,web页边版本,学习分布式文件系统的好材料
大数据之Hadoop学习教程+笔记合计_超详细完整.zip
我学习hadoop的笔记,并在公司做的报告,给大家共享下
大数据hadoop配置的学习笔记,包含HDFS的基本操作指令等
传智黑马赵星老师hadoop七天课程资料笔记-第一天(全)
传智黑马赵星老师hadoop七天课程资料笔记-第二天(全)
Haddop学习笔记,涉及HDFS的详细说明文档,MapReduce的详细说明文档