`

hadoop的体系结构

 
阅读更多

一、HDFS的体系机构

 

1:分布式文件系统: 管理网络中跨多台计算机存储的文件系统

2:   hdfs以流式数据访问模式来存储超大文件

 一次写入,多次修改

 

 

2:数据块是存放在datanode节点上。

 

客户端open打开NameNode节点的连接,向DateNode节点写入数据,也可以读取数据。

 

3:NameNode和dataNode之间是通过心跳机制进行通信的。使用tcp协议

 

二、MapReduce的体系机构

1:分布式编程架构,以数据为中心,更看吞吐率,分而治之,Map将一个任务分解成多个子任务,

Reduce将分解后多任务分别处理,并将结果汇总最终结果

 

2:客户端启动mapreduce的核心jobTraker节点,由jobTraker向TaskTraker分配map任务,TaskTrasker对数据块进行处理。

 

3:jobTraker和TaskTraker也是通过心跳进行通信的。与HDFS类似,也是主从

 

4:TaskTraker具有独立的虚拟机。

 

5:JobTracker是在接受最后一个任务运行完成后,才会将作业标志为成功。

 

6 :map和reduce任务的输出保存的地方不一致,因为map的输出是中间结果,所以保存在本地硬盘即可,而reduce输出的结果需要保存在hdfs上。

 

7 : 基本概念

作业(job): 包含一个mapreduce的所有用到的ar操作

任务(Task):一个作业包含输入、输出、和若干个Task,分为mapTask 和 reduceTask

键值对: map()、reduce()函数的输入、输出都是以键值对的形式 

 

8: 生命周期 

     一、 提交作业  : 编写mapreduce程序,输入输出路径、通过jobclient来提交

     二、 作业调度 : FIFO调度器(默认)、公平调度器、容量调度器

     三、 任务分配 : TaskTracker和JobTracker之间的通信与任务的分配是通过心跳机制完成的 

                                 TaskTracker会主动向JobTracker询问是否有作业要做,如果自己可以做,那么就会申请到任务

     四、状态更新

 

 

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    实验二:熟悉常用的HDFS操作

    (1)理解 HDFS在Hadoop体系结构中的角色。(2)熟练使用HDFS操作常用的 Shell命令。(3)熟悉HDFS操作常用的Java API。 A.2.2 实验平台 (1)操作系统:Linux(建议Ubuntu 16.04)。(2) Hadoop版本:2.7.1。 (3)JDK版本:1.7...

    实验三:熟悉常用的HBase操作

    (1)理解HBase在Hadoop体系结构中的角色。(2)熟练使用HBase操作常用的 Shell命令。(3)熟悉HBase操作常用的 Java API。 A.3.2 实验平台 (1)操作系统:Linux。 (2)Hadoop 版本:2.7.1或以上版本。(3)HBase版本:...

    NSGA2VmHdfs:NSGA-II的实现包括题为“虚拟化Hadoop体系结构中虚拟机分配和副本放置的多目标优化”的研究论文。

    该程序已针对“虚拟化Hadoop体系结构中的虚拟机分配和副本位置的多目标优化”一文中提出的研究实施,该论文已在“ IEEE并行和分布式系统上的事务”期刊中发表。 考虑到本文介绍的GA设置,这是python 2.7中的NSGA-II...

    hadoop2安装和常用shell命令

    hadoop2安装和常用shell命令,

    Hadoop大数据处理讲义-C3. Hadoop体系架构

    Hadoop大数据处理讲义-C3. Hadoop体系架构 这个是带完整目录书签的文字版本,文本内容可以复制的哦

    大数据技术原理及应用课实验3 熟悉常用的HBase操作 林子雨实验

    1. 理解HBase在Hadoop体系结构中的角色; 2. 熟练使用HBase操作常用的Shell命令; 3. 熟悉HBase操作常用的Java API。 二、实验平台 1. 操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04); 2. Hadoop版本:3.1.3; 3...

    大数据实验二-HDFS编程实践

    (1)在本实验中,我深入了解了HDFS在Hadoop体系结构中的角色,并熟练掌握了HDFS操作的常用Shell命令和Java API。 (2)首先,我们探讨了HDFS文件操作的常用Shell命令。通过使用`hdfs dfs -put`、`hdfs dfs -get`、...

    Hbase体系架构与安装

    hbase的体系架构安装,hbase的三种安装模式,及一些操作命令

    大数据实验三-HBase编程实践

    1、理解HBase在Hadoop体系结构中的角色。 2、熟练使用HBase操作常用的Shell命令。 3、熟悉HBase操作常用的JavaAPI。 三.实验过程截图及说明 1、安装HBase (1)解压HBase文件到/usr/local目录下,并将目录改名为...

    基于Hadoop的数据仓库Hive基础知识

    Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行...数据仓库体系结构通常含四个层次:数据源、数据存储和管理、数据服务、数据应用。数据源:是数据仓库的数据来源,含外部数据、现有业务系统

    大数据技术原理及应用课实验6 :熟悉Hive的基本操作

    1. 理解Hive作为数据仓库在Hadoop体系结构中的角色。 2. 熟练使用常用的HiveQL。 二、实验平台 1. 操作系统:Ubuntu18.04(或Ubuntu16.04)。 2. Hadoop版本:3.1.3。 3. Hive版本:3.1.2。 4. JDK版本:1.8。 三、...

    实验2 熟悉常用的HDFS操作

    1. 理解HDFS在Hadoop体系结构中的角色; 2. 熟练使用HDFS操作常用的Shell命令; 3. 熟悉HDFS操作常用的Java API。 二、实验平台 1. 操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04); 2. Hadoop版本:3.1.3; 3. ...

    大数据实验六实验报告:熟悉Hive的基本操作

    Hadoop 版本 3.1.3 JDK 版本 1.8 Java IDE:Eclipse 系统类型 64 位操作系统, 基于 x64 的处理器 笔和触控 没有可用于此显示器的笔或触控输入 2、实验内容与完成情况: 1.创建一个内部表 stocks,字段分隔符为英文...

    应用大数据平台概要设计.docx

    鉴于越来越大的数据规模,采用常规基于DBMS的数据分析工具和方法已经无法满足大规模数据分析的需求,目前一些大型互联网公司采用hadoop体系进行大规模数据的运算,结合hadoop体系结构与实际的运算需求结合,采用...

    传智7天Hadoop培训视频

    03) 介绍HDFS体系结构及shell、java操作方式;04) 介绍MapReduce体系结构及各种算法;05) 介绍MapReduce体系结构及各种算法;06) 介绍Hadoop集群;07) 介绍zookeeper操作;08) 介绍HBase体系结构及基本操作;09) 介绍pig...

    Hadoop大数据分布式架构与设计详细介绍文档

    Hadoop大数据分布式架构与设计详细介绍文档,详细介绍了hadoop的应用原理,由haddop团队开发者Dhruba Borthakur亲自编写,国内一线人员翻译校对,是一个不可多得的hadoop大数据学习文档。

    大数据处理流程.pdf

    Hive是由Facebook开发并贡献给Hadoop开源社区的,是⼀个建⽴在 Hadoop体系结构上的⼀层SQL抽象。Hive提供了⼀些对Hadoop⽂件中数据集进⾏处理、查询、分析的⼯具。它⽀持类似于传统RDBMS 的SQL语⾔的查询语⾔,⼀...

    hadoop应用开发实例教程 之Greenplum架构

    Greenplum体系结构;Greenplum高可用性架构。安装Greenplum:配置环境;安装并初始化GPDB系统;启停数据库;配置GP系统。 hadoop应用开发实例教程-基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例...

    厦门大学-林子雨-大数据技术基础-第3章 分布式文件系统HDFS-上机练习-熟悉常用的HDFS操作

    熟悉常用的HDFS操作 (1) 理解HDFS在Hadoop体系结构中的角色; (2) 熟练使用HDFS操作常用的Shell命令; (3) 熟悉HDFS操作常用的Java API。

Global site tag (gtag.js) - Google Analytics