`

hadoop-2 dfs/yarn 相关概念

 
阅读更多

一.dfs

1.旧的dfs方案

 

可以看到block管理与NN是一对一的,即整个集群中只有一个'block pool',隔离性差;

另外物理是它是置于NN端的,逻辑上把它归入到bock storage上了,这是需要注意的;

 

2.dfs federation

 

新存储架构采用了multi-namespaces机制,安全/故障隔离性好;

每个Ns都有一个自己的Pool,这样就构成一个pools(逻辑上的);

因为每个pool可以存储不同DN上的blocks地址,所以pool与DN是多对多关系 (decommision时就需要在所有NN上处理的原因);

 

在这方面,据我了解百度是分层进行的,这里是并列的.各有各的好处吧.

分层的话 便于扩展,容易扩展到很多层次;缺点是假如root节点down了也同样引起SPOF问题,而且逐级推进的处理方式导致延时严重;

并列的话 避免了分层的问题;但每次添加新的NS都引起小小的震荡,而且多个NS时可能带来维护上的不便

 

 

二.mapreduce部分

1.旧的mapred架构

 

可见,JT负担了资源分配,job调度,tasks初始化,hearbeat检测等大量工作,严重影响了集群性能;同时带来单点问题;

 

2.mapreduce nextgen / MRV2 / YARN

 

 

为了解决JT之前遇到的问题,新一代MR将资源调度,job分配分开了,其中:

ResourceManager(只有一个):只负责资源调度问题,比如某些Containers报告的cpu,内存,网络异常等,进行其它Containers调度;

  其中包括:Scheduler:是一个插件,如之前的FairScheduler,资源调度

                  ApplicationManager:管理job提交,与ApplicationMaster交互

                  ResourceTracker:处理NodeManager的报告信息

 

 

NodeManager:每台机器一个,与RM形成数据处理构架;与AM进行taks执行,管理等

ApplicationMaster(每个job或DAG编程模型一个):负责仲裁从Scheduler获得的Containers,启动并跟踪containers的状态信息等,其实它是first container,承担了之前JT的部分职责.

Container:(每个Job有多个) 负责执行MR任务,相当之前的TT

 

 

从图上可以看出,现在是有二个jobs在提交运行,为了兼容,在YARN上编写MR其实与之前版本是完全一样的,这点可以让老手忽略了新架构的底层细节

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    hadoop-2.4.1安装软件包以及教程jdk.zip

    注意:hadoop2.x的配置文件$HADOOP_HOME/etc/hadoop 伪分布式需要修改5个配置文件 3.1配置hadoop 第一个:hadoop-env.sh vim hadoop-env.sh #第27行 export JAVA_HOME=/usr/java/jdk1.7.0_65 第二个:core...

    Analysis-of-Stock-Market-using-Hadoop-Map-Reduce:使用Hadoop Map Reduce分析股票市场

    使用Hadoop地图减少股票市场分析 使用Hadoop Map Reduce分析股票市场 如何运行程序? 首先在您的系统中安装Hadoop。 请按照以下步骤进行安装 然后开始执行给定的命令 ... $ HADOOP_HOME / bin / hdfs dfs -put / h

    hadoop-管理

    2.处理hadoop的namenode宕机 ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start tasktracker 3.如果是新添加一个节点,需要执行以下步骤: 首先,把新节点的 IP或主机名 加入主节点(master)的 conf/...

    TAG_HADOOP:TAG_HADOOP

    作为介绍性练习,您可以运行 WordCount 讲座(和教程)中的示例: cd /usr/local/hadoop-2.5.1 bin / hadoop jar /usr/local/hadoop-2.5.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.1.jar wordcount ...

    centos7系统中的hadoop3.2.0的配置文件.rar

    hadoop-env.sh,mapred-env.sh,yarn-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml,workers,hadoop安装目录下sbin目录下的文件:start-dfs.sh,stop-dfs.sh,sart-yarn.sh,stop-yarn.sh。...

    yarn-proto:YARN 原型上的 Solr

    Lucidworks Solr 关于 YARN 集成YARN 上的 Solr - 将 ...1.0-SNAPSHOT.jar /user/timpotter/在 HDFS 中为 Solr 索引创建一个目录: hdfs dfs -mkdir solr_data在 YARN 上部署 Solr hadoop jar target/yarn-proto

    Hadoop学习笔记

    命令 HADOOP ... bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+' YRAN上运行MapReduce bin/hadoop jar share/hadoop/mapreduce/hado

    CentOS7下Hadoop3.2.1集群的安装与部署(下)

    在《CentOS7下Hadoop3.2.1集群的安装与部署(上)》中我们我们完成了对Hadoop集群的安装与启动。接下来,重点对HDFS和Yarn的HA配置进行介绍。 HDFS高可用 在上述Hadoop集群搭建完成之后,若要启用HA还需要对hdfs-...

    HBase 1.x版本安装部署

    2.Hadoop 集群的正常部署并启动: $ ~/opt/hadoop-2.7.2/sbin/start-dfs.sh $ ~/opt/hadoop-2.7.2/sbin/start-yarn.sh 3.HBase 的解压 tar -zxf /softwares/hbase-1.3.1-bin.tar.gz -C ~/opt/ 4.HBase 的配置文件...

    java-hbase-phoenix:通过Phoenix访问HBase

    /hadoop-3.1.0/sbin/start-dfs.sh 2. /hadoop-3.1.0/sbin/start-yarn.sh 3. /zookeeper-3.4.12/bin/zkServer.sh启动4. /hbase-2.0.0/bin/start-hbase.sh 5. /phoenix-5.0.0-alpha-hbase-2.0-bin/bin/queryserver.py...

    搭建伪分布模式Hadoop.pdf

    以下为文章部分标题 1.搭建单机模式Hadoop (1)关闭防火墙(2)关闭selinux防火墙(3)设置...4.启动与关闭分布式Hadoop(2)启动DFS及Yarn 5.配置SSH免密登入(4)配置SSH免密登录5.验证伪分布模式Hadoop是否安装部署成功

    BIG-DATA-HADOOP-MAPREDUCE-PROJECT:在Hadoop MapReduce中使用python matplotlib三种语言英语,法语,西班牙语的平均字母计数程序的实现和比较

    BIG-DATA-HADOOP-MAPREDUCE-PROJECT项目 在Hadoop MapReduce中使用3种语言英语,法语,西班牙语的平均字母计数... 步骤1:检查Hadoop版本-hadoop版本步骤2:启动HDFS守护程序-start-dfs.sh步骤3:启动Yarn守护程序–

    hadoop-docker:hadoop docker

    hadoop-docker前言本项目使用docker-compose在单机上快速构建hadoop进行,方便基于hadoop的开发与测试。快速启动1.准备本地需要提前安装 && 2.创建 hadoop容器将分为主机和从属两个...start-dfs && start-yarn等命令奴

    Hadoop(HDFS、YARN、HBase、Hive和Spark等)默认端口表

    端口 作用 9000 fs.defaultFS,如:hdfs://172.25.40.171:9000 9001 dfs.namenode.rpc-address,DataNode会连接这个端口 50070 dfs.namenode.http-address 50470 dfs.namenode....8032 yarn.resourcemanager.address

    HDFS常用Shell命令

    本篇文章只是简单阐述一下HDFS中常用命令, 在实际开发中可使用... YARN相关组件: sbin/start-yarn.sh 2.显示目录信息 -ls hadoop fs -ls $pdir 3.在HDFS上创建目录 -mkdir hadoop fs -mkdir -p $pdir/$fname

    ansible-hadoop

    Ansible角色和流浪汉文件使用Web...) /opt/hadoop/sbin/start-dfs.sh && ./sbin/start-yarn.sh停止光盘回购流浪ssh namenode-1 须藤-s 苏哈杜普光盘/opt/hadoop/sbin/stop-all.sh 一一按下按键:返回〜。 无业游民停止

    徐老师大数据 Hadoop架构完全分析课程 Hadoop入门学习视频教程

    025.Hadoop架构分析之启动脚本分析(start-dfs.cmd与hadoop-conf.cmd).mp4 026.Hadoop架构分析之启动脚本分析(hadoop.cmd命令).mp4 027.Hadoop架构分析之启动脚本分析(数据格式化与hdfs.cmd命令).mp4 028....

    YarnExamples:Hadoop 2 (YARN API) 中带有 Map Reduce 示例的存储库

    Hadoop 2 (YARN API) 中带有 Map Reduce 示例的存储库 目前的例子: 如何执行示例? 我假设你克隆了这个存储库,你用 netbeans 编译并构建了一个 jar 文件,并且你已经安装了 Hadoop 2.X。 如果之前没问题,则应...

    hdfs笔记.txt

    启动hadoop:start-dfs.sh,start-yarn.sh 关闭hadoop:stop-dfs.sh,stop-yarn.sh 启动hdfs时可在任意节点,启动yarn得在相应yarn的主节点上执行 hadoop fs -命令(hadoop1.0的时候用的) hdfs dfs -命令...

    大数据运维技术第5章 Hadoop集群运行课件.pptx

    Hadoop运行状态;;5.1 Hadoop运行状态;Hadoop运行状态;...确保dfs和yarn都启动成功 [hadoop@master hadoop]$ start-yarn.sh [hadoop@master hadoop]$ jps 34257 NameNode 34449 SecondaryNameNode 34494 Jp

Global site tag (gtag.js) - Google Analytics