`

7、Yarn--MapReduce2.0

 
阅读更多
1、yarn介绍:
MapReduce 2.0和YARN区别:
 YARN是一个资源管理系统,负责资源管理和调度
 MapReduce只是运行在YARN上的一个应用程序
 如果把YARN看做“android”,则MapReduce只是一个“app”
MapReduce 1.0和MapReduce 2.0区别:
 MapReduce 1.0是一个独立的系统,直接运行在Linux之上
 MapReduce 2.0则是运行YARN上的框架,且可与多种框架一起运行在YARN上

2、MapReduce特点
 易于编程
 良好的扩展性
 高容错性
 适合PB级以上海量数据的离线处理

MapReduce将作业的整个运行过程分为两个阶段
  Map阶段
InputFormat(默认TextInputFormat)
Mapper
Combiner( local reducer)
Partitioner

  Reduce阶段
Reducer
OutputFormat(默认TextOutputFormat)








什么是数据本地性( data locality)
 如果任务运行在它将处理的数据所在的节点,则称该任务具有“数据本地性”
 本地性可避免跨节点或机架数据传输,提高运行效率
数据本地性分类
 同节点(node-local)
 同机架(rack-local)
 其他( off-switch)


MapReduce编程接口
Hadoop提供了三种编程方式;
 Java(最原始的方式)
 Hadoop Streaming(支持多语言)
 Hadoop Pipes(支持C/C++)
 Java编程接口是所有编程方式的基础;
 不同的编程接口只是暴露给用户的形式不同而已,内部执行引擎是一样的;

java编程步骤:
基本准备
 Eclipse下载完成
 JDK安装完毕
 Hadoop集群搭建完成

编写流程
 新建java工程, 并导入hadoop jar包作为依赖包
 编写MapReduce程序
 打包MapReduce程序成jar包
 运行MapReduce程序

1.上传一个log到/home/skx1中
[hadoop@skx1 hadoop-2.3.0]$ bin/hadoop fs -put logs/hadoop-hadoop-namenode-skx1.localdomain.log /home/skx1
用浏览器查看是否已经上传

2.创建一个输出目录/home/ouput
[hadoop@skx1 hadoop-2.3.0]$ bin/hadoop fs -mkdir /home/ouput

3.运行WordCount
[hadoop@skx1 hadoop-2.3.0]$ bin/hadoop jar /home/hadoop/worddemo.jar org.apache.hadoop.examples.WordCount  /home/skx1 /home/output



异常1:Failed while trying to construct the redirect url to the log server
异常2:skx4:19888不能连接

需要配置history?
  • 大小: 135.9 KB
  • 大小: 123.4 KB
  • 大小: 96.1 KB
  • 大小: 5.4 KB
分享到:
评论

相关推荐

    大数据处理--hadoop2.0核心架构技术

    大数据处理--hadoop2.0核心架构技术,主要介绍了大数据面临的挑战,而hadoop正是解决这些挑战的重要技术,接着分别介绍了hadoop1.0和hadoop2.0的区别,进而重点讲到hadoop2.0 YARN,详细分析MapReduce及HDFS架构。

    Hadoop2.x大数据平台

    HDFS 2.0实战—Shell命令使用.pdf (3) Understanding_Hadoop_Clusters_and_the_Network.pdf 《 HDFS应用场景、部署、原理与基本架构》作业.pdf 《 YARN应用程序设计方法》作业.pdf 《MapReduce 2.0程序设计(涉及多...

    HCIA-Big Data V2.0视频.zip

    3.1 MapReduce和Yarn基本介绍-MapReduce和Yarn功能与架构 3.1 MapReduce和Yar.zip 3.2 YARN的功能与架构 3.3 YARN的资源管理和特性介绍 4.1 Spark概述及核心Spark Core 4.2 Spark体系结构梳理 5.1 Hbase的功能和...

    华为HCIA-Big Data V2.0 LVC公开课培训.rar

    3.1_MapReduce和Yarn基本介绍-MapReduce和Yarn功能与架构 3.2_Yarn的资源管理和任务调度-增强特性 第四章 Spark2x基于内存的分布式计算 4.1_Spark概述-Spark原理与架构 4.2_Spark原理与架构-Spark在FusionInsight...

    华为HCIA-Big Data V2.0 LVC公开课培训视频教程【共25集】.rar

    3.1.1 MapReduce和Yarn基本介绍-MapReduce和Yarn功能与架构 3.2.1 YARN的功能与架构 3.3.1 YARN的资源管理和特性介绍 4.1.1 Spark概述及核心Spark Core# 4.2.1 Spark体系结构梳理 5.1.1 Hbase的功能和架构 ...

    论文研究-SLA-aware Energy-efficient Scheduling Scheme for Hadoop YARN.pdf

    基于SLA感知的Hadoop YARN高效节能调度策略,李萍,鞠雷,Apache Hadoop是当前最流行的云计算平台,可为多租户环境下的应用程序提供云计算服务。YARN(亦可称MapReduce 2.0)是Hadoop 2.0中的资源管理��

    HCIE-Big Data-Data Mining V2.0 考试大纲.pdf

    Hadoop/HDFS/Zookeeper/HBase/MapReduce/Yarn/Hive/Flink/Flume/Kafka/Loader/ElasticSearch/R edis) 数据预处理 特征选择与降维 有监督学习 无监督学习 模型评估与优化 数据挖掘综合应用 Spark MLlib 数据挖掘 ...

    Hadoop MapReduce架构

    Hadoop MapReduce 是 Hadoop 平台根据 MapReduce 原理实现的计算框架,目前已经实现了两个版本,MapReduce 1.0 和基于 YARN 结构的 MapReduce 2.0。 尽管 MapReduce 1.0 中存在一些问题,但是整体架构比较清晰,更...

    Pro Apache Hadoop(Apress,2ed,2014)

    Revised to cover Hadoop 2.0, the book covers the very latest developments such as YARN (aka MapReduce 2.0), new HDFS high-availability features, and increased scalability in the form of HDFS ...

    大数据平台简介.pptx

    Hadoop生态系统 Ambari (安装部署工具) Zookeeper (分布式协调服务) HBase (分布式协数据库) Oozie (作业流调度系统) HDFS (分布式存储系统) YARN (分布式计算框架) MapReduce (离线计算) Tez (DAG...

    CSDN在线培训——Hadoop 2.0新特性剖析及应用

    1. HDFS 2.0新特性剖析及应用 (1)NameNode HA (2)NameNode Federation (3)HDFS 快照(snapshot) (4)HDFS 缓存(in-memory cache) (5)HDFS ACL (6)异构层级存储结构(Heterogeneous Storage ...

    Hadoop视频教程套餐下载-零基础大数据实战培训教程配文本项目案例

    Hadoop视频教程套餐下载-零基础大数据实战培训教程配文本项目案例; HBase、Hadoop2.0YARN、MapReduce、Greenplum、Chukwa

    HCIA-Big_Data_V2.0_培训教材(完整书签版).pdf

    HCIA-Big_Data_V2.0_培训教材,在原版基础上已添加完整书签。 内容包括HDFS、MapReduce和Yarn、Spark、HBase、Hive、Streaming、Loader、Flume、Kafka、Zookeeper等

    大数据hadoop集群部署-最详细的部署-2.8.5.pdf

    YARN框架下的MapReduce可以开启JobHistoryServer来记录历史任务信息,否则只能查看当前正在执行的任务信息。 Zookeeper的作用是负责HDFS中NameNode主备节点的选举,和YARN框架下ResourceManaer主备节点的选举。

    细解Hadoop

    Hadoop 分布式文件系统 在Hadoop1.0中,由于MapReduce模块的主服务(Jobtracker)任务太多,当集群中MR任务非常多时,会造成大量内存...重构后的MapReduce(即Yarn)和增强功能后的Hdfs,公共组件Common合称Hadoop2.0。

    guagua:Hadoop MapReduce和Hadoop YARN的迭代计算框架

    瓜瓜瓜Hadoop MapReduce和Hadoop YARN上的迭代计算框架。消息Guagua 0.7.7发布了很多改进。 检查我们的会议入门请访问以获取教程。什么是瓜瓜瓜? Shifu的子项目Guagua是一个基于Hadoop MapReduce和YARN的分布式,可...

    hadoop技术内幕:深入解析yarn架构设计与实现原理.epub

    深入解析yarn架构设计与实现原理》是“hadoop技术内幕”系列的第3本书,前面两本分别对common、hdfs和mapreduce进行了深入分析和讲解,赢得了极好的口碑,hadoop领域几乎人手一册,本书则对yarn展开了深入的探讨,是...

    log-analysis:hadoop日志分析工具

    该工具借助纱线的日志聚合功能来分析日志文件,即通过HDFS中的以下参数设置的目录中的所有日志文件: mapreduce.jobhistory.done-dir yarn.node.manager.remote-app-log-dir 当将日志信息,持久性数据分析到数据库...

    Hadoop-YARNIntroduce

    MapReduce1.0中的资源管理调度功能,被单独分离出来形成了YARN,它是一个纯粹的资源管理调度框架,而不是一个计算框架被剥离了资源管理调度功能的MapReduce框架就变成了MapReduce2.0,它是运行在YARN之上

    Mastering Hadoop(PACKT,2014)

    This book explores the industry guidelines to optimize MapReduce jobs and higher-level abstractions such as Pig and Hive in Hadoop 2.0. Then, it dives deep into Hadoop 2.0 specific features such as ...

Global site tag (gtag.js) - Google Analytics