7、Yarn--MapReduce2.0

onway417

浏览: 85906 次

最近访客更多访客>>

非法用户

dxr19870317

fengyonglei

dfeng

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

DFS/KDD

1、yarn介绍：
MapReduce 2.0和YARN区别：
 YARN是一个资源管理系统，负责资源管理和调度
 MapReduce只是运行在YARN上的一个应用程序
 如果把YARN看做“android”，则MapReduce只是一个“app”
MapReduce 1.0和MapReduce 2.0区别：
 MapReduce 1.0是一个独立的系统，直接运行在Linux之上
 MapReduce 2.0则是运行YARN上的框架，且可与多种框架一起运行在YARN上

2、MapReduce特点
 易于编程
 良好的扩展性
 高容错性
 适合PB级以上海量数据的离线处理

MapReduce将作业的整个运行过程分为两个阶段
Map阶段
InputFormat（默认TextInputFormat）
Mapper
Combiner（ local reducer）
Partitioner

Reduce阶段
Reducer
OutputFormat（默认TextOutputFormat）

什么是数据本地性（ data locality）
 如果任务运行在它将处理的数据所在的节点，则称该任务具有“数据本地性”
 本地性可避免跨节点或机架数据传输，提高运行效率
数据本地性分类
 同节点(node-local)
 同机架(rack-local)
 其他（ off-switch）

MapReduce编程接口
Hadoop提供了三种编程方式；
 Java（最原始的方式）
 Hadoop Streaming（支持多语言）
 Hadoop Pipes（支持C/C++）
 Java编程接口是所有编程方式的基础；
 不同的编程接口只是暴露给用户的形式不同而已，内部执行引擎是一样的；

java编程步骤：
基本准备
 Eclipse下载完成
 JDK安装完毕
 Hadoop集群搭建完成

编写流程
 新建java工程，并导入hadoop jar包作为依赖包
 编写MapReduce程序
 打包MapReduce程序成jar包
 运行MapReduce程序

1.上传一个log到/home/skx1中
[hadoop@skx1 hadoop-2.3.0]$ bin/hadoop fs -put logs/hadoop-hadoop-namenode-skx1.localdomain.log /home/skx1
用浏览器查看是否已经上传

2.创建一个输出目录/home/ouput
[hadoop@skx1 hadoop-2.3.0]$ bin/hadoop fs -mkdir /home/ouput

3.运行WordCount
[hadoop@skx1 hadoop-2.3.0]$ bin/hadoop jar /home/hadoop/worddemo.jar org.apache.hadoop.examples.WordCount /home/skx1 /home/output