1、yarn介绍:
MapReduce 2.0和YARN区别:
YARN是一个资源管理系统,负责资源管理和调度
MapReduce只是运行在YARN上的一个应用程序
如果把YARN看做“android”,则MapReduce只是一个“app”
MapReduce 1.0和MapReduce 2.0区别:
MapReduce 1.0是一个独立的系统,直接运行在Linux之上
MapReduce 2.0则是运行YARN上的框架,且可与多种框架一起运行在YARN上
2、MapReduce特点
易于编程
良好的扩展性
高容错性
适合PB级以上海量数据的离线处理
MapReduce将作业的整个运行过程分为两个阶段
Map阶段
InputFormat(默认TextInputFormat)
Mapper
Combiner( local reducer)
Partitioner
Reduce阶段
Reducer
OutputFormat(默认TextOutputFormat)
什么是数据本地性( data locality)
如果任务运行在它将处理的数据所在的节点,则称该任务具有“数据本地性”
本地性可避免跨节点或机架数据传输,提高运行效率
数据本地性分类
同节点(node-local)
同机架(rack-local)
其他( off-switch)
MapReduce编程接口
Hadoop提供了三种编程方式;
Java(最原始的方式)
Hadoop Streaming(支持多语言)
Hadoop Pipes(支持C/C++)
Java编程接口是所有编程方式的基础;
不同的编程接口只是暴露给用户的形式不同而已,内部执行引擎是一样的;
java编程步骤:
基本准备
Eclipse下载完成
JDK安装完毕
Hadoop集群搭建完成
编写流程
新建java工程, 并导入hadoop jar包作为依赖包
编写MapReduce程序
打包MapReduce程序成jar包
运行MapReduce程序
1.上传一个log到/home/skx1中
[hadoop@skx1 hadoop-2.3.0]$ bin/hadoop fs -put logs/hadoop-hadoop-namenode-skx1.localdomain.log /home/skx1
用浏览器查看是否已经上传
2.创建一个输出目录/home/ouput
[hadoop@skx1 hadoop-2.3.0]$ bin/hadoop fs -mkdir /home/ouput
3.运行WordCount
[hadoop@skx1 hadoop-2.3.0]$ bin/hadoop jar /home/hadoop/worddemo.jar org.apache.hadoop.examples.WordCount /home/skx1 /home/output
异常1:Failed while trying to construct the redirect url to the log server
异常2:skx4:19888不能连接
需要配置history?
- 大小: 135.9 KB
- 大小: 123.4 KB
- 大小: 96.1 KB
- 大小: 5.4 KB
分享到:
相关推荐
大数据处理--hadoop2.0核心架构技术,主要介绍了大数据面临的挑战,而hadoop正是解决这些挑战的重要技术,接着分别介绍了hadoop1.0和hadoop2.0的区别,进而重点讲到hadoop2.0 YARN,详细分析MapReduce及HDFS架构。
HDFS 2.0实战—Shell命令使用.pdf (3) Understanding_Hadoop_Clusters_and_the_Network.pdf 《 HDFS应用场景、部署、原理与基本架构》作业.pdf 《 YARN应用程序设计方法》作业.pdf 《MapReduce 2.0程序设计(涉及多...
3.1 MapReduce和Yarn基本介绍-MapReduce和Yarn功能与架构 3.1 MapReduce和Yar.zip 3.2 YARN的功能与架构 3.3 YARN的资源管理和特性介绍 4.1 Spark概述及核心Spark Core 4.2 Spark体系结构梳理 5.1 Hbase的功能和...
3.1_MapReduce和Yarn基本介绍-MapReduce和Yarn功能与架构 3.2_Yarn的资源管理和任务调度-增强特性 第四章 Spark2x基于内存的分布式计算 4.1_Spark概述-Spark原理与架构 4.2_Spark原理与架构-Spark在FusionInsight...
3.1.1 MapReduce和Yarn基本介绍-MapReduce和Yarn功能与架构 3.2.1 YARN的功能与架构 3.3.1 YARN的资源管理和特性介绍 4.1.1 Spark概述及核心Spark Core# 4.2.1 Spark体系结构梳理 5.1.1 Hbase的功能和架构 ...
基于SLA感知的Hadoop YARN高效节能调度策略,李萍,鞠雷,Apache Hadoop是当前最流行的云计算平台,可为多租户环境下的应用程序提供云计算服务。YARN(亦可称MapReduce 2.0)是Hadoop 2.0中的资源管理��
Hadoop/HDFS/Zookeeper/HBase/MapReduce/Yarn/Hive/Flink/Flume/Kafka/Loader/ElasticSearch/R edis) 数据预处理 特征选择与降维 有监督学习 无监督学习 模型评估与优化 数据挖掘综合应用 Spark MLlib 数据挖掘 ...
Hadoop MapReduce 是 Hadoop 平台根据 MapReduce 原理实现的计算框架,目前已经实现了两个版本,MapReduce 1.0 和基于 YARN 结构的 MapReduce 2.0。 尽管 MapReduce 1.0 中存在一些问题,但是整体架构比较清晰,更...
Revised to cover Hadoop 2.0, the book covers the very latest developments such as YARN (aka MapReduce 2.0), new HDFS high-availability features, and increased scalability in the form of HDFS ...
Hadoop生态系统 Ambari (安装部署工具) Zookeeper (分布式协调服务) HBase (分布式协数据库) Oozie (作业流调度系统) HDFS (分布式存储系统) YARN (分布式计算框架) MapReduce (离线计算) Tez (DAG...
1. HDFS 2.0新特性剖析及应用 (1)NameNode HA (2)NameNode Federation (3)HDFS 快照(snapshot) (4)HDFS 缓存(in-memory cache) (5)HDFS ACL (6)异构层级存储结构(Heterogeneous Storage ...
Hadoop视频教程套餐下载-零基础大数据实战培训教程配文本项目案例; HBase、Hadoop2.0YARN、MapReduce、Greenplum、Chukwa
HCIA-Big_Data_V2.0_培训教材,在原版基础上已添加完整书签。 内容包括HDFS、MapReduce和Yarn、Spark、HBase、Hive、Streaming、Loader、Flume、Kafka、Zookeeper等
YARN框架下的MapReduce可以开启JobHistoryServer来记录历史任务信息,否则只能查看当前正在执行的任务信息。 Zookeeper的作用是负责HDFS中NameNode主备节点的选举,和YARN框架下ResourceManaer主备节点的选举。
Hadoop 分布式文件系统 在Hadoop1.0中,由于MapReduce模块的主服务(Jobtracker)任务太多,当集群中MR任务非常多时,会造成大量内存...重构后的MapReduce(即Yarn)和增强功能后的Hdfs,公共组件Common合称Hadoop2.0。
瓜瓜瓜Hadoop MapReduce和Hadoop YARN上的迭代计算框架。消息Guagua 0.7.7发布了很多改进。 检查我们的会议入门请访问以获取教程。什么是瓜瓜瓜? Shifu的子项目Guagua是一个基于Hadoop MapReduce和YARN的分布式,可...
深入解析yarn架构设计与实现原理》是“hadoop技术内幕”系列的第3本书,前面两本分别对common、hdfs和mapreduce进行了深入分析和讲解,赢得了极好的口碑,hadoop领域几乎人手一册,本书则对yarn展开了深入的探讨,是...
该工具借助纱线的日志聚合功能来分析日志文件,即通过HDFS中的以下参数设置的目录中的所有日志文件: mapreduce.jobhistory.done-dir yarn.node.manager.remote-app-log-dir 当将日志信息,持久性数据分析到数据库...
MapReduce1.0中的资源管理调度功能,被单独分离出来形成了YARN,它是一个纯粹的资源管理调度框架,而不是一个计算框架被剥离了资源管理调度功能的MapReduce框架就变成了MapReduce2.0,它是运行在YARN之上
This book explores the industry guidelines to optimize MapReduce jobs and higher-level abstractions such as Pig and Hive in Hadoop 2.0. Then, it dives deep into Hadoop 2.0 specific features such as ...