Hadoop does its best to run the map task on a node where the input data resides in
HDFS. This is called the data locality optimization because it doesn’t use valuable clus-
ter bandwidth. Sometimes, however, all three nodes hosting the HDFS block replicas
for a map task’s input split are running other map tasks, so the job scheduler will look
for a free map slot on a node in the same rack as one of the blocks. Very occasionally
even this is not possible, so an off-rack node is used, which results in an inter-rack
network transfer. The three possibilities:
Hadoop在存储有输入数据(HDFS中的数据)的节点上运行Map任务,可以获得最佳性能。这就是所谓的数据本地化优化(data locality optimization)。
a: Data-localmap tasks
b: rack-localmap tasks
c: off-rackmap tasks
MapReduce data flow with a single reduce task:
一个reduce任务的MapReduce数据流:
虚线框:node
虚线箭头:node内部的数据传输
实线箭头:节点之间的数据传输
MapReduce data flow with multiple reduce tasks:
多个reduce任务的MapReduce数据流:
This diagram makes it clear why the data flow between map and reduce tasks is collo-
quially known as “the shuffle,” as each reduce task is fed by many map tasks. The
shuffle is more complicated than this diagram suggests, and tuning it can have a big
impact on job execution time.
分享到:
相关推荐
FlowS:一种MapReduce数据流公平调度方法
Twitter Ambrose 是 MapReduce 数据流的可视化和实时监控平台。只要你提交 job 到 Hadoop 集群上执行,则 Ambrose 将实时更新可视化界面来反映 job 的最新状态。Ambrose 提供了下面的 Web 用户界面:工作流进度条...
│ 3 4.4MapReduce数据流.mp4 │ 4 4.5MapReduce性能优化与容错.mp4 │ 5 4.6Hadoop.mp4 │ 6 4.7MapReduce总结.mp4 │ 7 4.8Pig Latin.mp4 │ 8 4.9Pig Latin语法.mp4 │ 9 4.10Pig Latin 嵌套数据类型.mp4 │ ├...
基于Event推送方式,利用Netty底层异步通信方式等技术,建立在线MapReduce数据传输机制,进一步实现其原型程序,解决了大规模分布式计算程序的快速在线传输和数据分发等问题,支持流数据动态分发机制,为动态MapReduce模型...
文档简要介绍了大数据、大数据处理模型及MapReduce的相关知识
下表显示了获取单个单词出现的地理坐标列表的 MapReduce 数据流: 映射器输入映射器输出/减速器输入减速机输出查看 JSON 结构每次找到所需的单词时,生成键(字符串):Business_ID 值(可写):1 键(字符串):...
提出一种基于MapReduce技术的贝叶斯垃圾邮件过滤机制,一方面对传统贝叶斯过滤技术进行改进,另一方面利用MapReduce模型的海量数据处理优势优化邮件集训练与学习。实验,较之目前流行的传统贝叶斯算法、K最近邻(NN算法...
#资源达人分享计划#
#资源达人分享计划#
论文研究-云计算环境下的多路数据流分层模块化建模与设计.pdf, ... 多路数据流扩展了传统数据流和 Google的MapReduce计算框架, 在简化设计的同时也使最终系统易于在云计算环境中实现.
在编程模型方面,数据流思想在大数据编程模型领域得到了广泛应用,例如MapReduce和Spark等。从数据流模型的角度多层次分析了英伟达GPU的体系结构以及CUDA编程模型,阐述了数据流模型在GPU软硬件系统中的应用。分析了...
利用MapReduce模型进行流路查找与栅格汇聚来替代传统正反向遍历算法,解决侵蚀地形因子计算过程中汇水和累计坡长的计算效率问题。实验结果表明,对于基于海量数字高程模型数据的地形因子提取,该方法能够在计算精度...
#资源达人分享计划#
随着数据的爆炸式增长,传统的算法已不能适应大数据挖掘的需要,需要分布式、并行的关联规则挖掘算法来解决上述问题。MapReduce是一种流行的分布式并行计算模型,因其使用简单、伸缩性好、自动负载均衡和自动容错等...
对智能交通系统中面向分布式数据流的频繁模式挖掘问题进行了研究。针对智能交通系统中传感器网络数据流的特点,提出一种基于分布式窗口树的分布式数据流闭频繁模式挖掘方法。该方法在分布式节点中构建分布式窗口树,...
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来...HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
1.定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的 数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑...分析WordCount 数据流走向深入理解MapReduce 核心思想。 4.MapR
Hadoop 是一个基于 Java 的分布式密集数据处理 和数据分析的软件...Hadoop 可 以管理结构化数据,以及诸如服务器日志文件和 Web 点击流的数据。同时还可以管理以非结构化文本为中 心的数据,如 Facebook 和 Twitter。
在考虑已知这些周期性数据流传输的情况下,为MapReduce的洗牌数据传输调度问题建立了优化模型,并设计了一个有效的数据传输调度算法。在网络空闲时间段大小相同的情况下,证明了所提算法是近似比为3/2的近似算法。...
4.1 概述 4.2 MR 支持的压缩编码 4.3 压缩方式选择 4.4 压缩位置选择 4.5 压缩参数配置 4.6 压缩实操案例 4.6.1 数据流的压缩和解