MapReduce数据流 - 海兰 - ITeye博客

`

tenght

浏览: 47562 次

最近访客更多访客>>

jxqc_job

汽车城路

极品拖拉机

aubdiy

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

MapReduce数据流

阅读更多

Hadoop does its best to run the map task on a node where the input data resides in
HDFS. This is called the data locality optimization because it doesn’t use valuable clus-
ter bandwidth. Sometimes, however, all three nodes hosting the HDFS block replicas
for a map task’s input split are running other map tasks, so the job scheduler will look
for a free map slot on a node in the same rack as one of the blocks. Very occasionally
even this is not possible, so an off-rack node is used, which results in an inter-rack

network transfer. The three possibilities:

Hadoop在存储有输入数据(HDFS中的数据)的节点上运行Map任务，可以获得最佳性能。这就是所谓的数据本地化优化(data locality optimization)。

a: Data-localmap tasks

b: rack-localmap tasks

c: off-rackmap tasks

MapReduce data flow with a single reduce task:

一个reduce任务的MapReduce数据流：

虚线框：node

虚线箭头：node内部的数据传输

实线箭头：节点之间的数据传输

MapReduce data flow with multiple reduce tasks：

多个reduce任务的MapReduce数据流：

This diagram makes it clear why the data flow between map and reduce tasks is collo-
quially known as “the shuffle,” as each reduce task is fed by many map tasks. The
shuffle is more complicated than this diagram suggests, and tuning it can have a big
impact on job execution time.

分享到：

MapReduce的逻辑数据流图 | MapReduce

2013-07-11 15:17
浏览 294
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

FlowS:一种MapReduce数据流公平调度方法: FlowS:一种MapReduce数据流公平调度方法

可视化和实时监控平台Ambrose.zip: Twitter Ambrose 是 MapReduce 数据流的可视化和实时监控平台。只要你提交 job 到 Hadoop 集群上执行，则 Ambrose 将实时更新可视化界面来反映 job 的最新状态。Ambrose 提供了下面的 Web 用户界面：工作流进度条...

大数据系统基础（自主模式）-清华大学-王建民、徐葳、陈康等视频.txt: │ 3 4.4MapReduce数据流.mp4 │ 4 4.5MapReduce性能优化与容错.mp4 │ 5 4.6Hadoop.mp4 │ 6 4.7MapReduce总结.mp4 │ 7 4.8Pig Latin.mp4 │ 8 4.9Pig Latin语法.mp4 │ 9 4.10Pig Latin 嵌套数据类型.mp4 │ ├...

支持大规模流数据处理的在线MapReduce数据传输机制: 基于Event推送方式,利用Netty底层异步通信方式等技术,建立在线MapReduce数据传输机制,进一步实现其原型程序,解决了大规模分布式计算程序的快速在线传输和数据分发等问题,支持流数据动态分发机制,为动态MapReduce模型...

大数据、大数据处理模型及MapReduce: 文档简要介绍了大数据、大数据处理模型及MapReduce的相关知识

yelp-heat-map:Yelp 学术数据集的 MapReduce 算法，用于创建单词的地理热图: 下表显示了获取单个单词出现的地理坐标列表的 MapReduce 数据流：映射器输入映射器输出/减速器输入减速机输出查看 JSON 结构每次找到所需的单词时，生成键（字符串）：Business_ID 值（可写）：1 键（字符串）：...

基于MapReduce的贝叶斯垃圾邮件过滤机制.pdf: 提出一种基于MapReduce技术的贝叶斯垃圾邮件过滤机制,一方面对传统贝叶斯过滤技术进行改进,另一方面利用MapReduce模型的海量数据处理优势优化邮件集训练与学习。实验,较之目前流行的传统贝叶斯算法、K最近邻(NN算法...

支持大规模流数据处理的在线MapReduce数据传输机制.pdf: #资源达人分享计划#

基于Hadoop MapReduce的分布式数据流聚类算法研究.pdf: #资源达人分享计划#

论文研究-云计算环境下的多路数据流分层模块化建模与设计.pdf: 论文研究-云计算环境下的多路数据流分层模块化建模与设计.pdf, ... 多路数据流扩展了传统数据流和 Google的MapReduce计算框架, 在简化设计的同时也使最终系统易于在云计算环境中实现.

数据流技术在GPU和大数据处理中的应用: 在编程模型方面，数据流思想在大数据编程模型领域得到了广泛应用，例如MapReduce和Spark等。从数据流模型的角度多层次分析了英伟达GPU的体系结构以及CUDA编程模型，阐述了数据流模型在GPU软硬件系统中的应用。分析了...

论文研究-基于MapReduce模型的侵蚀地形因子计算方法研究.pdf: 利用MapReduce模型进行流路查找与栅格汇聚来替代传统正反向遍历算法，解决侵蚀地形因子计算过程中汇水和累计坡长的计算效率问题。实验结果表明，对于基于海量数字高程模型数据的地形因子提取，该方法能够在计算精度...

《SQL对MapReduce及与之相关的流数据处理的支持》国际提案研究.pdf: #资源达人分享计划#

论文研究-基于MapReduce计算模型的并行关联规则挖掘算法研究综述.pdf: 随着数据的爆炸式增长，传统的算法已不能适应大数据挖掘的需要，需要分布式、并行的关联规则挖掘算法来解决上述问题。MapReduce是一种流行的分布式并行计算模型，因其使用简单、伸缩性好、自动负载均衡和自动容错等...

论文研究-一种面向分布式数据流的闭频繁模式挖掘方法.pdf: 对智能交通系统中面向分布式数据流的频繁模式挖掘问题进行了研究。针对智能交通系统中传感器网络数据流的特点，提出一种基于分布式窗口树的分布式数据流闭频繁模式挖掘方法。该方法在分布式节点中构建分布式窗口树，...

hadoop-mapreduce-examples-2.6.0: Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来...HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

【1】MapReduce概述: 1.定义 MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑...分析WordCount 数据流走向深入理解MapReduce 核心思想。 4.MapR

(hadoop HDFS 和 Mapreduce 架构浅析: Hadoop 是一个基于 Java 的分布式密集数据处理和数据分析的软件...Hadoop 可以管理结构化数据，以及诸如服务器日志文件和 Web 点击流的数据。同时还可以管理以非结构化文本为中心的数据，如 Facebook 和 Twitter。

网络状态感知的MapReduce作业洗牌数据传输调度研究: 在考虑已知这些周期性数据流传输的情况下，为MapReduce的洗牌数据传输调度问题建立了优化模型，并设计了一个有效的数据传输调度算法。在网络空闲时间段大小相同的情况下，证明了所提算法是近似比为3/2的近似算法。...

18_尚硅谷大数据之MapReduce_Hadoop数据压缩1: 4.1 概述 4.2 MR 支持的压缩编码 4.3 压缩方式选择 4.4 压缩位置选择 4.5 压缩参数配置 4.6 压缩实操案例 4.6.1 数据流的压缩和解

Global site tag (gtag.js) - Google Analytics