第二章:关于mapReduce
mapreduce是一种可用于数据处理的编程模型,它是并行运行的,可以处理大规模数据分析。
处理少量大文件比大量小文件更容易
mapreduce两个处理阶段:
map阶段和reduce阶段,每个阶段都以key/value做为输入和输出,类型由程序员选择
map中的key是文件中的行偏移量,map函数并不需要这些信息,所以将其忽略
reduce的输入类型必须与map的输出类型相匹配
reduce函数输出文件的目录在运行任务前应该不存在
数据流:
节点角色:
tasktracker:用来执行map和reduce任务
jobtracker:用来调度任务在哪个tasktracker上执行
执行任务期,tasktracker会将运行进度报告给jobtracker,job由此记录作业的整体进度,如果其中一个任务失败,它可以调度别一个tasktracker来重新执行
分片:hadoop将mapreduce输入数据划分成等长的小数据块称为分片,hadoop为每个分片建立一个map任务,并由map函数来处理分片中的每行数据(分片切分更细,负载均衡就越好,当然太小map数就越多,所须要执行时间就越长)
一个合理的分片应该与hdfs块大小相同,默认64M
map函数的输出会写到磁盘上,非hdfs;reduce的输出存在hdfs上实现可靠存储
单个reduce的输入通常来自所有map的输出
相关推荐
Hadoop 权威指南读书笔记 我自己画的一张图
Hadoop权威指南----读书笔记
hadoop权威指南4和源码hadoop权威指南4和源码hadoop权威指南4和源码hadoop权威指南4和源码
Hadoop权威指南中文版(完全版)Hadoop权威指南中文版(完全版)Hadoop权威指南中文版(完全版)Hadoop权威指南中文版(完全版)
本书是hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行hadoop集群。 什么是谷歌帝国的基石?mapreduce算法是也!apache hadoop架构作为mapreduce算法的一种开源应用,是...
Hadoop权威指南
hadoop权威指南第四版高清 pdf下载 hadoop权威指南第四版高清 pdf下载
本文带来的资源是hadoop权威指南第四版中文版,适合hadoop深入学习
Hadoop权威指南----读书笔记介绍Hadoop这一高性能处理海量数据集的理想工具
Hadoop编程书籍,由浅入深,介绍Hadoop编程,特别适合初学者以及企业开发人员以及大学生以及其他深造学习者
Hadoop权威指南(中文版)(带书签 Hadoop权威指南(中文版)(带书签 Hadoop权威指南(中文版)(带书签 Hadoop权威指南(中文版)(带书签
Hadoop权威指南 第四版 修订版&升级版 中文版 pdf格式。大家放心,绝对是中文版,不骗人。原文件很大,稍压缩了一下,页面依然非常清晰。无水印。共732页。 Tom White 著,王海 等译,清华大学出版社,2017年7月第4...
绝对第四版!绝对中文!绝对完整!绝对第四版!绝对中文!绝对完整! Hadoop权威指南 大数据 第四版 修订版&升级版 中文版 pdf格式。Tom White 著,王海 等译,清华大学出版社,最新第4版。
hadoop权威指南代码 (Hadoop: The Definitive Guide code) http://www.hadoopbook.com
Hadoop权威指南第四版中文版,高清扫描版,有源码 本文带来的资源是hadoop权威指南第四版中文版以及配套的源码,内容以Hadoop2.x为主,包含一些hadoop的stable版本的新特性,与之前 的版本相比增加了介绍YARN , ...
史上最全--HADOOP权威指南 第3版 PDF电子书下载 带目录书签 完整版
Hadoop权威指南:大数据的存储与分析(第4版)(修订版) 中英文PDF高清,包含源码!
新版已上市!全面深度解读Hadoop的指南,驰骋于云计算和大数据领域的通俗读本
hadoop权威指南中文版 云计算 java hive hbase mapreduce hdfs
hadoop权威指南第3版是一本非常专业的Hadoop参考学习用书,该书系统阐述了Hadoop发展现状和应用,知识体系完善,内容丰富全面,对Hadoop感兴趣的朋友可以学习学习。