InputFormat
:
将输入的数据集切割成小数据集
InputSplits,
每一个
InputSplit
将由一个
Mapper
负责处理。此外
InputFormat
中还提供一个
RecordReader
的实现
,
将一个
InputSplit
解析成
<key,value>
对提供给
map
函数。
InputSplit:继承自Writable接口,因此一个InputSplit实则包含了四个接口函数,读和写(readFields和
write),getLength能够给出这个split中所记录的数据大小,getLocations能够得到这个split位于哪些主机之上
(blkLocations[blkIndex].getHosts()),这里需要说明的是一个block要么对应一个split,要么对应多个
split,因此每个split都可以从它所属的block中获取主机信息,而且我猜测block的大小应该是split的整数倍,否则有可能一个
split跨越两个block。
RecordReader:其实这个接口主要就是为了维护一组<K,V>键值对,任何一个实现了该接口的类的构造函数都需要是
“(Configuration conf, Class< ? extends InputSplit>
split)”的形式,因为一个RecordReader是有针对性的,就是针对某种split来进行的,因此必须得与某种split绑定起来。这个接口
中最重要的方法就是next,在利用next进行读取K和V时,需要先通过createKey和createValue来创建K和V的对象,然后再传给
next作为参数,使得next对形参中的数据成员进行修改。
分享到:
相关推荐
Hadoop源码分析(完整版),详细分析了Hadoop源码程序,为学习Hadoop的人提供很好的入门指导
Hadoop源码分析视频下载
caibinbupt的Hadoop源码分析完整版,包括 HDFS 和 MapReduce。 HDFS: 41章 MapReduce: 14章
Hadoop源码分析完整版..
hadoop 源码分析 文档
Hadoop源码分析,Map-Reduce作业提交运行入手分析这个过程中涉及到的Hadoop源码架构,此外本文基于的Hadoop版本是2.6.4
学习Hadoop源码过程中做的源码分析,共享一下,PPT中有我的邮箱,可以互相探讨。Hadoop源码分析(client端提交job到rm端)
Hadoop源代码分析(完整版).pdf
大数据处理系统 hadoop源码分析 基于hadoop2.6
hadoop源码分析hadoop源码分析
Hadoop源码分析.rar 有助于hadoop学习者进一步学习!! 非常好的资源!!
一个比较详细的hadoop源码分析文档,内容很详实,包括hadoop、hdfs、hive等等等
自己写的PPT,详解Hadoop源码及其相关流程
Hadoop的源代码分析总共55章,包括HDFS: 41章、MapReduce: 14章。
NULL 博文链接:https://zqhxuyuan.iteye.com/blog/1879292
hadoop源码分析-mapreduce部分.doc
NULL 博文链接:https://hadoopcn.iteye.com/blog/1165888
该压缩包包含Hadoop实战、Hadoop权威指南(第二版)、Hadoop源码分析(完整版)的内容,有助于初、中、高级工程师的理解和提升