hadoop 源码分析一 - - ITeye博客

`

samuschen

浏览: 412175 次
性别:
来自: 北京

最近访客更多访客>>

dy.f

u012363178

谁谁谁

wangyy

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

秦时明月黑：深入浅出，楼主很有功底
hive编译部分的源码结构
tywo45：感觉好多错误，但还是支持！
HDFS+MapReduce+Hive+HBase十分钟快速入门
xbbHistory：解析的很棒！！
Linux-VFS
darrendu：执行这个命令，bin/hadoop fs -ls /home/ ...
Hadoop示例程序WordCount运行及详解
moudaen：请问楼主，我执行总后一条语句时，执行的是自带的1.sql，你当 ...
TPC-H on Hive

hadoop 源码分析一

博客分类：

Hadoop

阅读更多

InputFormat : 将输入的数据集切割成小数据集 InputSplits, 每一个 InputSplit 将由一个 Mapper 负责处理。此外 InputFormat 中还提供一个 RecordReader 的实现 , 将一个 InputSplit 解析成 <key,value> 对提供给 map 函数。

InputSplit:继承自Writable接口，因此一个InputSplit实则包含了四个接口函数，读和写（readFields和 write），getLength能够给出这个split中所记录的数据大小，getLocations能够得到这个split位于哪些主机之上（blkLocations[blkIndex].getHosts()），这里需要说明的是一个block要么对应一个split，要么对应多个 split，因此每个split都可以从它所属的block中获取主机信息，而且我猜测block的大小应该是split的整数倍，否则有可能一个 split跨越两个block。

RecordReader:其实这个接口主要就是为了维护一组<K,V>键值对，任何一个实现了该接口的类的构造函数都需要是 “(Configuration conf, Class< ? extends InputSplit> split)”的形式，因为一个RecordReader是有针对性的，就是针对某种split来进行的，因此必须得与某种split绑定起来。这个接口中最重要的方法就是next，在利用next进行读取K和V时，需要先通过createKey和createValue来创建K和V的对象，然后再传给 next作为参数，使得next对形参中的数据成员进行修改。

分享到：

日语也骂人 | hive compile-1

2011-02-22 15:29
浏览 1246
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop源码分析（完整版）: Hadoop源码分析是深入理解Hadoop分布式计算平台原理的起点，通过源码分析，可以更好地掌握Hadoop的工作机制、关键组件的实现方式和内部通信流程。Hadoop项目包括了多个子项目，其中最核心的是HDFS和MapReduce，这两...

Hadoop源码分析视频下载: 这个"Hadoop源码分析视频下载"提供了一种深入理解Hadoop内部工作原理的途径，这对于开发者、系统管理员以及对大数据技术感兴趣的人来说是非常有价值的。接下来，我们将详细探讨Hadoop的核心组件、其设计哲学、源码...

Hadoop源码分析完整版: 总的来说，Hadoop源码分析是提升大数据处理技术深度的重要途径，涵盖的内容广泛且深入，包括分布式文件系统的设计原理、并行计算模型的实现、资源管理的优化策略等多个方面。通过学习和研究，你将能够构建起对Hadoop...

Hadoop源码分析完整版共55章: ### Hadoop源码分析知识点概览 #### 一、Hadoop概述与背景 - **Google核心技术**：Hadoop的设计理念很大程度上受到了Google一系列核心技术的影响，包括Google File System (GFS)、BigTable以及MapReduce等。这些...

Hadoop源码分析- RPC DataNode: 综上所述，Hadoop源码分析- RPC DataNode涵盖了对Hadoop分布式文件系统中DataNode组件如何利用RPC进行远程过程调用的深入探究。这包括了DataNode与NameNode之间的通信机制，IPC模块在其中扮演的角色，以及如何通过...

Hadoop源码分析第一章 Hadoop脚本: 《Hadoop源码分析第一章 Hadoop脚本》 Hadoop是大数据处理领域中的一个核心框架，它为海量数据的存储和计算提供了分布式解决方案。本文将深入剖析Hadoop脚本，带你理解其背后的实现机制，这对于理解Hadoop的工作...

Hadoop源码分析: 在深入探讨Hadoop源码分析之前，我们先理解Hadoop的核心概念。Hadoop是一个开源的分布式计算框架，由Apache基金会开发，主要用于处理和存储大规模数据。它的主要组件包括HDFS（Hadoop Distributed File System）和...

Hadoop源代码分析(完整版).pdf: Hadoop 源代码分析 Hadoop 是一个开源的分布式计算框架，由 Apache 基金会维护。Hadoop 的核心组件包括 HDFS（Hadoop Distributed File System）和 MapReduce。HDFS 是一个分布式文件系统，可以存储大量的数据，而 ...

Hadoop源码分析（client端提交job到rm端）: 学习Hadoop源码过程中做的源码分析，共享一下，PPT中有我的邮箱，可以互相探讨。Hadoop源码分析（client端提交job到rm端）

Hadoop源码分析.rar: 本资源"**Hadoop源码分析.rar**"包含了丰富的资料，旨在帮助学习者更深入地了解Hadoop的工作原理和实现细节。 **MapReduce**是Hadoop的核心计算模型，由两个主要阶段组成：Map阶段和Reduce阶段。Map阶段将输入数据...

Hadoop源码分析（client部分）: ### Hadoop源码分析（client部分） #### Hadoop概述 Hadoop是一个开源的分布式存储与计算框架，由Apache基金会维护。它为用户提供了处理和存储海量数据的能力，并且能够运行在低成本的商品硬件集群上。Hadoop的...

hadoop 源码分析文档: Hadoop是开源的分布式计算框架，它主要由两个核心组件构成：HDFS（Hadoop Distributed File System）和MapReduce。...Hadoop的源码分析文档提供了宝贵的参考资料，有助于开发者更好地理解和利用这个强大的框架。

hadoop源码分析-HDFS部分: 《Hadoop源码分析——HDFS部分》 Hadoop，作为开源大数据处理的基石，其核心组件之一就是HDFS（Hadoop Distributed File System），这是一个高度容错性的分布式文件系统，设计用于运行在廉价硬件上，能够处理大规模...

hadoop源码分析-HDFS&MapReduce: 在Hadoop这个分布式计算框架中，HDFS（Hadoop Distributed File System）和MapReduce是两个核心组件，它们共同构建了大数据处理的基础架构。...对于想要成为Hadoop专家的开发者来说，源码分析是不可或缺的一环。

实战hadoop中的源码: 【描述】"实战hadoop，源码，刘鹏，开启通向云计算的捷径"指出，学习Hadoop源码不仅是提升技术能力的有效途径，而且由知名专家刘鹏指导，能够帮助我们更快地掌握云计算的关键技术。刘鹏是Hadoop领域的权威专家，他的...

hadoop源码编译所需软件包: 在对Hadoop源码进行编译的过程中，确保正确地安装和配置所有必要的软件包是至关重要的。以下将详细阐述这些软件包的作用以及如何在编译Hadoop源码时使用它们。 1. **protobuf (Protocol Buffers)** Protocol ...

Global site tag (gtag.js) - Google Analytics