Hadoop教程汇总连载之Hadoop基本流程和代码范例 -

wolfscry

浏览: 16943 次
性别:
来自: 北京

最近访客更多访客>>

lsy770719

techdo

soonly681

datongguan

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Hadoop教程汇总连载之Hadoop基本流程和代码范例

博客分类：

教程代码示例

Hadoop Hadoop教程 Hadoop示例

基本流程：

一个图片太大了，只好分割成为两部分。根据流程图来说一下具体的一个任务执行的情况。

1. 分布式环境中客户端创建任务并提交。

2. InputFormat做Map前的预处理，主要负责以下工作：

a) 验证输入的格式是否符合JobConfig的输入定义，这个在实现Map和构建Conf的时候就会知道，不定义可以是Writable的任意子类。

b) 将input的文件split为逻辑上的输入InputSplit，其实这就是在上面提到的在分布式文件系统中blocksize是有大小限制的，因此大文件会被划分为多个block。

c) 通过RecordReader来再次处理inputsplit为一组records，输出给Map。(inputsplit只是逻辑切分的第一步，但是如何根据文件中的信息来切分还需要RecordReader来实现，例如最简单的默认方式就是回车换行的切分)

3. RecordReader处理后的结果作为Map的输入，Map执行定义的Map逻辑，输出处理后的key,value对到临时中间文件。

4. Combiner可选择配置，主要作用是在每一个Map执行完分析以后，在本地优先作Reduce的工作，减少在Reduce过程中的数据传输量。

5. Partitioner可选择配置，主要作用是在多个Reduce的情况下，指定Map的结果由某一个Reduce处理，每一个Reduce都会有单独的输出文件。(后面的代码实例中有介绍使用场景)

6. Reduce执行具体的业务逻辑，并且将处理结果输出给OutputFormat。

7. OutputFormat的职责是，验证输出目录是否已经存在，同时验证输出结果类型是否如Config中配置，最后输出Reduce汇总后的结果。

代码范例：

业务场景描述：

可设定输入和输出路径(操作系统的路径非HDFS路径)，根据访问日志分析某一个应用访问某一个API的总次数和总流量，统计后分别输出到两个文件中。

仅仅为了测试，因此没有去细分很多类，将所有的类都归并于一个类便于说明问题。

图4 测试代码类图

LogAnalysiser就是主类，主要负责创建，提交任务，并且输出部分信息。内部的几个子类用途可以参看流程中提到的角色职责。具体的看看几个类和方法的代码片断：

LogAnalysiser::MapClass

public static class MapClass extends MapReduceBase

implements Mapper<longwritable, text,="" longwritable="" style="box-sizing: border-box;">

{

public void map(LongWritable key, Text value, OutputCollector<text, longwritable="" style="box-sizing: border-box;"> output, Reporter reporter)

throws IOException

分享到：

Aspose.Pdf for .NET 10.3.0 实现PDF到PP ... | 商务智能控件Miner3D插入PowerPoint

2014-08-07 14:17
浏览 454
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop教程汇总连载之Hadoop基本流程和代码范例

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop教程汇总连载之Hadoop基本流程和代码范例

评论

发表评论

相关推荐

给表格穿上花边裙--SpreadJS表格样式

给表格穿上花边裙--SpreadJS表格样式

使用Aspose.Cells组件生成Excel文件实例

LEADTOOLS OCR文字识别教程

Excel2013制作甘特图

Spread基础教程：怎样在服务器上部署 Spread for ASP.NET

Spread for ASP.NET 基础教程-前台接口介绍

ActiveReports制作地图类报表

Spread for ASP.NET教程-如何调用设计器

商务智能控件Miner3D插入PowerPoint

JS地图工具FusionMaps XT创建向下钻取链接

Fusionmaps制作中国地图规格swf文件

免费下载Aspose.Words for .NET示例大全

分享一些FusionMaps的教程案例资讯疑难解答

最近访客更多访客>>