Hadoop实现AbstractJob简化Job设置

wbj0110

浏览: 1647441 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hadoop

Hadoop

在hadoop中编写一个job一般都是采用下面的方式：

[java]view plaincopy 
Job job=new Job();  
job.setXxx();  
...  

这样感觉代码很多，而且参数还不好控制。比如，我想对输入的参数进行控制，还要自己写一些控制解析之类的代码，如下：

[java]view plaincopy 
if(args.length!=2){  
    System.err.out("Usage<input> <output>")  
}  

而且上面只是大概的判断下，没有很精确的判断。有没有比较好的方法可以不用设置，而且减少代码量呢？

其实可以实现Mahout中的AbstractJob类即可，如下：

[java]view plaincopy 
package mahout.fansy.bayes.transform;  
  
import org.apache.hadoop.conf.Configuration;  
import org.apache.hadoop.fs.Path;  
import org.apache.hadoop.io.LongWritable;  
import org.apache.hadoop.io.Text;  
import org.apache.hadoop.mapreduce.Job;  
import org.apache.hadoop.mapreduce.Mapper;  
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;  
import org.apache.hadoop.util.ToolRunner;  
import org.apache.mahout.common.AbstractJob;  
import org.apache.mahout.math.VectorWritable;  
  
public class TFText2VectorWritable extends AbstractJob {  
  
    @Override  
    public int run(String[] args) throws Exception {  
        addInputOption();  
        addOutputOption();  
        addOption("splitCharacter","sc", "vector split character,default is ','", ",");  
        if (parseArguments(args) == null) {  
              return -1;  
            }  
  
        Path input = getInputPath();  
        Path output = getOutputPath();  
        String sc=getOption("splitCharacter");  
        Job job=prepareJob(input,output,FileInputFormat.class,Mapper.class,LongWritable.class,Text.class,  
                null, Text.class,VectorWritable.class,SequenceFileOutputFormat.class);  
        job.getConfiguration().set("sc", sc);  
        if(job.waitForCompletion(true)){  
            return 0;  
        }  
        return -1;  
    }  
  
    /** 
     *实现AbstractJob 
     * @param args 
     * @throws Exception  
     */  
    public static void main(String[] args) throws Exception {  
        String[] arg=new String[]{"-i","safdf","-sc","scccccccc","-o","sdf"};  
        ToolRunner.run(new Configuration(), new TFText2VectorWritable(),arg);  
    }  
  
}  

如果你要添加自己的参数，可以直接在run方法中添加即可，比如上面笔者添加的splitCharacter参数，如果不输入参数，打印的信息如下：

红色方框里面的内容，即是设置的参数；

同时调用prepareJob方法可以简化Job的参数设置。比如设置Mapper、MapperOutPutKey等等都要一行代码，现在全部只需一行即可；如果要设置参数以供Mapper和Reducer中使用，可以使用job.getConfiguration().set("sc", sc)来进行设置。

http://blog.csdn.net/fansy1990

分享到：

RocketMQ：一个纯java的开源消息中间件--开 ... | 使用mahout做海量数据关联规则挖掘

2014-06-21 18:47
浏览 976
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop实现AbstractJob简化Job设置

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hadoop实现AbstractJob简化Job设置

评论

发表评论

相关推荐

Hadoop DistributedCache使用及原理

HBase高性能复杂条件查询引擎

HADOOP基本操作命令

在线分析查询系统mdrill

Hadoop Tool,ToolRunner原理分析

让你彻底明白hive数据存储各种模式

YARN 各种RPC通信协议及它们的作用介绍

YARN工作流程

HADOOP工作流调度系统OOZIE

Hadoop 中利用 mapreduce 读写 mysql 数据

hadoop编程：解决eclipse能运行，打包放到集群上ClassNotFoundException:经验总结

分别使用Hadoop MapReduce、hive统计手机流量

eclipse中开发Hadoop2.x的Map/Reduce项目汇总

Cloudera Impala: Real-Time Queries in Apache Hadoop, For Real

Eclipse调用hadoop2运行MR程序

Mahout for hadoop 2

hadoop2.2+mahout0.9实战

STS或eclipse安装SVN插件

大数据入门：各种大数据技术介绍

hadoop开发方式总结及操作指导

最近访客更多访客>>