总结hadoop mapreduce job添加第三方依赖的方法

wangjin161

浏览: 167925 次
性别:
来自: 北京

最近访客更多访客>>

gaojingsong

wolfwood

ldwnt

a755292832

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

总结hadoop mapreduce job添加第三方依赖的方法

hadoop classpath mapreduce

最近在开发mapreduce程序，输入有hdfs、hbase形式，输出有hdfs、mysql等形式。碰到了如何添加第三方依赖jar的问题，在网上查了很多资料，记录下来，免得再走弯路。

下面所有方法基于hadoop-1.0.1版本实现，其它版本可能略有不同。
总结了一下，总共有五种方法：

1、制作一个超级jar包，包含你的classes和所有依赖的第三方classes

2、和方法1差不多，只不过不是把依赖的第三方classes直接放入jar中，而是把第三方依赖的jar放在待提交jar包的lib目录下。

3、将jar包放在hadoop集群的各自node上，修改hadoop-env.sh中HADOOP_TASKTRACKER_OPTS 的值或者HADOOP_CLASSPATH。

4、将依赖的jar包拷贝事先到hdfs上，在代码中通过DistributedCache.addFileToClassPath方法，将其加入到依赖中。

5、使用hadoop jar的-libjars参数来设置第三方依赖的jar

方法1和2的思想是一样的，都是把所有的依赖放入到一个jar包中。但这些方法不利于版本的维护，不推荐使用。
方法3则需要配置集群中所有的node，而且也让hadoop本身依赖了第三方不相关的jar。
方法4必须由代码去控制第三方的jar依赖，也不利于依赖的管理。
方法5则没有上述问题，推荐使用。
不过使用方法5有一些注意事项，否则你会发现即使设置了-libjars，还是找不到依赖的类。

这个方法：如果包是在map 类，reudce类中使用没问题，如果你的依赖包在main方法或job提交之前使用中还是会找不到类

因为以下原因

conf.setClassLoader(new URLClassLoader(libjars, conf.getClassLoader()));
Thread.currentThread().setContextClassLoader(...)

这意味着，这些包都被加载到当前classloader的子loader中，不是当前classloader中，所以，你不能在当前的job中直接使用这些包。

方法5具体使用步骤：
1、提交jar参数设置

Java代码  
hadoop jar my-example.jar com.example.MyTool -libjars mysql-connector-java.jar,abc.jar  

多个jar包间使用逗号分隔。

2、main函数的参数必须使用GenericOptionsParser解析。

Java代码  
public static void main(String[] args) throws Exception {  
    Configuration conf = new Configuration();  
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();  
    ....  
}  

或者通过ToolRunner.run去解析参数

Java代码  
public static void main(final String[] args) throws Exception {  
  Configuration conf = new Configuration();  
  int res = ToolRunner.run(new MyTool(), args);  
  System.exit(res);  
}  

Java代码  
public class MyTool extends Configured implements Tool {  
  
  public final int run(final String[] args) throws Exception {  
    Job job = new Job(super.getConf());  
    ...  
    job.waitForCompletion(true);  
    return ...;  
  }  

详细代码可以参照mapreduce内的examples。

实际上ToolRunner.run的内部也是调用了GenericOptionsParser去解析参数。跟踪源码就会发现GenericOptionsParser有这样的一段代码：

Java代码  
if (line.hasOption("libjars")) {  
  conf.set("tmpjars",   
           validateFiles(line.getOptionValue("libjars"), conf));  
  //setting libjars in client classpath  
  URL[] libjars = getLibJars(conf);  
  if(libjars!=null && libjars.length>0) {  
    conf.setClassLoader(new URLClassLoader(libjars, conf.getClassLoader()));  
    Thread.currentThread().setContextClassLoader(  
        new URLClassLoader(libjars,   
            Thread.currentThread().getContextClassLoader()));  
  }  
}  

最终是往Configuration里设置了tmpjars的属性。

参考文献：
1、http://blog.cloudera.com/blog/2011/01/how-to-include-third-party-libraries-in-your-map-reduce-job/
2、http://grepalex.com/2013/02/25/hadoop-libjars/

分享到：

MapReduce执行过程 | git简单操作

2014-07-11 14:36
浏览 807
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

总结hadoop mapreduce job添加第三方依赖的方法

总结hadoop mapreduce job添加第三方依赖的方法

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

总结hadoop mapreduce job添加第三方依赖的方法

总结hadoop mapreduce job添加第三方依赖的方法

评论

发表评论

相关推荐

Hadoop如何计算map数和reduce数

hadoop之MapReduce自定义二次排序流程实例详解

hadoop fs -count的结果含义

Hadoop源代码分析（MapTask辅助类 I）

MapReduce源码分析之MapTask分析

MapReduce源码分析之MapTask分析(二)

MapReduce源码分析之MapTask分析

MapReduce源码分析之架构分析1

mapreduce二次排序原理讲解

hadoop shell 命令详

MapReduce任务参数调优

hadoop distributecache新api与旧api用法

hadoop作业调优参数整理及原理

Mapreduce多目录/多文件输出

探索Hadoop OutputFormat

MapReduce设置参数防止超时

开发MapReduce常见问题

Yarn的JVM重用功能——uber

MapReduce执行过程

Hadoop源码解析之: TextInputFormat如何处理跨split的行

最近访客更多访客>>