hadoop读取不同压缩格式的设置-待补充

chengjianxiaoxue

浏览: 1284948 次
性别:
来自: 北京

最近访客更多访客>>

liu_shui8

happy2012

nddht

yhtppp

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop2

这是对 gzip格式的读取设置：

conf.set("mapreduce.output.fileoutputformat.compress.codec", "org.apache.hadoop.io.compress.GzipCodec");

如果源文件就是 backend_userlog_2017092200_192.168.201.4.1506010201501.4968.log.gz

这种的，那么即使不设置上面读取的编码集， hadoop也会自动读取：

因为源代码会自动设置：

从配置文件里，拿不到编码相关的配置，就会默认把GzipCodec,DefaultCodec加进去。

/**
* Find the codecs specified in the config value io.compression.codecs 
* and register them. Defaults to gzip and zip.
*/
public CompressionCodecFactory(Configuration conf) {
    codecs = new TreeMap<String, CompressionCodec>();
    List<Class<? extends CompressionCodec>> codecClasses = getCodecClasses(conf);
    if (codecClasses == null) {
        addCodec(new GzipCodec());
        addCodec(new DefaultCodec());      
    } else {
        Iterator<Class<? extends CompressionCodec>> itr = codecClasses.iterator();
        while (itr.hasNext()) {
            CompressionCodec codec = ReflectionUtils.newInstance(itr.next(), conf);
            addCodec(codec);     
        }
    }
}

而针对 .gz格式的hdfs文件，如果过滤查看文件内容的话，可以直接通过命令：

hadoop fs -text /collect_data/teach/20180825/*.gz | grep "1800066" | grep "41783251"

而如果通过

hadoop fs -cat 的方式，会出现乱码

其他的待补充

分享到：

sqoop抽取mysql之tinyint(1) 类型当成bo ... | org.json.JSONObject对json的解析

2018-08-25 16:19
浏览 880
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop读取不同压缩格式的设置-待补充

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop读取不同压缩格式的设置-待补充

评论

发表评论

相关推荐

hdfs文件归档 Hadoop Archives

读取hadoop文件内容

64位linux系统编译hadoop源码 native库

ctrl+c能关闭mr任务吗

mapreduce数量---- TODO 待整理

hadoop 漫画流程

Maven搭建hadoop环境报Missing artifact jdk.tools:jdk.tools:jar:

namenode的edits_fsimage关系

hadoop2 集群出现过的问题

mapreduce常见参数和内存设置

hadoop2集群非ha模式下搭建配置文件写法

hadoop 运行自带包的单词计数位置和写法

hadoop和周围生态常用端口介绍

hadoop管理员的十个最佳实践

hdfs-site.xml参数详解

将任务提交到yarn平台和执行流程

hadoop在加载了别的包后如何判断已经加载进来了

Mapper类的4个方法

hadoop2 mapreduce简介

hadoop、hbase、hive、zookeeper版本对应关系

最近访客更多访客>>