这次使用 压缩,因为压不压相差10倍呢,但是不使用 sequencefile ,因为打算在hive 中使用 RCFIle来存数据,
--compress --compression-codec org.apache.hadoop.io.compress.BZip2Codec
使用的Bzip
当然hive的表也自动存为Bzip的.
但是 如果hive 使用RCFile 存储,
create table table_rcfile STORED AS RCFile as select * from table_bzip;
会报错
Failed with exception java.io.IOException:java.io.IOException: not a gzip file
google了 也没任何有用的信息就找到了一个大哥在0.7的版本里面和我是同一个错误,也没有任何回复,就默认是个bug吧。 改用别的压缩比如LZO。http://mail-archives.apache.org/mod_mbox/hive-user/201103.mbox/%3CAANLkTik=bYuFck=+E1K6yDt1uWD_P2hhUthCaFtRO1Yp@mail.gmail.com%3E
相关推荐
sqoop用于连接关系型数据库与非关系型数据库,支持hadoop2.0.0及其以上的版本,部署简单,方便使用。
叶梓老师整理的Hadoop2.2.0+Hbase0.98.4+sqoop-1.4.4+hive-0.98.1安装手册,非常实用
sqoop-1.4.4-cdh5.1.0.tar
Hadoop集群搭建必备安装包,包括zookeeper3.4.12+hbase1.4.4+sqoop1.4.7bin_hadoop-2.6.0+kafka2.10亲测可用。
sqoop-1.4.6-cdh5.5.0.tar.gz
Hadoop2.2.0+Hbase0.98.1+Sqoop1.4.4+Hive0.13完全安装手册,经测试运行正常。
Sqoop服务器 :male_sign: 个人资料이름오승재임찬기 역할 리드 개발자 Github :gear: 依赖模块 " dependencies " : { " aws-sdk " : " ^2.817.0 " , " clean-css " : " ~4.1.11 " , " constantinople " : " ~3.1.1 ...
1.4.4 类型 模式 函数 用户自定义函数 过滤UDF 计算UDF 加载UDF 数据处理操作 加载和存储数据 过滤数据 分组与连接数据 对数据进行排序 组合和分割数据 Pig实战 并行处理 参数代换 ...
第3章 Hadoop分布式文件系统 HDFS的设计 HDFS的概念 数据块 namenode和datanode 命令行接口 基本文件系统操作 Hadoop文件系统 接口 Java接口 从Hadoop URL中读取数据 通过FileSystem API读取数据 写入数据 目录 查询...