配置hadoop lzo
一、下载、解压并编译lzo包
1 [wyp@master ~]$ wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz 2 [wyp@master ~]$ tar -zxvf lzo-2.06.tar.gz 3 [wyp@master ~]$ cd lzo-2.06 4 [wyp@master ~]$ export CFLAGS=-m64 5 [wyp@master ~]$ ./configure -enable-shared -prefix=/usr/local/hadoop/lzo/ 6 [wyp@master ~]$ make && sudo make install
编译完lzo包之后,会在/usr/local/hadoop/lzo/生成一些文件,目录结构如下:
1 [wyp@master /usr/local/hadoop/lzo]$ ls -l 2 total 12 3 drwxr-xr-x 3 root root 4096 Mar 21 17:23 include 4 drwxr-xr-x 2 root root 4096 Mar 21 17:23 lib 5 drwxr-xr-x 3 root root 4096 Mar 21 17:23 share
将/usr/local/hadoop/lzo目录下的所有文件打包,并同步到集群中的所有机器上。(我没这么做)
在编译lzo包的时候,需要一些环境,可以用下面的命令安装好lzo编译环境
1 [wyp@master ~]$ yum -y install lzo-devel \ 2 zlib-devel gcc autoconf automake libtool
二、安装Hadoop-LZO
这里下载的是Twitter hadoop-lzo,可以用Maven(如何安装Maven请参照本博客的《Linux命令行下安装Maven与配置》)进行编译。
1 [wyp@master ~]$ wget https://github.com/twitter/hadoop-lzo/archive/master.zip
下载后的文件名是master,它是一个zip格式的压缩包,可以进行解压:
1 [wyp@master ~]$ unzip master
hadoop-lzo中的pom.xml依赖了hadoop2.1.0-beta,由于我们这里用到的是Hadoop 2.2.0,所以建议将hadoop版(我用的2.3,2.4,2.5也可以用)
1 <properties> 2 <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> 3 <hadoop.current.version>2.2.0</hadoop.current.version> 4 <hadoop.old.version>1.0.4</hadoop.old.version> 5 </properties>
然后进入hadoop-lzo-master目录,依次执行下面的命令
01 [wyp@master hadoop-lzo-master]$ export CFLAGS=-m64 02 [wyp@master hadoop-lzo-master]$ export CXXFLAGS=-m64 03 [wyp@master hadoop-lzo-master]$ export C_INCLUDE_PATH= \ 04 /usr/local/hadoop/lzo/include 05 [wyp@master hadoop-lzo-master]$ export LIBRARY_PATH=/usr/local/hadoop/lzo/lib 06 [wyp@master hadoop-lzo-master]$ mvn clean package -Dmaven.test.skip=true 07 [wyp@master hadoop-lzo-master]$ cd target/native/Linux-amd64-64 08 [wyp@master Linux-amd64-64]$ tar -cBf - -C lib . | tar -xBvf - -C ~ 09 [wyp@master ~]$cp ~/libgplcompression* $HADOOP_HOME/lib/native/ 10 [wyp@master hadoop-lzo-master]$cp target/hadoop-lzo-0.4.18-SNAPSHOT.jar \ 11 $HADOOP_HOME/share/hadoop/common/
其中~目录下的libgplcompression.so和libgplcompression.so.0是链接文件,指向libgplcompression.so.0.0.0,将刚刚生成的libgplcompression*和target/hadoop-lzo-0.4.18-SNAPSHOT.jar同步到集群中的所有机器对应的目录(这个同步是必须的,否则或找不到jar包和执行错误)
配置hadoop
添加到maper-site.xml <property> <name>mapred.compress.map.output</name> <value>true</value> </property> <property> <name>mapred.map.output.compression.codec</name> <value>com.hadoop.compression.lzo.LzoCodec</value> </property> <property> <name>mapred.child.env</name> <value>LD_LIBRARY_PATH=/usr/local/hadoop/lzo/lib</value> </property> 添加到core-site.xml <property> <name>io.compression.codecs</name> <value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,com.hadoop.compression.lzo.LzopCodec</value> </property> <property> <name>io.compression.codec.lzo.class</name> <value>com.hadoop.compression.lzo.LzoCodec</value> </property>
使用LZO压缩
1.mr输出压缩文件:
Configuration conf = new Configuration(); conf.set("mapred.output.compression.codec", "com.hadoop.compression.lzo.LzopCodec"); conf.set("mapred.output.compress", "true");
2.hive创建压缩表
CREATE EXTERNAL TABLE test( key string , params string , ) row format delimited fields terminated by '\t' collection items terminated by ',' lines terminated by '\n' STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' location '/user/hive/warehouse/dirk.db/test';
配置hbase lzo
将hadoop-lzo-0.4.18-SNAPSHOT.jar放入$HBASE_HOME/lib下,需要重启hbase
创建hbase表
create 'test',{NAME=>'f',COMPRESSION=>'LZO'}
alter 'dirktt',{NAME=>'f',COMPRESSION=>'LZO'}
结束
转 http://my.oschina.net/u/1169079/blog/225070
相关推荐
hadoop,hbase,hive版本整合兼容性最全,最详细说明【适用于任何版本】,避免下载后才发现不兼容的坑
hadoop和hbase集成所需jar包。例如使用hbase进行MapReduce。 需要更多资源请关注我。
Hadoop和Hbase安装使用教程
hadoop集群配置流程以及用到的配置文件,hadoop2.8.4、hbase2.1.0、zookeeper3.4.12
Hadoop(Hbase)的安装部署与配置实验
Hadoop+Hbase技术使用文档 1 目的 3 2 运行环境要求 4 2.1 支持的平台 4 2.2 硬件环境 4 2.3 软件环境 4 2.4 其他要求 5 3 安装jdk 5 3.1 查看本机的jdk版本 5 3.2 卸载低版本jdk 5 3.3 安装jdk 6 3.4 配置JDK1.6.0_...
Hadoop Hive HBase Spark Storm概念解释
配置hadoop支持LZO和snappy压缩
资源包含的整个demo在Hadoop,和Hbase环境搭建好了,可以启动起来。 技术选型 1.Hadoop 2.Hbase 3.SpringBoot ...... 系统实现的功能 1.用户登录与注册 2.用户网盘管理 3.文件在线浏览功能 4.文件上传与下载 基于...
hadoop,hbase,zookeeper安装笔记hadoop,hbase,zookeeper安装笔记hadoop,hbase,zookeeper安装笔记
hadoop hive hbase安装过程
Hadoop之Hbase从入门到精通 .doc
大数据hbase测试项目, String boot + hadoop + hbase 的一个测试项目 1.jdk路径不能有空格,中文 2.spring 示例官方xml配置中需有调整,避免 delete xxx 异常。 3.maven本地版本不能小于cm上hadoop、hbase版本。
hadoop+hbase+hive集群搭建
hadoop支持LZO压缩配置 将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/ core-site.xml增加配置支持LZO压缩 <name>io.compression.codecs org.apache.hadoop.io....
其中HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制。 此外,Pig和Hive还为HBase提供了...
hadoop+hbase集群搭建 详细手册
Hadoop之Hbase从入门到精通,入门级教程,很使用
hadoop和hbase分布式配置及整合eclipse开发,帮助大家配置hadoop和hbase,希望对大家有帮助!
本资源是作者参加云计算培训课程后整理的hadoop和hbase文件的配置。里面有详细的hadoop和habse的安装步骤。。