`
genius_bai
  • 浏览: 80932 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

[Hadoop] Hive 性能+特性

阅读更多

[Hadoop] Hive 性能

 

利用Hive Bulk Inport数据到Hbase

http://wiki.apache.org/hadoop/Hive/HBaseBulkLoad

 

 

生成测试数据

/home/bmb/jdk1.6.0_16/bin/java  -cp examples.zip examples.CreateLogFile 1 1000000

/home/bmb/jdk1.6.0_16/bin/java  -cp examples.zip examples.CreateLogFile 1000000 2000000

/home/bmb/jdk1.6.0_16/bin/java  -cp examples.zip examples.CreateLogFile 2000000 3000000

 

创建性能测试表

不带压缩的测试表

drop table  p_test_data;

 

 

CREATE TABLE p_test_data (
  id INT,
  content STRING,
  time  STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

 

 

导入数据

LOAD DATA LOCAL INPATH '/home/iic/hadoop-0.20.2/test_0_1000000.log' INTO TABLE p_test_data;

 

LOAD DATA LOCAL INPATH '/home/iic/hadoop-0.20.2/test_1000000_2000000.log' INTO TABLE p_test_data;

 

LOAD DATA LOCAL INPATH '/home/iic/hadoop-0.20.2/test_2000000_3000000.log' INTO TABLE p_test_data;

 

set mapred.reduce.tasks=1;

select count(a.id) from p_test_data a;

Time taken: 27.265 seconds 

 

select a.id,a.content,a.time from p_test_data a where a.id=1;

Time taken: 18.086 seconds

 

INSERT OVERWRITE DIRECTORY '/tmp/p_test_data_out'

select a.time,count(1) from p_test_data a group by a.time;

Time taken: 32.899 seconds

带压缩的测试表

(框架检测到输入文件的后缀是.gz.lzo,就会使用对应的CompressionCodec自动解压缩这些文件 )

 

drop table  p_com_test_data;

 

 

 

CREATE TABLE p_com_test_data (
  id INT,
  content STRING,
  time  STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

 

tar cvf 0_100W.tar test_0_1000000.log

gzip 0_100W.tar

 

tar cvf 100_200W.tar test_1000000_2000000.log

gzip 100_200W.tar

 

tar cvf 200_300W.tar test_2000000_3000000.log

gzip 200_300W.tar

 

导入数据

LOAD DATA LOCAL INPATH '/home/iic/hadoop-0.20.2/0_100W.tar.gz' INTO TABLE p_com_test_data;

 

LOAD DATA LOCAL INPATH '/home/iic/hadoop-0.20.2/100_200W.tar.gz' INTO TABLE p_com_test_data;

 

LOAD DATA LOCAL INPATH '/home/iic/hadoop-0.20.2/200_300W.tar.gz' INTO TABLE p_com_test_data;

 

 

 

 

 

select a.time,count(1) from p_com_test_data a group by a.time;

Time taken: 26.31 seconds

 

 

此例子是针对小量文件的压缩和不压缩的性能测试,虽然不代表最终结果,但是从本次测试可以发现,压缩的效率更高,

可能是因为压缩文件是作为整个Block给Map,减少了InputSplit的检测和分析。

分享到:
评论

相关推荐

    Spark的Shuffle总结分析

    Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。 在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce,而Reduce阶段...

    Hadoop权威指南 第二版(中文版)

     本书从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共16章,3个附录,涉及的主题包括:Haddoop简介;MapReduce简介;Hadoop分布式文件系统;Hadoop...

    Hadoop权威指南(中文版)2015上传.rar

    Hadoop和Hive在Facebook的应用 概要介绍 Hadoop a Facebook 假想的使用情况案例 Hive 问题与未来工作计划 Nutch 搜索引擎 背景介绍 数据结构 Nutch系统利用Hadoop进行数据处理的精选实例 总结 Rackspace的日志处理 ...

    Hadoop技术选型分析报告.pdf

    根据市场上目前比较流行的几款Hadoop产品综合分析,从部署的便捷性、功能、性能及成本等方面综合考量,推荐使用CDH与HDP。然后再根据我们具体的使用场景来进行选择,如果我们追求功能全面与部署案例参考推荐使用CDH...

    Hive性能优化

    首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,...

    Hadoop权威指南.pdf

    《Hadoop权威指南(第2版)》从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共16章,3个附录,涉及的主题包括:haddoop简介;mapreduce简介;Hadoop...

    hadoop权威指南第2版

    《Hadoop权威指南(第2版)(修订•升级版)》从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共16章,3个附录,涉及的主题包括:Haddoop简介;MapReduce...

    Accelerate Your Hive Query

    在本次演讲中,涵盖一些新的Hive性能提升的优化,包括了最新Spark引擎升级到2.0,Parquet数据类型的向量化支持,以及nested column pruning等新特性。并介绍配置选项从而达到优化的性能。及benchmark数据来展现这些...

    hadoop相关知识习题

    习题类型:(有关spark,hive,zookeeper,HBase等) 1.HBase来源于哪篇博文?BigTable 2.对HBase的描述哪些是正确的是:是面向列的,是分布式的,是一种NoSQL数据库 3.HBase依靠HDFS存储底层数据 4.HBase依赖Zookeeper...

    hadoop权威指南(第2版)

    《hadoop权威指南(第2版)》从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hadoop这一高性能处理海量数据集的理想工具。全书共16章,3个附录,涉及的主题包括:haddoop简介;mapreduce简介;hadoop...

    hadoop权威指南(中文第2版)

    《hadoop权威指南(第2版)》从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hadoop这一高性能处理海量数据集的理想工具。全书共16章,3个附录,涉及的主题包括:haddoop简介;mapreduce简介;hadoop...

    Schedulis安装文档.pdf

    该调度系统具备高性能,高可用(去中心化多调度中心和多执行器)和多租户资源隔离等金融级特性;现已被集成到数据应用开发门户 DataSphere Studio。 Schedulis 支持常规的 Command Shell 和 Linkis(HadoopMR、 ...

    大数据基础知识入门.pdf

    支 持 大 多 数 Hadoop 组 件 , 包 括 HDFS 、 MapReduce 、 Spark 、 Hive 、 Pig 、 Hbase 、 Zookeper、Sqoop等 大数据集群管理方式 分 为 手 工 方 式 ( Apache hadoop)和工具方式(Ambari + hdp 和 ...

    大数据的基础知识.pdf

    8 Hive Hive是基于Hadoop的⼀个数据仓库⼯具,可以将结构化的数据⽂件映射为⼀张数据库表,并提供简单的SQL查询功能,可以将SQL语 句转换为MapReduce任务进⾏运⾏。 其优点是学习成本低,可以通过类SQL语句快速实现...

    R的极客理想:工具篇,完整扫描版

    【编辑推荐】, 资深R语言用户多年实战经验的结晶,介绍了各种性能奇特的R语言包,提升R语言性能的方法,以及R语言在实际使用时与Java、MySQL、MongoDB、Hive、HBase、Hadoop等技术的综合运用的解决方案。, 【名家...

    Ambari2.7.4 HDP-3.1.4(hortonworks集群安装).docx

    Ambari是一个基于web的工具,用于配置、管理和监视Hadoop集群,支持HDFS、MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Kafka、...Ambari同样还提供了集群状况仪表盘,以友好的用户界面对它们的性能特性进行诊断。

    PiFlow大数据流水线系统-其他

    包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等。 集成了微生物领域的相关算法。 环境要求: JDK 1.8 Spark-2.11.8 Apache Maven 3.1.0 ...

    云计算第二版

    3.2.1 EC2的主要特性 97 3.2.2 EC2基本架构及主要概念 97 3.2.3 EC2的关键技术 99 3.3.4 EC2安全及容错机制 101 3.3 简单存储服务S3 102 3.3.1 基本概念和操作 102 3.3.2 数据一致性模型 104 3.3.3 S3安全措施 105 ...

Global site tag (gtag.js) - Google Analytics