Hive 压缩比较

tobyqiu

浏览: 40872 次
性别:
来自: 上海

最近访客更多访客>>

lvtt

caodaoxi

zcw3895653

nalnait

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop sqoop hive

set hive.exec.compress.intermediate=false;
set mapred.output.compress=false;

create table a as select * from dimdate;
Table default.a stats: [numFiles=1, numRows=1188, totalSize=90068, rawDataSize=88880]
Job 0: Map: 1   Cumulative CPU: 1.88 sec   HDFS Read: 6083 HDFS Write: 90138 SUCCESS

通过 hdfs dfs -cat /filepath 查看a 是否被压缩

可以看出没压缩的时候 a表有 1个文件 1188行 9k的大小裸数据大小8k

再看压缩的

set hive.exec.compress.intermediate=true;
set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

create table a_gz as select * from dimdate;
Table default.a_gz stats: [numFiles=1, numRows=1188, totalSize=11316, rawDataSize=88880]
MapReduce Jobs Launched:
Job 0: Map: 1   Cumulative CPU: 1.31 sec   HDFS Read: 6083 HDFS Write: 11389 SUCCESS

压缩后大小变成了1k,而去 write的数据也从9k变成了1k

因为是压缩文件就不能用 dfs -cat 了

所以要用 zact +filepath

压不压还是区别蛮大的.但是对于自带压缩的文件格式,比如orc

hive.exec.compress.output 是true或者是false 都是一样的因为orc 默认是zilb压缩

分享到：

hbase 扫盲和 kv 设计 | Enhanced Aggregation, Cube, Grouping and ...

2014-05-21 11:10
浏览 1550
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

毕业论文- 深蓝健身房瑜伽馆行业小程序V4.15.0 前端+后端-整站商业源码.zip: 毕业论文- 深蓝健身房瑜伽馆行业小程序V4.15.0 前端+后端-整站商业源码.zip

36氪：2019中国开放式创新观察.pdf: 36氪：2019中国开放式创新观察.pdf

毕业论文-化妆品商城-整站商业源码.zip: 毕业论文-化妆品商城-整站商业源码.zip

毕业论文-MNews2.4-整站商业源码.zip: 毕业论文-MNews2.4-整站商业源码.zip

X-AnyLabeling自动标注模型: X-AnyLabeling自动标注模型

【鼎软天下】科技赋能物流，数字驱动变革.pdf: 【鼎软天下】科技赋能物流，数字驱动变革.pdf

实训商业源码-王中王掌上游戏机网页源码，怀旧小游戏-毕业设计.zip: 实训商业源码-王中王掌上游戏机网页源码，怀旧小游戏-毕业设计.zip

R-FEC：基于强化学习的FEC调整以提升WebRTC中的用户体验质量（QoE）: 内容概要：本文提出了一种基于强化学习（RL）的前向纠错（FEC）调整方法——R-FEC，旨在优化WebRTC视频会议中的用户体验质量（QoE）。传统方法在确定适当的FEC比例时面临挑战，因为过高的FEC会增加延迟并降低视频质量，而过低则无法有效应对丢包。R-FEC通过RL算法动态调整视频和FEC比特率，在不同的网络条件下最大化QoE，同时最小化网络拥塞。实验表明，R-FEC相比现有最佳解决方案可提高视频速率达27%，并改善视频质量6dB。适合人群：对视频会议系统优化、网络通信协议、机器学习特别是强化学习有兴趣的研究人员和技术人员。使用场景及目标：①需要在视频会议中实现实时通信的应用开发者；②希望提升视频通话质量、减少延迟的技术团队；③研究如何在动态网络环境中优化数据传输的研究机构。其他说明：R-FEC不仅解决了现有方法中FEC设置不合理的问题，还展示了在实际网络环境下显著优于其他方法的表现。此外，作者指出未来工作将扩展到多方通话场景，并考虑更多复杂的网络条件。该研究得到了Cisco Systems和韩国国家研究基金会的支持。

【网络流量管理】基于Traffic Shaping和ETS的多虚拟功能组带宽分配与调度：实现数据中心多类流量的精细化控制: 内容概要：本文介绍了流量整形（Traffic Shaping）与增强传输选择（Enhanced Transmission Selection, ETS）技术在多虚拟函数（VFs）共享单个物理网络接口控制器（NIC）端口情况下的应用。流量整形通过对数据发送速率进行限制来管理网络流量，确保节点不会超过设定的最大带宽，同时保证最小带宽。ETS是IEEE 802.1Qaz标准的一部分，旨在数据中心桥接环境中为不同类型的流量分配带宽。文章详细描述了在多VF组中实现每类流量带宽保证的技术挑战和解决方案，包括使用令牌桶算法、加权循环调度（DWRR）、多队列优先级（MQPRIO）以及信任模式（Trust Mode）进行流量分类。此外，还探讨了如何通过扩展devlink-rate工具指定每个流量类别的带宽比例。适合人群：网络工程师、系统管理员、云服务提供商以及对网络流量管理和优化感兴趣的IT专业人员。使用场景及目标：①理解流量整形的基本概念及其在网络通信中的作用；②掌握如何配置虚拟功能（VF）以实现对特定流量类别的带宽控制；③学习如何利用ETS机制确保关键业务获得足够的网络资源；④了解最新的devlink-rate扩展功能及其在实际部署中的应用。其他说明：本文基于Netdev 0x19会议上的演讲整理而成，提供了从背景介绍到具体实施步骤的全面讲解，并附有详细的参考资料链接供进一步研究。

实训商业源码-自适应极简多引擎搜索源码-毕业设计.zip: 实训商业源码-自适应极简多引擎搜索源码-毕业设计.zip

基于LilyGo T_QT开发板的物联网通信标准代码库设计源码: 该源码库为LilyGo T_QT开发板量身定制，专注于物联网通信功能，包含1792个文件，涵盖512个头文件、448个C语言源文件、213个Arduino脚本文件、151个Python脚本、139个Markdown文档、63个PNG图片文件、55个reStructuredText文件、38个Vera Lite Widget文件、18个文本文件、18个C++源文件。语言多样，支持C、C++、Python、C++、Shell、HTML、CSS和Ruby。库内容丰富，是进行物联网通信开发不可或缺的资源。

学生心理健康服务平台系统的Java实现: 学生心理健康服务平台是一个集心理咨询、心理测评、资源共享和社区互动于一体的综合服务平台，包含Web/移动端应用和管理后台两部分。该项目旨在为高校学生提供便捷、专业的心理健康服务，帮助学生缓解心理压力，促进心理健康发展。

毕业论文-二次元应用下载页源码带弹幕-整站商业源码.zip: 毕业论文-二次元应用下载页源码带弹幕-整站商业源码.zip

实训商业源码-影视资源站源码电脑+手机模板-毕业设计.zip: 实训商业源码-影视资源站源码电脑+手机模板-毕业设计.zip

Baidunetdisk_AndroidPhone_1023843j (6).apk: Baidunetdisk_AndroidPhone_1023843j (6).apk

《Creo Simulation Live》数据表.pdf: 《Creo Simulation Live》数据表.pdf

实训商业源码-源授权V1.5-毕业设计.zip: 实训商业源码-源授权V1.5-毕业设计.zip

实训商业源码-微信淘宝客5.99.78 加密-毕业设计.zip: 实训商业源码-微信淘宝客5.99.78 加密-毕业设计.zip

毕业论文-红包拓客生意宝 2.0.2-整站商业源码.zip: 毕业论文-红包拓客生意宝 2.0.2-整站商业源码.zip

ABB制造执行系统-MES，助力中国智能制造2025.pdf: ABB制造执行系统-MES，助力中国智能制造2025.pdf

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hive 压缩比较

评论

发表评论

相关推荐

Enhanced Aggregation, Cube, Grouping and Rollup 优化聚合函数

Statistics in Hive （hive的统计信息搜集） 翻译

ORC File 翻译

Hive Join 优化 翻译

Hive 的join

sqoop 1.4.4 使用3

sqoop 1.4.4 使用2

sqoop 1.4.4 使用1

Sqoop 1.99.3 with hadoop-2.3.0 使用 3

Sqoop 1.99.3 with hadoop-2.3.0 使用 2

Sqoop 1.99.3 with hadoop-2.3.0 使用1

HIVE JDBC

CYGWIN SSH domain login

Hive 配置

hadoop WordCount 运行

hadoop 环境

最近访客更多访客>>

Statistics in Hive （hive的统计信息搜集）翻译

Hive Join 优化翻译