hive 查看一个表的总文件大小方法 - duncan--学无止境 - ITeye博客

`

daizj

浏览: 771046 次
性别:
来自: 广州

最近访客更多访客>>

guwq2014

snowolf

junes_yu

yuanyuan7891

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

hive 查看一个表的总文件大小方法

博客分类：

hive

hive 计算表的总大小

阅读更多

要查看一个hive表文件总大小时，我们可以通过一行脚本快速实现，其命令如下：

$ hadoop fs -ls /user/hive/warehouse/test_table/ds=20151111|awk -F ' ' '{print $5}'|awk '{a+=$1}END{print a}'

32347122009

这样可以省去自己相加，下面命令是列出该表的详细文件列表

hadoop fs -ls /user/hive/warehouse/test_table/ds=20151111

方法二：查看该表总容量大小，单位为Ｇ

hadoop fs -du /user/hive/warehouse/test_table | awk ' { SUM += $1 } END { print SUM/(1024*1024*1024) }'

0
顶

1
踩

分享到：

impala数据插入的方法详解 | mysql碎片整理方法

2015-11-12 18:02
浏览 14256
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

大数据Hive测试数据uaction.rar: 大数据Hive测试数据uaction.rar，包含了用户操作记录，为文件大小为300余M，包含800W条数据。

hive调优策略: hive数据仓库的调优，大小表Join,小文件调优，实现原理

hive优化.docx: 主要介绍了hive开发过程中常见的性能问题及优化方法：数据倾斜： 1)group by 数据倾斜 2)join 数据倾斜 3)reduce数过少 4)大小表关联动态分区并行小文件过多等等

Spark合并输出小文件: 在Spark SQL执行etl时候会有最终结果大小只有几百k，但是小文件一个分区有上千的情况。危害： HDFS有最大文件数限制浪费磁盘资源（可能存在空文件） Hive中进行统计，计算的时候，会产生很多个map，影响计算的速度 ...

一键安装jdk+mysql+hadoop+hive+zeppelin.rar: 给大家提供了完整的jar包、一键化安装、一键启停脚本以及使用说明教程由于zeppelin文件大小限制，分开上传，大家点进我主页的资源查看

Hive 分桶: hive根据y的大小，决定抽样的比例。例如，table总共分了4份，当y=2时，抽取(4/2=)2个bucket的数据，当y=8时，抽取(4/8=)1/2个bucket的数据。 x表示从哪个bucket开始抽取，如果需要取多个分区，以后的分区号为当前...

大数据分析-网站日志数据文件（Hadoop部署分析资料）: 至此，我们通过Python网络爬虫手段进行数据抓取，将我们网站数据（2013-05-30,2013-05-31）保存为两个日志文件，由于文件大小超出我们一般的分析工具处理的范围，故借助Hadoop来完成本次的实践。使用python对原始...

BigData：:gem_stone::fire:大数据学习笔记: （为某一个文件在另外一个位置建立一个同步的链接）（显示工作目录）（跨主机之间的文件和目录的复制）（创建目录）（删除空的目录）（列出指定目录下的所有文件，包括子目录里的文件） Linux文件编辑类...

伪分布式基于hadoop3.1.3生态环境大数据集群: 1.本机虚拟机镜像为ova格式，大小为2.9G，仅限VirtualBox使用，本机无图形界面！请注意！ 2.本机为ubuntu16.04服务器版本，无图形化界面，剔除无用冗杂的三方软件，速度更快。 hadoop=3.1.3 jdk=1.8.0_162 hbase=...

大数据与人工智能-fy.docx: 由于Redis本质上是一个内存数据库，所以内存硬件的容量大小直接决定了Redis可用的数据库空间 D.比较适合存储视频文件(正确答案) 大数据与人工智能-fy全文共22页，当前为第2页。9. 关于Redis说法不正确的是 [单选题] ...

基于hadoop对某网站日志分析部署实践课程设计报告参考模板.doc: 至此，我们通过Python网络爬虫手段进行数据抓取，将我们网站数据（2013-05-30,2013-05-31）保存为两个日志文件，由于文件大小超出我们一般的分析工具处理的范围，故借助Hadoop来完成本次的实践。 2. 总体设计 2.1 ...

SysinternalsSuite windows工具集合: NTFSInfo: 使用 NTFSInfo 查看有关 NTFS 卷的详细信息, 包括主文件表 (MFT) 的大小位置和 MFT-zone, 以及 NTFS 元数据文件的大小. PageDefrag: (启动时)为页面文件和注册表HIVE文件进行碎片整理. PendMoves: 列...

迅雷随身盘Walkboxv2.6.2.250中文官方安装版: 迅雷随身盘新推出的一项同步云存储服务：WalkBox。迅雷随身盘空间大小为1G。且用户需付费成为会员才可使用。迅雷随身盘加密备份到云存储，从此不怕硬盘损坏丢文件！省心太忙没有时间手动备份，自动帮您搞定！方便 ...

PW2440嵌入式主板使用手册V1.2: 8.5 删除一个注册表健值 8.6 改变桌面背景图片 8.7 WinCE 中支持多国语言切换 8.8 实现开机后 WINCE 的任务栏为隐藏模式 8.9 应用程序在 WinCE 启动后自动运行 8.10 向 WinCE 内核添加文件 8.11 应用程序在 WinCE ...

php文件打包下载之使用PHP自带的ZipArchive压缩文件并下载打包好的文件: filesize可能就会是这样的形式了filesize($filehandle) 向客户端回送数据的是，记得要设置一个buffer，用来指定每次向客户端输出多少数据，如：$buffer=1023。如果不指定的话，就会将整个文件全部写入内存当中，再一...

2017最新大数据架构师精英课程: 69_开启和关闭一个进程 70_hadoop常用的命令和关闭防火墙) Q" A0 B3 M8 s3 ? 71_hadoop存储为何是128M 72_hadoop的存储问题 73_hadoop的高可用 74_配置hadoop临时目录 75_hadoop的hdfs的jar包 76_hadoop的存储问题+ ...

第七章-《大数据导论》大数据处理平台.pdf: 数据复制多份存放不同节点以增加可用性和可靠性特点：高容错性 + 高扩展性 Apache Hadoop Apache软件基金会下面的一个开源项目一个分布式系统基础框架 HDFS： Hadoop分布式文件系统，负责数据存储 MapReduce：一种...

java软件工程师笔试题及答案-MyLearningNotes:因为开始记笔记并“公开”它永远不会晚: 文件大小 $ hdfs dfs -du -s -h hdfs://hadoop-cluster/user/hive/warehouse/hive_schema.db/table 655.2 M 1.9 G hdfs://hadoop-cluster/user/hive/warehouse/hive_schema.db/table [size] [disk space consumed] ...

HADOOP系列框架集合: cdh5.7.6成套框架，文件为百度网盘地址及密码，文件太大，HADOOP系列框架总大小太大，无法一次性上传

nosql 入门教程: 第一印象——两个简单的例子　17 2.1.1 简单的位置偏好数据集　17 2.1.2 存储汽车品牌和型号数据　22 2.2 使用多种语言　30 2.2.1 MongoDB驱动　30 2.2.2 初识Thrift　33 2.3 小结　34 第3章 NoSQL接口与交互　36 ...

Global site tag (gtag.js) - Google Analytics