`

hive 查看一个表的总文件大小方法

    博客分类:
  • hive
阅读更多

要查看一个hive表文件总大小时,我们可以通过一行脚本快速实现,其命令如下:

 

$ hadoop fs -ls  /user/hive/warehouse/test_table/ds=20151111|awk -F ' ' '{print $5}'|awk '{a+=$1}END{print a}'

32347122009

 

这样可以省去自己相加,下面命令是列出该表的详细文件列表

hadoop fs -ls  /user/hive/warehouse/test_table/ds=20151111

 

方法二:查看该表总容量大小,单位为G

 hadoop fs -du /user/hive/warehouse/test_table | awk ' { SUM += $1 } END { print SUM/(1024*1024*1024) }'

0
1
分享到:
评论

相关推荐

    大数据Hive测试数据uaction.rar

    大数据Hive测试数据uaction.rar,包含了用户操作记录,为文件大小为300余M,包含800W条数据。

    hive调优策略

    hive数据仓库的调优,大小表Join,小文件调优,实现原理

    hive优化.docx

    主要介绍了hive开发过程中常见的性能问题及优化方法: 数据倾斜: 1)group by 数据倾斜 2)join 数据倾斜 3)reduce数过少 4)大小表关联 动态分区 并行 小文件过多 等等

    Spark合并输出小文件

    在Spark SQL执行etl时候会有最终结果大小只有几百k,但是小文件一个分区有上千的情况。危害: HDFS有最大文件数限制 浪费磁盘资源(可能存在空文件) Hive中进行统计,计算的时候,会产生很多个map,影响计算的速度 ...

    一键安装jdk+mysql+hadoop+hive+zeppelin.rar

    给大家提供了完整的jar包、一键化安装、一键启停脚本以及使用说明教程 由于zeppelin文件大小限制,分开上传,大家点进我主页的资源查看

    Hive 分桶

    hive根据y的大小,决定抽样的比例。例如,table总共分了4份,当y=2时,抽取(4/2=)2个bucket的数据,当y=8时,抽取(4/8=)1/2个bucket的数据。 x表示从哪个bucket开始抽取,如果需要取多个分区,以后的分区号为当前...

    大数据分析-网站日志数据文件(Hadoop部署分析资料)

    至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 使用python对原始...

    BigData::gem_stone::fire:大数据学习笔记

    (为某一个文件在另外一个位置建立一个同步的链接) (显示工作目录) (跨主机之间的文件和目录的复制) (创建目录) (删除空的目录) (列出指定目录下的所有文件,包括子目录里的文件) Linux文件编辑类...

    伪分布式基于hadoop3.1.3生态环境大数据集群

    1.本机虚拟机镜像为ova格式,大小为2.9G,仅限VirtualBox使用,本机无图形界面!请注意! 2.本机为ubuntu16.04服务器版本,无图形化界面,剔除无用冗杂的三方软件,速度更快。 hadoop=3.1.3 jdk=1.8.0_162 hbase=...

    大数据与人工智能-fy.docx

    由于Redis本质上是一个内存数据库,所以内存硬件的容量大小直接决定了Redis可用的数据库空间 D.比较适合存储视频文件(正确答案) 大数据与人工智能-fy全文共22页,当前为第2页。9. 关于Redis说法不正确的是 [单选题] ...

    基于hadoop对某网站日志分析部署实践课程设计报告参考模板.doc

    至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 2. 总体设计 2.1 ...

    SysinternalsSuite windows工具集合

    NTFSInfo: 使用 NTFSInfo 查看有关 NTFS 卷的详细信息, 包括 主文件表 (MFT) 的大小位置和 MFT-zone, 以及 NTFS 元数据文件的大小. PageDefrag: (启动时)为页面文件和注册表HIVE文件进行碎片整理. PendMoves: 列...

    迅雷随身盘Walkboxv2.6.2.250中文官方安装版

    迅雷随身盘新推出的一项同步云存储服务:WalkBox。迅雷随身盘空间大小为1G。且用户需付费成为会员才可使用。迅雷随身盘加密备份到云存储,从此不怕硬盘损坏丢文件!省心 太忙没有时间手动备份,自动帮您搞定!方便 ...

    PW2440嵌入式主板使用手册V1.2

    8.5 删除一个注册表健值 8.6 改变桌面背景图片 8.7 WinCE 中支持多国语言切换 8.8 实现开机后 WINCE 的任务栏为隐藏模式 8.9 应用程序在 WinCE 启动后自动运行 8.10 向 WinCE 内核添加文件 8.11 应用程序在 WinCE ...

    php文件打包 下载之使用PHP自带的ZipArchive压缩文件并下载打包好的文件

    filesize可能就会是这样的形式了filesize($filehandle) 向客户端回送数据的是,记得要设置一个buffer,用来指定每次向客户端输出多少数据,如:$buffer=1023。如果不指定的话,就会将整个文件全部写入内存当中,再一...

    2017最新大数据架构师精英课程

    69_开启和关闭一个进程 70_hadoop常用的命令和关闭防火墙) Q" A0 B3 M8 s3 ? 71_hadoop存储为何是128M 72_hadoop的存储问题 73_hadoop的高可用 74_配置hadoop临时目录 75_hadoop的hdfs的jar包 76_hadoop的存储问题+ ...

    第七章-《大数据导论》大数据处理平台.pdf

    数据复制多份存放不同节点以增加可用性和可靠性 特点:高容错性 + 高扩展性 Apache Hadoop Apache软件基金会下面的一个开源项目 一个分布式系统基础框架 HDFS: Hadoop分布式文件系统,负责数据存储 MapReduce:一种...

    java软件工程师笔试题及答案-MyLearningNotes:因为开始记笔记并“公开”它永远不会晚

    文件大小 $ hdfs dfs -du -s -h hdfs://hadoop-cluster/user/hive/warehouse/hive_schema.db/table 655.2 M 1.9 G hdfs://hadoop-cluster/user/hive/warehouse/hive_schema.db/table [size] [disk space consumed] ...

    HADOOP系列框架集合

    cdh5.7.6成套框架,文件为百度网盘地址及密码,文件太大,HADOOP系列框架总大小太大,无法一次性上传

    nosql 入门教程

    第一印象——两个简单的例子 17 2.1.1 简单的位置偏好数据集 17 2.1.2 存储汽车品牌和型号数据 22 2.2 使用多种语言 30 2.2.1 MongoDB驱动 30 2.2.2 初识Thrift 33 2.3 小结 34 第3章 NoSQL接口与交互 36 ...

Global site tag (gtag.js) - Google Analytics