Hive中的外部表
对于Hive中的外部表来说,因为表是外部的,Hive认为其并不拥有这份数据,删除该表并不会真正删除其中的数据,其中的表描述元信息会被删除掉。
对数据进行分区后,对于管理表,可以将其显示在hdfs目录中,但是外部表目录中不会真正存在数据,只能通过show partitions命令来显示外部表的分区信息。
我们的外部表是通过dateid进行的partition,如何显示某个partition外部表对应的location:
hive -e "describe extended xxx partition (dateid=20141230)"
显示出来的信息大致如下:
field1 string dateid string # Partition Information # col_name data_type comment dateid string Detailed Partition Information Partition(values:[20141230], dbName:logbase_db, tableName:logbase, createTime:1419984079, lastAccessTime:0, sd:StorageDescriptor(cols:[FieldSchema(name:doc, type:string, comment:null), FieldSchema(name:dateid, type:string, comment:null)], location:hdfs://ns1/xxx/20141230, inputFormat:com.inputformat.XXXInputFormat, outputFormat:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat, compressed:false, numBuckets:-1, serdeInfo:SerDeInfo(name:null, serializationLib:org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, parameters:{serialization.format=1}), bucketCols:[], sortCols:[], parameters:{}, skewedInfo:SkewedInfo(skewedColNames:[], skewedColValues:[], skewedColValueLocationMaps:{}), storedAsSubDirectories:false), parameters:{numFiles=129, transient_lastDdlTime=1419984079, COLUMN_STATS_ACCURATE=false, numRows=-1, totalSize=170482370617, rawDataSize=-1}) Time taken: 0.994 seconds, Fetched: 9 row(s)
显示出来某个partition对应的hdfs地址等,使用的InputFormat等详细信息。
关于外部表创建的语句,完整内容大概如下:
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name (col_name data_type, ...) [PARTITIONED BY (col_name data_type, ...)] [CLUSTERED BY (col_name, col_name, ...)] [SORTED BY (col_name, col_name, ...)] [ROW FORMAT row_formart] [STORED AS file_format] [LOCATION hdfs_path] [AS select_statement]
当然,也可以通过使用Like复制一个已经存在的表定义:
CREATE [EXTERNAL] TABLE [IF NOT EXIST] table_name LIKE existing_table name [LOCATION hdfs_path]
其中各个语句的含义如下:
- CREATE TABLE:创建一个指定名字的表名。如果已经存在,使用IF NOT EXIST来忽略抛出的异常
- EXTERNAL:创建一个外部表,也就是说在创建一个表的同时指定一个指向实际数据的路径。
- LIKE:允许复制一个已经存在的表的定义,而不复制表中已经存在的内容。
- PARTITIONED BY:建立带有分区的表。
- CLUSTERED:对表和分区进行类聚操作。
- SORT BY:根据某个字段进行排序,可以提高数据的查询效率。
如果要使用特定的InputFormat,还需要加入下面的语句:
INPUTFORMAT 'xxxHiveInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION '/aaa/hive-table'
这样就指定InputFormat和OutputFormat,以及外部表的Location。其中InputFormat与Hadoop中的略有不同,其中的RecordReader需要特殊继承Hive中的
org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader
可以做一个Adaptor来将原有的RecordReader进行适配以满足Hive查询的要求。
Hive中的分隔符
hive 默认的字段分隔符为ascii码的控制符\001,建表的时候用fields terminated by '\001',如果要测试的话,造数据在vi 打开文件里面,用ctrl+v然后再ctrl+a可以输入这个控制符\001。按顺序,\002的输入方式为ctrl+v,ctrl+b。以此类推。
当前我们新建的Hive表中,默认fields terminated by没有设置,那么就使用'\001'。
比如我们的一条日志,表面上看起来没有问题:
cat a.log tp=imp^ti=1419076654^md=iPhone3,1^__tid=5zKN0REAy8M%253D^mh=640.00x960.00^me=7.1.2^mf=84fef4314602f88b90dad8f2a9d4b23dv1.1t1419076650kcom.qiyi.iphone^mk=1^plt=1^mn=iphone^m9=128f0ab5^os=i^mm=31.892004x119.898267x50.000000^mp=com.qiyi.iphone^e=i___m^mo=1^m5=9920F2E3-4BDB-430F-BCC3-6ACF6EC6F155^kt=mma^mt=1419076649529^a=UoNVX034P723^rawIp=222.185.12.59^mw=1^j=zh^k=2001515^av=11^ip=222.185.12.59^m0=604a45ed52a06f1535711e3c68a130f2edc^pf=c1^p=101324851^pu=m^pn=iphone^rt=2^uuid=9920f2e3-4bdb-430f-bcc3-6acf6ec6f155^po=http%3a%2f%2fmlt01.com%2fo.htm%3fpv%3d0%26sp%3d0%2c1195912%2c1199754%2c2213157%2c0%2c1%2c1^ag=34
但是通过cat -A(--show-all),就可以看出所有的隐藏字符:
cat -A a.log tp=imp^ti=1419076654^md=iPhone3,1^__tid=5zKN0REAy8M%253D^mh=640.00x960.00^me=7.1.2^mf=84fef4314602f88b90dad8f2a9d4b23dv1.1t1419076650kcom.qiyi.iphone^mk=1^plt=1^mn=iphone^m9=128f0ab5^os=i^mm=31.892004x119.898267x50.000000^mp=com.qiyi.iphone^e=i___m^mo=1^m5=9920F2E3-4BDB-430F-BCC3-6ACF6EC6F155^kt=mma^mt=1419076649529^a=UoNVX034P723^rawIp=222.185.12.59^mw=1^j=zh^k=2001515^av=11^ip=222.185.12.59^m0=604a45ed52a06f15357^A11e^@^@^@^@3c68a130f2edc^pf=c1^p=101324851^pu=m^pn=iphone^rt=2^uuid=9920f2e3-4bdb-430f-bcc3-6acf6ec6f155^po=http%3a%2f%2fmlt01.com%2fo.htm%3fpv%3d0%26sp%3d0%2c1195912%2c1199754%2c2213157%2c0%2c1%2c1^ag=34$
而其中看到的^A就是'\001'的表示(实际上是一个字符),这样外部表中该行数据^A前面的字符被截断导致该行数据只能显示前半部分。
最终的简单解决方法便是重写InputFormat,替换掉可能会导致问题的字符串特殊字符。
相关推荐
Hive多字节分隔符解决方案.docx
本资源适合hive使用log4j2作为日志去开启metastore审计日志,那么本文章就值得(不管是hive2还是hive3)
文档编写目的 Hive在0.14及以后版本支持字段的多分隔符,参考: ... 而Fayson在以前的文章中也基于C5...如何将多个字符作为字段分割符的数据文件加载到Hive表中,示例数据如下: 字段分隔符为“@#$” test1@#$test1name@#$t
针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题, 提出了基于Hive的Web海量搜索日志分析机制。利用HQL语言以及Hadoop分布式文件系统(HDFS)和MapReduce编程模式对海量搜索日志进行分析...
“大数据技术原理与应用”课程实验报告 题目:实验六:熟悉Hive的基本操作 姓名:小猪猪 日期:2022/5/15 1、实验环境: ...1.创建一个内部表 stocks,字段分隔符为英文逗号,表结构如下所示: stocks 表结构:
这是我的一份课程作业,需要事先下载搜狗日志文件。有问题,可以问百度。里面也参考了其他博客主的文章,在最后有相关链接。
hive日志系统实战
该实验数据主要用于Hive进行Apache Web日志的统计分析学习使用,数据量不是大。
WinCE恢复默认HIVE注册表的方法,wince恢复注册表,好东西
一种基于Hive日志分析的大数据存储优化方法,王正也,李书芳,从2002年起,某金融机构积累了大量的银行卡支付日志数据。随着业务的不断增长,数据集高速增长,原生的Hive的查询性能已经不能令人�
基于Hadoop/Hive的web日志分析系统的设计,为广大大数据爱好者提供更好的帮助,喜欢可以下载
hive hive hive hive hive hive hive hive hive hive hive hive
据格式需要指定三个属性:列分隔符(通常为空格、” t ”、” x001″)、行分隔符 (” n”)以及读取文件数据的方法( Hive 中默认有三个文件格式 TextFile , SequenceFile 以及 RCFile )。由于在加载数据的...
hive默认的字符间分隔符SOH(‘/001’),如果不指定正确的分隔符,数据文件就无法被正确映射. 内部表(托管表):删除表时,数据文件将被删除。 外部表:创建表时,加上external,表示创建的为外部表。删除表时,...
Flume采集Nginx日志到Hive的事务表时需要导入到Flume下的Jar文件,具体使用方式可参见博文:https://blog.csdn.net/l1028386804/article/details/97975539
Hive优化案例、Hive数据处理模式、Hive常见问题与优化、Hive实践
利用Hive进行复杂用户行为大数据分析及优化案例(全套视频+课件+代码+讲义+工具软件),具体内容包括: 01_自动批量加载数据到hive 02_Hive表批量加载数据的脚本实现(一) 03_Hive表批量加载数据的脚本实现(二) ...
aaa,bbb,ccc n=2时 截取结果 bbb 很明白了吧 哈
使用hive3.1.2和spark3.0.0配置hive on spark的时候,发现官方下载的hive3.1.2和spark3.0.0不兼容,hive3.1.2对应的版本是spark2.3.0,而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。 所以,如果想要使用高...