自定义分隔符
1.日志格式
2010-05-31 10:50:17|61.132.4.82|http://www.360buy.com/product/201185.html
分隔符是“ | ”
2.创建自定义分隔符的数据表
CREATE TABLE click_test ( time string, ip string, url string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\|' STORED AS TEXTFILE;
3.加载数据
LOAD DATA LOCAL INPATH '/data/clicktest_20110217.txt' OVERWRITE INTO TABLE click_test;
4.查询数据
select * from click_test;
处理Apache日志
1.日志格式
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326
2.创建数据库
CREATE TABLE apachelog (
host STRING,
identity STRING,
user STRING,
time STRING,
request STRING,
status STRING,
size STRING,
referer STRING,
agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\".*\") ([^ \"]*|\".*\"))?",
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)
STORED AS TEXTFILE;
3.加载数据
hive> LOAD DATA LOCAL INPATH "./examples/files/apache.access.log" INTO TABLE apachelog;
hive> LOAD DATA LOCAL INPATH "./examples/files/apache.access.2.log" INTO TABLE apachelog;
4.查询数据
hive> select * from apachelog order by time;
使用order by查询后,会报错:
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.contrib.serde2.RegexSerDe
at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
at java.security.AccessController.doPrivileged(Native Method)
启动时,需要添加hive_contrib.jar
hive --auxpath ./hive/lib/hive_contrib.jar
参考http://wiki.apache.org/hadoop/Hive/LanguageManual/DDL
分享到:
相关推荐
Spark不能使用hive自定义函数
hive数仓、hive SQL 、 hive自定义函数 、hive参数深入浅出
Hive多字节分隔符解决方案.docx
简单介绍了hive自定义函数的编写步骤以及使用。
该实验数据主要用于Hive进行Apache Web日志的统计分析学习使用,数据量不是大。
hive自定义函数demo
本资源适合hive使用log4j2作为日志去开启metastore审计日志,那么本文章就值得(不管是hive2还是hive3)
apache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tarapache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tarapache-hive-2.1.1-bin.tar apache-hive-2.1.1-...
Apache Hive Essentials,2015,第一版,Packt Publishing
大数据安全-kerberos技术-hive安装包,hive版本:apache-hive-3.1.3-bin.tar.gz
Apache Hive(apache-hive-3.1.3-bin.tar.gz、apache-hive-3.1.3-src.tar.gz)是一种分布式容错数据仓库系统,支持大规模分析,并使用 SQL 促进读取、写入和管理驻留在分布式存储中的 PB 级数据。Hive 构建在 Apache...
而Fayson在以前的文章中也基于C5的环境介绍过如何在Hive中使用多分隔符,参考《Hive多分隔符支持示例》。本文主要介绍在CDH6中如何让Hive支持多分隔符。 测试环境 1.Redhat7.2 2.CDH6.2.0 3.Hive2.1 数据准备 如何将...
udf函数,用户自定义函数,可以直接在sql语句中计算的函数 优点: 允许实现模块化的程序设计、方便修改代码、增加函数 UDF的执行速度很快,通过缓存计划在语句重复执行时降低代码的编译开销,比存储方法的执行效率...
hive的udf函数实现
apache-hive-2.3.0-bin.tar.gz
NULL 博文链接:https://chengjianxiaoxue.iteye.com/blog/2235666
从Hive官网下载的最新版apache-hive-3.1.0-bin.tar.gz安装包,需要的朋友拿走
Hive自定义函数 一. UDF(user defined function) 背景 系统内置函数无法解决所有的实际业务问题,需要开发者自己编写函数实现自身的业务实现诉求。 应用场景非常多,面临的业务不同导致个性化实现很多,故udf...
atlas hive hook 资源包