自定义分隔符
1.日志格式
2010-05-31 10:50:17|61.132.4.82|http://www.360buy.com/product/201185.html
分隔符是“ | ”
2.创建自定义分隔符的数据表
CREATE TABLE click_test ( time string, ip string, url string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\|' STORED AS TEXTFILE;
3.加载数据
LOAD DATA LOCAL INPATH '/data/clicktest_20110217.txt' OVERWRITE INTO TABLE click_test;
4.查询数据
select * from click_test;
处理Apache日志
1.日志格式
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326
2.创建数据库
CREATE TABLE apachelog (
host STRING,
identity STRING,
user STRING,
time STRING,
request STRING,
status STRING,
size STRING,
referer STRING,
agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\".*\") ([^ \"]*|\".*\"))?",
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)
STORED AS TEXTFILE;
3.加载数据
hive> LOAD DATA LOCAL INPATH "./examples/files/apache.access.log" INTO TABLE apachelog;
hive> LOAD DATA LOCAL INPATH "./examples/files/apache.access.2.log" INTO TABLE apachelog;
4.查询数据
hive> select * from apachelog order by time;
使用order by查询后,会报错:
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.contrib.serde2.RegexSerDe
at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
at java.security.AccessController.doPrivileged(Native Method)
启动时,需要添加hive_contrib.jar
hive --auxpath ./hive/lib/hive_contrib.jar
参考http://wiki.apache.org/hadoop/Hive/LanguageManual/DDL
分享到:
相关推荐
在我们的例子中,"按照空格对日志文件进行拆分"意味着我们将使用TextFile InputFormat,并且自定义分隔符为空格。 3. **自定义InputFormat** 当标准的InputFormat无法满足需求时,我们需要编写自定义的InputFormat...
- **日志处理**:对海量的日志数据进行清洗、统计和分析。 - **文本挖掘**:从大量文本数据中提取有价值的信息。 - **文档索引**:为文档建立索引,便于后续的检索操作。 - **面向客户的商业智能**:例如 Google ...
例如,你可以通过Hive SQL语句将特定时间范围内的数据导出到HDFS,然后使用Sqoop的`export`命令指定连接参数、表名、字段分隔符以及HDFS路径,完成数据的导入。 对于增量导出,Sqoop提供了`--update-mode ...
1. **加载数据**:首先,加载位于HDFS中的日志文件,使用空格作为字段分隔符,仅加载IP地址这一列。 ```bash records = LOAD 'hdfs://hadoop:9000/class7/input/website_log.txt' USING PigStorage(' ') AS (ip:...
scratch少儿编程逻辑思维游戏源码-米克 demo.zip
scratch少儿编程逻辑思维游戏源码-萝卜男孩拯救世界.zip
scratch少儿编程逻辑思维游戏源码-酷忍者.zip
教育科技_微信小程序_二手交易平台_大学校园二手书与物品循环利用公益系统_风华读书人校园二手交易平台_基于C2C模式的校内闲置物品交易系统_支持多校区独立运营的二手书交易平台_包含
全新UI彩虹外链网盘系统源码前后端美化模板整站 模版文件.zip
maoxig_nonebot-plugin-ai-timetable_32152_1745865455265
少儿编程scratch项目源代码文件案例素材-足球顶尖高手.zip
少儿编程scratch项目源代码文件案例素材-作战基地.zip
少儿编程scratch项目源代码文件案例素材-云端之上 1-4名玩家.zip
scratch少儿编程逻辑思维游戏源码-魔幻之塔.zip
scratch少儿编程逻辑思维游戏源码-楼层酷跑.zip
scratch少儿编程逻辑思维游戏源码-圈.zip
少儿编程scratch项目源代码文件案例素材-纸片马里奥自定义战役.zip
少儿编程scratch项目源代码文件案例素材-自由下落.zip
少儿编程scratch项目源代码文件案例素材-阻击蜈蚣.zip
健康监测与疾病预防_脉搏波分析_六轴加速度传感器_生理参数融合_STC12硬件采集_Android数据处理_SpringBoot后端_MySQL数据库_MatlabPython实验