DDL Operations
创建表
hive> CREATE TABLE pokes (foo INT, bar STRING);
创建表并创建索引字段ds
hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);
显示所有表
hive> SHOW TABLES;
按正条件(正则表达式)显示表,
hive> SHOW TABLES '.*s';
表添加一列
hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);
添加一列并增加列字段注释
hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');
更改表名
hive> ALTER TABLE events RENAME TO 3koobecaf;
删除列
hive> DROP TABLE pokes;
元数据存储
将文件中的数据加载到表中
hive> LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;
加载本地数据,同时给定分区信息
hive> LOAD DATA LOCAL INPATH './examples/files/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');
加载DFS数据 ,同时给定分区信息
hive> LOAD DATA INPATH '/user/myname/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');
The above command will load data from an HDFS file/directory to the table. Note that loading data from HDFS will result in moving the file/directory. As a result, the operation is almost instantaneous.
SQL 操作
按先件查询
hive> SELECT a.foo FROM invites a WHERE a.ds='<DATE>';
将查询数据输出至目录
hive> INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM invites a WHERE a.ds='<DATE>';
将查询结果输出至本地目录
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/local_out' SELECT a.* FROM pokes a;
选择所有列到本地目录
hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a;
hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a WHERE a.key < 100;
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a;
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_4' select a.invites, a.pokes FROM profiles a;
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT COUNT(1) FROM invites a WHERE a.ds='<DATE>';
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT a.foo, a.bar FROM invites a;
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/sum' SELECT SUM(a.pc) FROM pc1 a;
将一个表的统计结果插入另一个表中
hive> FROM invites a INSERT OVERWRITE TABLE events SELECT a.bar, count(1) WHERE a.foo > 0 GROUP BY a.bar;
hive> INSERT OVERWRITE TABLE events SELECT a.bar, count(1) FROM invites a WHERE a.foo > 0 GROUP BY a.bar;
JOIN
hive> FROM pokes t1 JOIN invites t2 ON (t1.bar = t2.bar) INSERT OVERWRITE TABLE events SELECT t1.bar, t1.foo, t2.foo;
将多表数据插入到同一表中
FROM src
INSERT OVERWRITE TABLE dest1 SELECT src.* WHERE src.key < 100
INSERT OVERWRITE TABLE dest2 SELECT src.key, src.value WHERE src.key >= 100 and src.key < 200
INSERT OVERWRITE TABLE dest3 PARTITION(ds='2008-04-08', hr='12') SELECT src.key WHERE src.key >= 200 and src.key < 300
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/dest4.out' SELECT src.value WHERE src.key >= 300;
将文件流直接插入文件
hive> FROM invites a INSERT OVERWRITE TABLE events SELECT TRANSFORM(a.foo, a.bar) AS (oof, rab) USING '/bin/cat' WHERE a.ds > '2008-08-09';
This streams the data in the map phase through the script /bin/cat (like hadoop streaming). Similarly - streaming can be used on the reduce side (please see the Hive Tutorial or examples)
实际示例
创建一个表
CREATE TABLE u_data (
userid INT,
movieid INT,
rating INT,
unixtime STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;
下载示例数据文件,并解压缩
wget http://www.grouplens.org/system/files/ml-data.tar__0.gz
tar xvzf ml-data.tar__0.gz
加载数据到表中
LOAD DATA LOCAL INPATH 'ml-data/u.data'
OVERWRITE INTO TABLE u_data;
统计数据总量
SELECT COUNT(1) FROM u_data;
现在做一些复杂的数据分析
创建一个 weekday_mapper.py: 文件,作为数据按周进行分割
import sys
import datetime
for line in sys.stdin:
line = line.strip()
userid, movieid, rating, unixtime = line.split('\t')
生成数据的周信息
weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()
print '\t'.join([userid, movieid, rating, str(weekday)])
使用映射脚本
//创建表,按分割符分割行中的字段值
CREATE TABLE u_data_new (
userid INT,
movieid INT,
rating INT,
weekday INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';
//将python文件加载到系统
add FILE weekday_mapper.py;
将数据按周进行分割
INSERT OVERWRITE TABLE u_data_new
SELECT
TRANSFORM (userid, movieid, rating, unixtime)
USING 'python weekday_mapper.py'
AS (userid, movieid, rating, weekday)
FROM u_data;
SELECT weekday, COUNT(1)
FROM u_data_new
GROUP BY weekday;
处理Apache Weblog 数据
将WEB日志先用正则表达式进行组合,再按需要的条件进行组合输入到表中
add jar ../build/contrib/hive_contrib.jar;
CREATE TABLE apachelog (
host STRING,
identity STRING,
user STRING,
time STRING,
request STRING,
status STRING,
size STRING,
referer STRING,
agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?",
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)
STORED AS TEXTFILE;
- 浏览: 167958 次
- 性别:
- 来自: 北京
文章分类
最新评论
发表评论
-
hive metastore 报错 binlog mode 不对问题
2015-11-17 10:50 10202015-11-16 16:33:55,701 WARN ... -
hive insert directory指定分隔符
2015-10-27 11:39 2046hive insert directory指定分隔符 1 ... -
hive加载数据到表
2015-09-16 15:10 592hive 表加载数据到表中默认地址是warehouse/t ... -
hadoop put 或hive load local file 异常org.apache.hadoop.fs.ChecksumException:
2015-09-15 14:39 1576org.apache.hadoop.fs.Checksum ... -
hive中使用transform小例子
2015-09-08 15:30 1200... -
hive 不以科学计数法输出,hive计数法输出
2015-06-03 18:29 2379Hive中int , float , double这 ... -
hive union
2015-03-11 15:07 505原文:http://www.cnblogs.com/ggju ... -
hive中分组取前N个值的实现
2015-03-11 12:18 549背景 假设有一个学生各门课的成绩的表单,应用hive取出每 ... -
hive中order by,sort by, distribute by, cluster by作用以及用法
2015-03-03 12:39 428hive中order by,sort by, distrib ... -
Hive UDF整理
2015-02-28 19:16 961目录[-] Hive UDF整理 字符串函数 ... -
从一个经典案例看优化mapred.map.tasks的重要性
2014-10-28 22:31 492dfs.block.size=268435456hive.m ... -
overwrite在hive内部表及外部表特性
2014-05-19 14:14 1603overwrite在hive内部表及外部表特性。over ... -
hive insert into overide 用法
2014-05-13 16:23 6601 hive> insert overwrite t ... -
利用udf函数将Hive统计结果直接插入到MySQL
2014-05-13 09:56 1223大部分利用hive做数据分析的步骤是先用hive将统计结果 ... -
hive 建表异常处理字节太长
2014-03-14 14:49 773hive create table: Specif ...
相关推荐
hive帮助文档中文版,添加了目录方便查找定位,分享出来以供交流使用。 包括hive基本结构、基本操作,select,join,参数设置等等用法
最近整理了一下关于hive常用基本函数和基础用法,具体参考附件文档,该资料仅供参考,希望整理的资料可以帮到你!
大数据游乐场:Hadoop + Hive + Spark 基本的Docker映像仅具有基本要素:Hadoop,Hive和Spark。软件完全分布式(多节点)模式下的 将HiveServer2暴露给主机的 。 YARN模式下的 (Spark Scala,PySpark和SparkR)用法...
文档介绍了hive的一些使用的方法与基本的一些操作方法
将 MongoDB 集合加载到 Hive 的超级简单方法。 该代码通过对每个 MongoDB 记录进行深入检查并导出每个字段的数据类型来自动创建 Hive 模式。 支持基本数据类型、嵌套对象、原始数据类型数组和对象数组。 嵌套字段被...
星环HBASE使用方法,基于星环大数据平台的hbase,了解HBASE的基本功能和使用,内部培训文档
2. 使用方法简介 3. 已知问题 4. 注意事项 ## 1.基本软件环境介绍 ###1. 软件版本 - 操作系统: CentOS 6 - Java环境: OpenJDK 8 - Hadoop: 2.7.2 - Spark: 1.6.2/2.1.0 - Hive: 1.1.1/2.1.1 - HBase: 1.2.2 - ...
如果使用像Yarn这样的其他程序包管理器,则过程基本相同。 实际上,Yarn是推荐使用DEX的软件包管理器,但不是硬性要求。 npm install 运行应用程序(主网) 要以开发模式在本地运行应用程序,只需打
基本用法 蜂巢--auxpath /home/myui/tmp/jdbc-storagehandler.jar; CREATE EXTERNAL TABLE pg_model_sample90p ( feature INT , weight DOUBLE ) STORED BY ' org.apache.hadoop.hive.jdbc.storagehandler....
然而,更高级的用法往往表明,同时使用两者是非常聪明的,并允许在实现相同目的的更多方法之间进行选择。 警告 可悲的是,这项工作忽略了比较的性能方面,因为需要更多的工作(和更严格)。 所有工作都是在单节点...
274. Hive Cli 的基本用法28#登陆查询28#查询文件方式28#命令行模式285. HQL基本语法 (创建表,加载表,分析查询,删除表)28#创建表286. 使用Mysql构建简单数据集市29#Mysql的两种引擎介绍29#创建一个数据表使用Hive ...
1、熟悉Linux系统、MySQL、Spark、HBase、Hive、Sqoop、R、Eclipse、IntelliJ Idea等系统和软件的安装和使用; 2、了解大数据处理的基本流程; 3、熟悉数据预处理方法; 4、熟悉在不同类型数据库之间进行数据相互...
Apache Hive 1.1.0 ( ) Apache Impala 2.12.0 ( ) 使用以下编译器和基本PHP类: Apache Thrift 0.12.0 ( )使用范例推荐的使用此库的方法是通过高效内存的迭代器从Hive / Impala获取结果,该迭代器将保持连接...
用户可以使用两种方法创建RDD:读取一个外部数据集,或在驱动器程序中分发驱动器程序中的对象集合,比如list或者set。 RDD的转化操作都是惰性求值的,这意味着我们对RDD调用转化操作,操作不会立即执行。相反,Spark...
圆周率(Pi)是圆的周长与直径的比值,一般用希腊字母 π 表示,是一个在数学及...使用蒙特卡洛法求解 π 值基本步骤如下:构造一个单位正方形和一个单位圆的 1/4;往正方形内随机投点,根据点到原点的距离是否大于 1
此案列涉及了数据预处理、存储、查询和可视化分析等数据处理,涉及了各种关于数据处理的操作,其中涵盖了关于Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用方法,是一个综合实践...
技术点26 在HDFS、MapReduce、Pig 和Hive 中使用数据压缩 技术点27 在MapReduce、Hive 和Pig 中处理可分割的LZOP 5.3 本章小结 6 诊断和优化性能问题 6.1 衡量MapReduce 和你的环境 6.1.1 提取作业统计...
03-hive的使用.avi 04-hive的常用语法.avi 05-hql语法及自定义函数.avi 06-hbase表结构.avi 07-hbase集群架构及表存储机制.avi 08-hbase-shell.avi 09-hbase的java api.avi 第七天 storm+kafka 006-kafka...
4.4 本章小结5 优化HDFS 处理大数据的技术5.1 处理小文件技术点24 使用Avro 存储大量小文件5.2 通过压缩提高数据存储效率技术点25 选择合适的压缩解码器技术点26 在HDFS、MapReduce、Pig 和Hive 中使用...