superlxw1234

浏览: 542271 次
性别:
来自: 西安

最近访客更多访客>>

huageng520

rattersnake

yuanyuan7891

ticojj

博主相关

博客

微博

相册

留言

关于我

博客专栏

: Hive入门
浏览量：43182

文章分类

社区版块

存档分类

[一起学Hive]之五-Hive的视图和分区

博客分类：

hive

hive hive视图 hive分区

同关系型数据库一样，Hive中也支持视图(View)和分区(Partition)，但与关系型数据库中的有所区别，本文简单介绍Hive中视图和分区的示例。

在真实业务场景下，视图的应用比较少，分区使用的非常多，因此建议对分区这块多花的时间来了解。

四、Hive的视图和分区

4.1 Hive中的视图

和关系型数据库一样，Hive中也提供了视图的功能，注意Hive中视图的特性，和关系型数据库中的稍有区别：

只有逻辑视图，没有物化视图；
视图只能查询，不能Load/Insert/Update/Delete数据；
视图在创建时候，只是保存了一份元数据，当查询视图的时候，才开始执行视图对应的那些子查询；

4.1.1 创建视图

CREATE VIEW [IF NOT EXISTS] [db_name.]view_name [(column_name [COMMENT column_comment], …) ]

[COMMENT view_comment]

[TBLPROPERTIES (property_name = property_value, …)]

AS SELECT …;

例如：

CREATE VIEW IF NOT EXISTS v_lxw1234 (url COMMENT ‘url’)

COMMENT ‘view lxw1234′

AS SELECT url FROM lxw1234

WHERE url LIKE ‘http://%’

LIMIT 100;

4.1.2 删除视图

DROP VIEW IF EXISTS v_lxw1234;

4.1.3 修改视图

ALTER VIEW v_lxw1234 AS

SELECT url FROM lxw1234 limit 500;

更多关于Hive视图的介绍，请参考官方文档：

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Create/Drop/AlterView

4.2 Hive中的表分区

Hive中的表分区比较简单，就是将同一组数据放到同一个HDFS目录下，当查询中过滤条件指定了某一个分区值时候，只将该分区对应的目录作为Input，从而减少MapReduce的输入数据，提高查询效率。

4.2.1 创建分区表

CREATE EXTERNAL TABLE t_lxw1234 (

id INT,

ip STRING COMMENT ‘访问者IP’,

avg_view_depth DECIMAL(5,1),

bounce_rate DECIMAL(6,5)

) COMMENT ‘lxw的大数据田地-lxw1234.com’

PARTITIONED BY (month STRING, day STRING)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ‘,’

STORED AS textfile;

在创建表时候，使用PARTITIONED BY关键字来指定该表为分区表，后面括号中指定了分区的字段和类型，分区字段可以有多个，在HDFS中对应多级目录。
比如，上面的表t_lxw1234分区month=’2015-06’,day=’2015-06-15’对应HDFS上的路径为：/user /hive/warehouse/default.db/t_lxw1234/month=2015-06/day=2015-06-15/，当查询中指定了month=’2015-06’ AND day=’2015-06-15’,MapReduce直接从该目录中读取数据，如果只指定了month=’2015-06’，那么MapReduce将 /month=2015-06/下所有的子目录都作为Input。

4.2.2 添加分区

使用INSERT添加分区：

往分区中追加数据：

INSERT INTO TABLE t_lxw1234 PARTITION (month = ‘2015-06′,day = ‘2015-06-15′)

SELECT * FROM dual;

覆盖分区数据：

INSERT overwrite TABLE t_lxw1234 PARTITION (month = ‘2015-06′,day = ‘2015-06-15′)

SELECT * FROM dual;

使用ALTER TABLE添加分区：

ALTER TABLE t_lxw1234 ADD PARTITION (month = ‘2015-06′,day = ‘2015-06-15′) location ‘hdfs://namenode/tmp/lxw1234/month=2015-06/day=2015-06-15/';

4.2.3 查看分区对应的HDFS路径

使用命令 show partitions t_lxw1234; 查看表的所有分区：

hive> show partitions t_lxw1234;

month=2015-01/day=2015-01-25

month=2015-01/day=2015-01-31

month=2015-02/day=2015-02-15

month=2015-02/day=2015-02-28

month=2015-03/day=2015-03-15

month=2015-03/day=2015-03-31

使用desc formatted t_lxw1234 partition (month = ‘2015-01’ , day = ‘2015-01-25′);

查看该分区的详细信息，包括该分区在HDFS上的路径：

Location: hdfs://namenode/user/hive/warehouse/default.db/t_lxw1234/month=2015-01/day=2015-01-25/

4.2.4 删除分区

可以使用 ALTER TABLE t_lxw1234 DROP PARTITION (month = ‘2015-01’, day = ‘2015-01-25’);

删除一个分区；

同内部表和外部表，如果该分区表为外部表，则分区对应的HDFS目录数据不会被删除。

更多关于分区的介绍，可参考官方文档：

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-AddPartitions

Hive相关文章（持续更新）：

一起学Hive系列

—-Hive概述，Hive是什么

—-Hive函数大全-完整版

—-Hive中的数据库(Database)和表(Table)

—-Hive的安装配置

Hive分析函数系列

Hive索引

hive优化之——控制hive任务中的map数和reduce数

1
顶

0
踩

分享到：

[一起学Hive]之七-向Hive表中加载数据 | Spark1.3.1安装配置运行

2015-06-15 11:09
浏览 1851
评论(1)
分类:开源软件
查看更多

1 楼 annmi_cai 2016-03-11

顶顶更健康

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

[一起学Hive]之五-Hive的视图和分区

四、Hive的视图和分区

4.1 Hive中的视图

4.1.1 创建视图

4.1.2 删除视图

4.1.3 修改视图

4.2 Hive中的表分区

4.2.1 创建分区表

4.2.2 添加分区

4.2.3 查看分区对应的HDFS路径

4.2.4 删除分区

Hive相关文章（持续更新）：

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

[一起学Hive]之五-Hive的视图和分区

四、Hive的视图和分区

4.1 Hive中的视图

4.1.1 创建视图

4.1.2 删除视图

4.1.3 修改视图

4.2 Hive中的表分区

4.2.1 创建分区表

4.2.2 添加分区

4.2.3 查看分区对应的HDFS路径

4.2.4 删除分区

Hive相关文章（持续更新）：

评论

发表评论

相关推荐

[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling

[一起学Hive]之十六-Hive的WEB页面接口-HWI

[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)

一起学Hive系列文章

MapReduce和Hive支持递归子目录作为输入

[一起学Hive]之十四-Hive的元数据表结构详解

[一起学Hive]之十三-Hive整合HBase，操作HBase表

[一起学Hive]之十二-Hive SQL的优化

[一起学Hive]之十一-Hive中Join的类型和用法

[一起学Hive]之十-Hive中Join的原理和机制

[一起学Hive]之九-Hive的查询语句SELECT

Spark1.4.0-SparkSQL与Hive整合-支持窗口分析函数

[一起学Hive]之八-使用Hive命令行

[一起学Hive]之六-Hive的动态分区

[一起学Hive]之七-向Hive表中加载数据

[一起学Hive]之四-Hive的安装配置

[一起学Hive]之三—Hive中的数据库(Database)和表(Table)

[一起学Hive]之二—Hive函数大全-完整版

[一起学Hive]—Hive函数大全-part2

[一起学Hive]—Hive函数大全-part1

最近访客更多访客>>