hive学习—分区、分桶和索引 -

x10232

浏览: 55565 次
来自: 北京

最近访客更多访客>>

grylls

suixiang2017

chengzhang2017

商人shang

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hive学习—分区、分桶和索引

博客分类：

hadoop

hadoop

hive引入partition和bucket的概念，中文翻译分别为分区和桶（我觉的不是很合适，但是网上基本都是这么翻译，暂时用这个吧），这两个概念都是把数据划分成块，分区是粗粒度的划分桶是细粒度的划分，这样做为了可以让查询发生在小范围的数据上以提高效率。
分区的作用：使用分区可以加快数据分片的查询速度。
桶的作用：(1)获得更高效的查询处理效率，桶为表加上了额外的结构。
(2)"取样"更高效。在处理大规模数据集时，在开发和修改查询阶段，如果能在数据集的一小部分数据上试进行查询，会带来很多方便。
首先介绍分区的概念，还是先来个例子看下如果创建分区表：
create table logs_partition(ts bigint,line string) --ts timestamp line 每一行日志
partitioned by (dt string,country string) -- 分区列 dt 日志产生日期

创建分区表需要在定义表的时候声明分区列，这个分区列是个比较有意思的东西下面来看看，向表中导入数据：

load data local inpath 'input/hive/partitions/file1'
into table logs_partition
partition(dt='2001-01-01',country='GB');

.......
-- 看下表的结构

hive> desc logs_partition;
OK
ts                      bigint                  None                
line                    string                  None                
dt                      string                  None                
country                 string                  None                
          
# Partition Information      
# col_name              data_type               comment             
          
dt                      string                  None                
country                 string                  None                
Time taken: 0.265 seconds, Fetched: 10 row(s)

查看一个表的所有分区

hive> show partitions logs_partition;
OK
dt=2001-01-01/country=GB
dt=2001-01-01/country=US
dt=2001-01-02/country=GB
dt=2001-01-02/country=US
Time taken: 0.186 seconds, Fetched: 4 row(s)

导入完数据后看下hive数据仓库表logs_partition下的文件目录结构
/user/hive/warehouse/logs_partition
Screenshot from 2013-10-10 17:46:25
看到了吧分区列都成了目录了，这样查询的时候就会定位到某个目录下而大大提高了查询效率，在查看表结构的时候分区列跟其他列并无区别，看个查询语句：

SELECT ts, dt, line
FROM logs
WHERE country='GB';
 
1   2001-01-01  Log line 1
2   2001-01-01  Log line 2
4   2001-01-02  Log line 4
Time taken: 36.316 seconds, Fetched: 3 row(s)

这个查询只会查询file1, file2, file4这三个文件还有一个有趣的问题就是，查看下数据文件fieldX
里面都只包含两列ts和line并不包含dt和country这两个分区列，但是从查询结果看分区列和非分区列并无差别，实际上分区列都是从数据仓库的分区目录名得来的。

接下来说说桶，桶是更为细粒度的数据范围划分，它能使一些特定的查询效率更高，比如对于具有相同的桶划分并且jion的列刚好就是在桶里的连接查询，还有就是示例数据，对于一个庞大的数据集我们经常需要拿出来一小部分作为样例，然后在样例上验证我们的查询，优化我们的程序。

下面看看如何创建带桶的表

create table bucket_user (id int,name string)
clustered by (id) into 4 buckets;

关键字clustered声明划分桶的列和桶的个数，这里以用户的id来划分桶，划分4个桶。
以下为了简便划分桶的列简称为桶列
hive会计算桶列的hash值再以桶的个数取模来计算某条记录属于那个桶

向这种带桶的表里面导入数据有两种方式，一种是外部生成的数据导入到桶表，一种是利用hive来帮助你生成桶表数据
由于hive在load数据的时候不能检查数据文件的格式与桶的定义是否匹配，如果不匹配在查询的时候就会报错，所以最好还是让hive来帮你生成数据，简单来说就是利用现有的表的数据导入到新定义的带有桶的表中，下面来看看：
已经存在的表：

hive> select * from users;
OK
0   Nat
2   Joe
3   Kay
4   Ann

hive> set hive.enforce.bucketing=true --必须设置这个数据，hive才会按照你设置的桶的个数去生成数据

下面把user的数据导入到bucketed_users中

insert overwrite table bucketed-users
select * from users;

然后见证奇迹的时刻：

hive> dfs -ls /user/hive/warehouse/bucketed_users;
-rw-r--r--   1 root supergroup         12 2013-10-10 18:48 /user/hive/warehouse/bucketed_users/000000_0
-rw-r--r--   1 root supergroup          0 2013-10-10 18:48 /user/hive/warehouse/bucketed_users/000001_0
-rw-r--r--   1 root supergroup          6 2013-10-10 18:48 /user/hive/warehouse/bucketed_users/000002_0
-rw-r--r--   1 root supergroup          6 2013-10-10 18:48 /user/hive/warehouse/bucketed_users/000003_0

hive> dfs -cat /user/hive/warehouse/bucketed_users/000000_0;
0Nat
4Ann

下面来看看利用bucket来对示例数据进行查询
---带桶的表
select * from bucketed_users
tablesample(bucket 1 out of 4 on id);

---不带桶的表
select * from users
tablesample(bucket 1 out of 4 on rand());

tablesample的作用就是让查询发生在一部分桶上而不是整个数据集上，上面就是查询4个桶里面第一个桶的数据
相对与不带桶的表这无疑是效率很高的,因为同样都是需要一小部分数据，但是不带桶的表需要使用rand（）函数，需要在整个数据集上检索。

分享到：

MapReduce 中的两表 join 几种方案简介 | 把整数排成最小的数

2015-09-07 16:52
浏览 1163
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive学习—分区、分桶和索引

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive学习—分区、分桶和索引

评论

发表评论

相关推荐

map join

使用 Hive 作为传统 ELT 工具的替代

Hadoop 目前只是“穷人的 ETL”

详细总结 Hive VS 传统关系型数据库

MapReduce 中的两表 join 几种方案简介

Hadoop调优总结

利用SQOOP将数据从数据库导入到HDFS

hadoop

最近访客更多访客>>