MaxCompute( 原ODPS）下的表分区解释 -

爱哭的小魔女

浏览: 66438 次
性别:
来自: 北京

最近访客更多访客>>

yflwz

星云联动

Youkes

smart_yb

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2017-11 ( 13)
2017-07 ( 78)
2017-06 ( 16)
更多存档...

MaxCompute( 原ODPS）下的表分区解释

Borland VBScript

原文链接：http://click.aliyun.com/m/25126/
摘要：大数据计算服务（MaxCompute，原名 ODPS，https://www.aliyun.com/product/odps）是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问题，有效降低企业成本，并保障数据安全。

大数据计算服务（MaxCompute，原名 ODPS，https://www.aliyun.com/product/odps）是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问题，有效降低企业成本，并保障数据安全。

ODPS分区字段一般来说都是重复性非常强的字段，比如说时间，某一天可能会产生几万条数据，把这一天产生的数据就存入到一个分区中，而时间（某天）就是分区字段，时间（某天）所在的列就是分区列。也就是说，基于分区列的数据作为一个纬度，进行了数据块的划分存储，加快查询速度。每一个分区块里面的数据是完整性的，而不是分区列里的一列或者几列数据。在ODPS中最多支持六级分区。也就是说partition by里面可以有六个字段可以设置为分区列，而且是有顺序的。比如说有两个分区列，sale_date和region ，那么这个表可能存在多少个分区呢？可能无数个,分区分为几级呢，两级。第一级为销售时间，第二级为区域。

Create table sale_detail(shop_name string, customer_id string , total_price decimal) partition by(sale_date string, region string);
Alter table sale_detail add partition (sale_date = ‘201703’， region=’hangzhou’);
其实可以理解更加简单一些，就是有个叫sale_detail的文件夹，下面存了一堆201703，201704...的文件夹，201703这个文件夹下面又存了一堆hangzhou、beijing、qingdao...的文件夹，这些文件夹里面存的是一条一条的数据，只不过数据都是基于时间和地域纬度的。想清楚了，就是一层窗户纸的事情。
_

作者：徽州七哥

原文地址：https://yq.aliyun.com/articles/72337

有奖活动：

万元大奖邀您参与阿里云数加 MaxCompute最佳实践征文大赛
原文链接：http://click.aliyun.com/m/25126/

分享到：