`
liyonghui160com
  • 浏览: 761212 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hive分区操作

    博客分类:
  • hive
阅读更多

 

 

必须在表定义时创建partition

 

a、单分区建表语句:create table day_table (id int, content string) partitioned by (dt string);单分区表,按天分区,在表结构中存在id,content,dt三列。

 

以dt为文件夹区分

 

b、 双分区建表语句:create table day_hour_table (id int, content string) partitioned by (dt string, hour string);双分区表,按天和小时分区,在表结构中新增加了dt和hour两列。

 

先以dt为文件夹,再以hour子文件夹区分

 

 

添加分区表语法(表已创建,在此基础上添加分区):ALTER TABLE table_name ADD

partition_spec [ LOCATION 'location1' ]

partition_spec [ LOCATION 'location2' ] ...

 

ALTER TABLE day_table ADD PARTITION (dt='2008-08-08', hour='08')

location '/path/pv1.txt'

 

 

删除分区语法:ALTER TABLE table_name DROP partition_spec, partition_spec,...

 

用户可以用 ALTER TABLE DROP PARTITION 来删除分区。分区的元数据和数据将被一并删除。例:

ALTER TABLE day_hour_table DROP PARTITION (dt='2008-08-08', hour='09');

 

数据加载进分区表中语法:

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

 

例:

LOAD DATA INPATH '/user/pv.txt' INTO TABLE day_hour_table PARTITION(dt='2008-08- 08', hour='08'); LOAD DATA local INPATH '/user/hua/*' INTO TABLE day_hour partition(dt='2010-07- 07');当数据被加载至表中时,不会对数据进行任何转换。Load操作只是将数据复制至Hive表对应的位置。数据加载时在表下自动创建一个目录

基于分区的查询的语句:SELECT day_table.* FROM day_table WHERE day_table.dt>= '2008-08-08';

 

hive查看表分区语句:

hive> show partitions day_hour_table;

OK dt=2008-08-08/hour=08 dt=2008-08-08/hour=09 dt=2008-08-09/hour=09

 

 

分享到:
评论

相关推荐

    Hive使用手册Hive使用手册

    目录 1 Hive 概念与连接使用: 2 ...5.1 Hive 添加分区 4 5.2 Hive 删除分区 5 6 SHOW语句 5 7 DESCRIBE语句 5 8 加载数据 5 9表连接 6 10 子查询 6 11 UNION ALL 6 12 Hive使用注意点: 6 13 Hive优化 9

    Hive的分区表

    Hive分区表 Hive分区表对应的是HDFS上独立的文件夹,该文件夹存放的是该分区的所有数据,其实分区就是分目录。Hive通过分区把一个大的数据集根据业务需要分割成小的数据集,在查询时能够通过where关键词选择指定分区...

    hive建表操作案例.txt

    hive分桶,分区操作案例实战。学习的好资料。hive分桶,分区操作案例实战。学习的好资料。hive分桶,分区操作案例实战。学习的好资料。

    hive操作文档.md

    hive的基础和进阶的操纵,可以满足基本的工作,涉及到,外部表的操作,分区表,修改表,分桶表,Hive 查询语法,有语法的解释和操作的案例

    Hive 基本命令操作1

    1.创建分区表语法 1.创建二级分区表 2.正常的加载数据 3.查询数据

    分布式数据仓库Hive大全

    1.6 其它HIVE操作 11 2. HIVE 基本操作 12 2.1 create table 12 2.1.1 总述 12 2.1.2 语法 12 2.1.3 基本例子 14 2.1.4 创建分区 15 2.1.5 其它例子 16 2.2 Alter Table 17 2.2.1 Add Partitions 17 2.2.2 Drop ...

    Hive用户指南

    1.6 其它HIVE操作 11 2. HIVE 基本操作 12 2.1 create table 12 2.1.1 总述 12 2.1.2 语法 12 2.1.3 基本例子 14 2.1.4 创建分区 15 2.1.5 其它例子 16 2.2 Alter Table 17 2.2.1 Add Partitions 17 2.2.2 Drop ...

    Hadoop原理与技术Hive操作实验

    一、实验目的 上机实操,学会使用Hive开发。 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 ...三、创建分区表 四、创建分桶表 五、java连接数据库窗口版 六、java连接数据库代码版

    Hive的基础操作教学

    Hive常用数据类型介绍,表创建,内外部表、分区分桶表介绍,hive内置函数,UDTF,UDAF函数介绍,hive数据的导入导出以及JDBC配置方法。详细介绍了hive一些函数的使用和应用。

    Hive中查询操作

    starting with Hive 0.13.0) SELECT [ALL | DISTINCT] select_expr, select_expr, ... FROM table_reference [WHERE where_condition] [GROUP BY col_list] [ORDER BY col_list] [CLUSTER BY col_list | [DISTRIBUTE...

    hive操作命令大全.txt

    最近在公司实习,对hive进行了学习,做了些整理的笔记。 基础命令 show databases; # 查看某个数据库 use 数据库; # 进入某个数据库 show tables; # 展示所有表 desc 表名; # 显示表结构 show partitions ...

    hive仓库元数据管理系统

    1.hive元数据信息的查看,包括表基本信息,数据库基本信息,字段信息,分区信息,索引信息等; 2.对hive元数据的检索,包括表、字段、数据库等内容的检索 3.元数据信息更新(目前只提供对库、表、字段的描述信息进行...

    大数据学习路线 大数据技术栈思维导图 大数据常用软件安装指南

    大数据学习路线 大数据技术栈思维导图 大数据常用软件安装...Hive 分区表和分桶表 Hive 视图和索引 Hive 常用 DML 操作 Hive 数据查询详解 Spark、Storm、Flink、HBase、Kafka、Zookeeper、Flume、Sqoop等技术的学习

    大数据精选入门指南,包括大数据学习路线、大数据技术栈思维导图

    Hive 分区表和分区表 Hive 视图和索引 Hive 使用 DML 操作 Hive数据详细查询解 三、火花 火花核心: 斯帕克简介 Spark开发环境搭建 弹性式数据集 RDD RDD使用算子详解 Spark运行模式与作业提交 Spark 累加器与广播...

    非常好的大数据入门目资源,分享出来.zip

    Hive 分区表和分桶表 Hive 视图和索引 Hive 常用 DML 操作 Hive 数据查询详解 三、Spark Spark Core : Spark 简介 Spark 开发环境搭建 弹性式数据集 RDD RDD 常用算子详解 Spark 运行模式与作业提交 Spark 累加器与...

    Hive DDL 之 表

    创建表 语法: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], …)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], …)...

    hiveMetaMgr:hive仓库元数据管理系统

    #hive仓库元数据管理系统##有如下功能: 1.hive元数据信息的查看,包括表基本信息,数据库基本信息,分区信息,分区信息,索引信息等; 2.对hive元数据的检索,包括表,分段,数据库等内容的检索3.元数据信息更新...

    Hive DML

    Hive不支持update的操作。数据一旦导入,则不可修改。要么drop掉整个表,要么建立新的表,导入新的数据。 load:加载数据到表 load data [local] inpath ‘filepath’ overwrite | into table 表名 [partition ...

    Hadoop+Hive+Spark+Kafka+Zookeeper+Flume+Sqoop+Azkaban+Scala

    分区表和分桶表 视图和索引 常用 DML 操作 数据查询详解 三、Spark Spark Core Spark SQL Spark Streaming 五、Flink 核心概念综述 开发环境搭建 Data Source Data Transformation Data Sink 窗口模型 状态管理与...

    datax-web:DataX集成可视化页面,选择数据源即可使用一键生成数据同步任务,支持RDBMS,Hive,HBase,ClickHouse,MongoDB等数据源,批量创建RDBMS数据同步任务,集成嵌入式调度系统,支持分布式,增量同步数据,实时查看运行日志,监控执行器资源,KILL运行进程,数据源信息加密等

    数据网 DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的操作界面,减少用户使用DataX的学习成本,更改任务配置时间,避免配置过程中出错。用户可以通过页面选择数据源即可创建数据同步任务,支持...

Global site tag (gtag.js) - Google Analytics