HIVE 第三章表分区 - - ITeye博客

`

blackproof

浏览: 1383234 次
性别:
来自: 北京

最近访客更多访客>>

lingxiajiudu

youtao531

mengjingwo

xuycan

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

guokaiwhu：赞啊！今晚遇到相同的问题，正追根溯源，就找到了博主！
hbase 报错gc wal.FSHLog: Error while AsyncSyncer sync, request close of hlog YouAr
喁喁不止：很清楚，有帮助。
hive常用函数
dsxwjhf： Good job !!
kafka获得最新partition offset
Locker.Xai：参考了
freemaker教程
maoweiwer：为啥EPHEMERAL_SEQUENTIAL类型的节点并没有自 ...
zookeeper 入门讲解实例转

HIVE 第三章表分区

阅读更多

3.表篇分区

不用于关系数据库partition中的字段可以不再table中，但是partition中的字段可以如同table中column一样使用这样可以加快查询速度，因为只用查找一个目下文件就可以了这里分区分为单分区partition一个column，多分区partition多个column单分区就一个目录，多分区也是一个目录，并嵌套多个目录

实例：按照 country 和 state 给employee多分区

CREATE TABLE employees (

name STRING,

salary FLOAT,

subordinates ARRAY<STRING>,

deductions MAP<STRING, FLOAT>,

address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>

)

PARTITIONED BY (country STRING, state STRING);

查看partition

show partitions employees;

SHOW PARTITIONS employees PARTITION(country='US');

添加partition(不区分大小写)

alter table employees add partition(country='US',state='dallas')

alter table employees add partition(country='US',state='dallas') location '/home/hadoop/us-dallas'

alter table employees add partition(country='US',state='dallas') location '/home/hadoop/us-dallas' partition(country='US',state='ca') location '/home/hadoop/us-dallas'

删除partition,分区数据和元数据都被删除

alter table employees drop partition(country='us',state='dallas');

向分区中添加数据

load data inpath '/home/hadoop/resource/dallas' into table employees partition(country='us',state='dallas');

分区的属性

set hive.mapred.mode=strict;属性禁止没有where的语句执行在partition的table上（防止数据量巨大得table，执行这样没有限制的语句）

set hive.mapred.mode=nonstrict;

分享到：

HIVE 第四章数据操作 | HIVE 第二章目录和表

2013-02-12 14:26
浏览 13493
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

第6章：Hive性能优化及Hive3新特性1: 第6章：Hive性能优化及Hive3新特性课程学习目标掌握Hive中分区表及分桶表的设计及优化实现了解Hive中索引的设计及应用场景掌握Hive中文件格式与数据

hive metastore java api使用: hive metastore是hive的元数据管理服务，实际应用中很多第三方框架需要访问metastore服务，如spark,impala等。同样hive metastore也提供了java接口。使用 import org.apache.hadoop.hive.conf.HiveConf; import org...

【63课时完整版】大数据实践HIVE详解及实战: 第3章：Sqoop Sqoop及用户行为分析案例 25.CDH版本框架的介绍 26. CDH版本框架的环境部署 27.Sqoop的介绍及其实现原理 28.Sqoop的安装部署及连接测试 29.Sqoop将MySQL数据导入到HDFS（一） 30.Sqoop将MySQL数据导入...

Hive 基本命令操作1: 1.创建分区表语法 1.创建二级分区表 2.正常的加载数据 3.查询数据

大数据学习笔记: 第3章 Spark安装 11 第4章 Spark CORE编程 13 4.1 Spark Shell 13 4.2 RDD Transformations 13 4.3 Actions 16 4.4 用RDD编程 17 4.5 UN-Persist存储 18 第5章 Spark调度与高级编程 20 5.1 Spark应用程序例子 20 5.2...

史上最全面的hadoop入门视频教程: 第三章 HDFS操作第四章 HDFS的JavaAPI操作和MapReduce入门第五章 MapReduce的WordCount案例和分区第六章 MapReduce的排序和序列化第七章 MapReduce的运行机制和join操作第八章 MapReduce的其他操作和yarn 第九...

Hadoop权威指南第二版(中文版): 第3章 Hadoop分布式文件系统　HDFS的设计　HDFS的概念　数据块　namenode和datanode 　命令行接口　基本文件系统操作　Hadoop文件系统　接口　Java接口　从Hadoop URL中读取数据　通过FileSystem API读取...

Hadoop权威指南（中文版）2015上传.rar: 第3章 Hadoop分布式文件系统 HDFS的设计 HDFS的概念数据块 namenode和datanode 命令行接口基本文件系统操作 Hadoop文件系统接口 Java接口从Hadoop URL中读取数据通过FileSystem API读取数据写入数据目录查询...

nosql 入门教程: 第3章 NoSQL接口与交互　36 3.1 没了SQL还剩什么　36 3.1.1 存储和访问数据　37 3.1.2 MongoDB数据存储与访问　37 3.1.3 MongoDB数据查询　41 3.1.4 Redis数据存储与访问　43 3.1.5 Redis数据查询　47 3.1.6 HBase...

大数据之运维.pptx: 大数据运维知识图谱大数据之运维全文共12页，当前为第3页。 Hadoop简介 Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个...

Spark-Core学习知识笔记整理: 第三章 Spark计算模型 15 1 RDD编程 15 1.1弹性分布式数据集RDD 15 1.2构建RDD对象 15 2RDD操作 15 2.1将函数传递给Spark 16 2.2了解闭包 16 2.3Pair RDD模型 17 2.4Spark常见转换操作 18 2.5Spark常见行动操作 20 ...

云数据库方案设计.docx: 云数据库方案设计全文共6页，当前为第3页。使用 WEB 对象管理工具管理数据库对象 a). 单机形式的数据库对象管理 b). 主备形式的数据库对象管理 c). KADB集群数据库对象管理二、向非关系型存储、大数据处理进行...

Hadoop实战(第2版): 3．5　本章小结第3 部分　大数据模式4　处理大数据的MapReduce 模式4．1　Join4．1．1　Repartition Join技术点19　优化repartition join 4．1．2　Replicated Join 4．1．3　Semi-join技术点20　实现semi-join...

Hadoop硬实战 [（美）霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载带书签目录高清完整版.rar ): 第3 部分　大数据模式 4　处理大数据的MapReduce 模式 4．1　Join 4．1．1　Repartition Join 技术点19　优化repartition join 4．1．2　Replicated Join 4．1．3　Semi-join 技术点20　实现semi-join 4．1．4　为...

大数据学习计划.pdf: 所以在第三部分的学习中我们需要达到以下⽬标： 1、安装部署 Hive; 理解 Hive 架构及执⾏原理 ; Hive 的优化(分区、桶) ; Hive SQL 语句优化; Hive 常见故障诊断; 4 在上个模块中，OLAP 类型的需求得到了很好的...

java版ss源码-sputnik:人造卫星: 一个例子可能是一个代码，它读取当前日期的分区数据并写入结果表中该日期的分区。结果表的回填是 Spark 不做的，需要用户定义。 Sputnik 是一个框架，它有助于遵循在 Hive 中处理数据的日常批处理作业的数据工程的...

大数据学习笔记.pdf: 第3章 Spark安装 ................................................................................................................. 11 第4章 Spark CORE编程 .................................................

大数据技术概述.docx: 大数据技术概述全文共2页，当前为第1页。大数据技术概述全文共2页，当前为第1页。大数据技术大数据技术概述全文共2页，当前为第1页。大数据技术概述全文共2页，当前为第1页。技术概述：大数据技术是信息技术发展...

Spark学习--RDD编码: 每个RDD都倍分为多个分区，这些分区运行在集群中的不同节点。RDD可以包含Python、Java、Scala中任意类型的对象，甚至可以包含用户自定义对象，本文主要通过Java实现相关示例。 Spark程序或shell会话工作流程 1. 从...

DataX Web分布式数据同步工具-其他: Python2.7(支持Python3需要修改替换datax/bin下面的三个python文件，替换文件在doc/datax-web/datax-python3下) Environment: MacOS, Windows,Linux Database: Mysql5.7 DataX Web功能特点： 1、通过Web构建DataX ...

Global site tag (gtag.js) - Google Analytics