`

HIVE 第三章 表分区

阅读更多

3.表篇分区

不用于关系数据库partition中的字段可以不再table中,但是partition中的字段可以如同table中column一样使用这样可以加快查询速度,因为只用查找一个目下文件就可以了这里分区分为单分区partition一个column,多分区partition多个column单分区就一个目录,多分区也是一个目录,并嵌套多个目录

实例:按照 country 和 state 给employee多分区

CREATE TABLE employees (

name STRING,

salary FLOAT,

subordinates ARRAY<STRING>,

deductions MAP<STRING, FLOAT>,

address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>

)

PARTITIONED BY (country STRING, state STRING);

查看partition

show partitions employees;

SHOW PARTITIONS employees PARTITION(country='US');

添加partition(不区分大小写)

alter table employees add partition(country='US',state='dallas')

alter table employees add partition(country='US',state='dallas') location '/home/hadoop/us-dallas'

alter table employees add partition(country='US',state='dallas') location '/home/hadoop/us-dallas' partition(country='US',state='ca') location '/home/hadoop/us-dallas'

删除partition,分区数据和元数据都被删除

alter table employees drop partition(country='us',state='dallas');

向分区中添加数据

load data inpath '/home/hadoop/resource/dallas' into table employees partition(country='us',state='dallas');

 

分区的属性

set hive.mapred.mode=strict;属性禁止没有where的语句执行在partition的table上(防止数据量巨大得table,执行这样没有限制的语句)

set hive.mapred.mode=nonstrict;

 

 

 

分享到:
评论

相关推荐

    第6章:Hive性能优化及Hive3新特性1

    第6章:Hive性能优化及Hive3新特性课程学习目标掌握Hive中分区表及分桶表的设计及优化实现了解Hive中索引的设计及应用场景掌握Hive中文件格式与数据

    hive metastore java api使用

    hive metastore是hive的元数据管理服务,实际应用中很多第三方框架需要访问metastore服务,如spark,impala等。同样hive metastore也提供了java接口。 使用 import org.apache.hadoop.hive.conf.HiveConf; import org...

    【63课时完整版】大数据实践HIVE详解及实战

    第3章:Sqoop Sqoop及用户行为分析案例 25.CDH版本框架的介绍 26. CDH版本框架的环境部署 27.Sqoop的介绍及其实现原理 28.Sqoop的安装部署及连接测试 29.Sqoop将MySQL数据导入到HDFS(一) 30.Sqoop将MySQL数据导入...

    Hive 基本命令操作1

    1.创建分区表语法 1.创建二级分区表 2.正常的加载数据 3.查询数据

    大数据学习笔记

    第3章 Spark安装 11 第4章 Spark CORE编程 13 4.1 Spark Shell 13 4.2 RDD Transformations 13 4.3 Actions 16 4.4 用RDD编程 17 4.5 UN-Persist存储 18 第5章 Spark调度与高级编程 20 5.1 Spark应用程序例子 20 5.2...

    史上最全面的hadoop入门视频教程

    第三章 HDFS操作 第四章 HDFS的JavaAPI操作和MapReduce入门 第五章 MapReduce的WordCount案例和分区 第六章 MapReduce的排序和序列化 第七章 MapReduce的运行机制和join操作 第八章 MapReduce的其他操作和yarn 第九...

    Hadoop权威指南 第二版(中文版)

    第3章 Hadoop分布式文件系统  HDFS的设计  HDFS的概念  数据块  namenode和datanode  命令行接口  基本文件系统操作  Hadoop文件系统  接口  Java接口  从Hadoop URL中读取数据  通过FileSystem API读取...

    Hadoop权威指南(中文版)2015上传.rar

    第3章 Hadoop分布式文件系统 HDFS的设计 HDFS的概念 数据块 namenode和datanode 命令行接口 基本文件系统操作 Hadoop文件系统 接口 Java接口 从Hadoop URL中读取数据 通过FileSystem API读取数据 写入数据 目录 查询...

    nosql 入门教程

    第3章 NoSQL接口与交互 36 3.1 没了SQL还剩什么 36 3.1.1 存储和访问数据 37 3.1.2 MongoDB数据存储与访问 37 3.1.3 MongoDB数据查询 41 3.1.4 Redis数据存储与访问 43 3.1.5 Redis数据查询 47 3.1.6 HBase...

    大数据之运维.pptx

    大数据运维知识图谱 大数据之运维全文共12页,当前为第3页。 Hadoop简介 Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个...

    Spark-Core学习知识笔记整理

    第三章 Spark计算模型 15 1 RDD编程 15 1.1弹性分布式数据集RDD 15 1.2构建RDD对象 15 2RDD操作 15 2.1将函数传递给Spark 16 2.2了解闭包 16 2.3Pair RDD模型 17 2.4Spark常见转换操作 18 2.5Spark常见行动操作 20 ...

    云数据库方案设计.docx

    云数据库方案设计全文共6页,当前为第3页。 使用 WEB 对象管理工具管理数据库对象 a). 单机形式的数据库对象管理 b). 主备形式的数据库对象管理 c). KADB集群数据库对象管理 二、向非关系型存储、大数据处理进行...

    Hadoop实战(第2版)

    3.5 本章小结第3 部分 大数据模式4 处理大数据的MapReduce 模式4.1 Join4.1.1 Repartition Join技术点19 优化repartition join 4.1.2 Replicated Join 4.1.3 Semi-join技术点20 实现semi-join...

    Hadoop硬实战 [(美)霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载 带书签目录 高清完整版.rar )

    第3 部分 大数据模式 4 处理大数据的MapReduce 模式 4.1 Join 4.1.1 Repartition Join 技术点19 优化repartition join 4.1.2 Replicated Join 4.1.3 Semi-join 技术点20 实现semi-join 4.1.4 为...

    大数据学习计划.pdf

    所以在第三部分的学习中我们需要达到以下⽬标: 1、 安装部署 Hive; 理解 Hive 架构及执⾏原理 ; Hive 的优化(分区、桶) ; Hive SQL 语句优化; Hive 常见故障诊断; 4 在上个模块中,OLAP 类型的需求得到了很好的...

    java版ss源码-sputnik:人造卫星

    一个例子可能是一个代码,它读取当前日期的分区数据并写入结果表中该日期的分区。 结果表的回填是 Spark 不做的,需要用户定义。 Sputnik 是一个框架,它有助于遵循在 Hive 中处理数据的日常批处理作业的数据工程的...

    大数据学习笔记.pdf

    第3章 Spark安装 ................................................................................................................. 11 第4章 Spark CORE编程 .................................................

    大数据技术概述.docx

    大数据技术概述全文共2页,当前为第1页。大数据技术概述全文共2页,当前为第1页。大数据技术 大数据技术概述全文共2页,当前为第1页。 大数据技术概述全文共2页,当前为第1页。 技术概述: 大数据技术是信息技术发展...

    Spark学习--RDD编码

    每个RDD都倍分为多个分区,这些分区运行在集群中的不同节点。RDD可以包含Python、Java、Scala中任意类型的对象,甚至可以包含用户自定义对象,本文主要通过Java实现相关示例。 Spark程序或shell会话工作流程 1. 从...

    DataX Web分布式数据同步工具-其他

    Python2.7(支持Python3需要修改替换datax/bin下面的三个python文件,替换文件在doc/datax-web/datax-python3下) Environment: MacOS, Windows,Linux Database: Mysql5.7 DataX Web功能特点: 1、通过Web构建DataX ...

Global site tag (gtag.js) - Google Analytics