`

HIVE 第四章 数据操作

阅读更多

 

数据操作篇

加载数据(会生成partition,如果不存在的话;local字段表示为是本机目录,如果不加,则表示为hdfs上的目录;overwrite关键字表示删除目标目录,当没有则保留,但会覆盖同名旧目录)一些限制条件:使用partition,则table必须是partition的;hive不会去验证你的data是服务schema的,但是hive会验证文件是否符合表定义,如sequencefile的table,file也必须是sequence files

load data local inpath '/home/hadoop/hive/data'

overwrite into table employees

partition(country='china',state='beijing');

静态插入数据:

插入数据(select * from employee 这样选择一个分区表,会将其partition的column也返回)

insert overwrite table employees

partition (country='US',state='dallas')

select name,salary,subordinate,deductions,address from employees se

where se.country='china' and se.state='beijing'

插入多条数据

FROM staged_employees se

INSERT OVERWRITE TABLE employees

PARTITION (country = 'US', state = 'OR')

SELECT * WHERE se.cnty = 'US' AND se.st = 'OR'

INSERT OVERWRITE TABLE employees

PARTITION (country = 'US', state = 'CA')

SELECT * WHERE se.cnty = 'US' AND se.st = 'CA'

INSERT OVERWRITE TABLE employees

PARTITION (country = 'US', state = 'IL')

SELECT * WHERE se.cnty = 'US' AND se.st = 'IL';

动态插入并创建partition:

INSERT OVERWRITE TABLE employees

PARTITION (country, state)

SELECT ..., se.cnty, se.st

FROM staged_employees se;

动态静态创建partition

INSERT OVERWRITE TABLE employees

PARTITION (country = 'US', state)

SELECT ..., se.cnty, se.st

FROM staged_employees se

WHERE se.cnty = 'US';

 

有一些参数控制,动态创建partition

hive.exec.dynamic.partition

false 

Set to true to enable dynamic partitioning.

 

hive.exec.dynamic.partition.mode

strict 

Set to nonstrict to enable all partitions to be determined

dynamically.

 

hive.exec.max.dynamic.partitions.pernode

100 

The maximum number of dynamic partitions that can be created

by each mapper or reducer. Raises a fatal error if one

mapper or reducer attempts to create more than the threshold.

 

hive.exec.max.dynamic.partitions

+1000 

The total number of dynamic partitions that can be created by

one statement with dynamic partitioning. Raises a fatal error

if the limit is exceeded.

 

hive.exec.max.created.files

100000 

The maximum total number of files that can be created globally.

A Hadoop counter is used to track the number of files created.

Raises a fatal error if the limit is exceeded.

 

创建表,并加载数据

CREATE TABLE ca_employees

AS SELECT name, salary, address

FROM employees

WHERE se.state = 'CA';

 

导出数据

INSERT OVERWRITE LOCAL DIRECTORY '/tmp/ca_employees'

SELECT name, salary, address

FROM employees

WHERE se.state = 'CA';

 

批量导出数据

FROM staged_employees se

INSERT OVERWRITE DIRECTORY '/tmp/or_employees'

SELECT * WHERE se.cty = 'US' and se.st = 'OR'

INSERT OVERWRITE DIRECTORY '/tmp/ca_employees'

SELECT * WHERE se.cty = 'US' and se.st = 'CA'

INSERT OVERWRITE DIRECTORY '/tmp/il_employees'

SELECT * WHERE se.cty = 'US' and se.st = 'IL';

 

 

分享到:
评论

相关推荐

    Hive编程指南中文版

    第4章 HiveQL:数据定义 第5章 HiveQL:数据操作 第6章 HiveQL:查询 第7章 HiveQL:视图 第8章 HiveQL:索引 第9章 模式设计 第10章 调优 第11章 其他文件格式和压缩方法 第12章 开发 第13章 函数 第14章 ...

    大数据技术之Hive数据仓库工具

    第一章 Hive基本概念 第二章 Hive的安装 第三章 Hive数据类型 第四章 DDL数据定义 第五章 DML数据操作 第六章 查询 第七章 函数 第八章 压缩和存储 第九章 企业级调优 第十章 常见错误及解决方案

    大数据java操作hive.pdf

    ⼤数据java操作hive ⼤数据 ⼤数据 java操作 操作hive 版权声明: 本⽂为博主学习整理原创⽂章,如有不正之处请多多指教。 未经博主允许不得转载。 虚拟机上操作,保证 虚拟机上操作,保证hive数据库能正常连接进⼊...

    大数据学习笔记

    第4章 Spark CORE编程 13 4.1 Spark Shell 13 4.2 RDD Transformations 13 4.3 Actions 16 4.4 用RDD编程 17 4.5 UN-Persist存储 18 第5章 Spark调度与高级编程 20 5.1 Spark应用程序例子 20 5.2 Spark-submit语法 ...

    快速学习-DML数据操作

    第 5 章 DML数据操作 5.1 数据导入 5.1.1 向表中装载数据(Load) 语法 hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] | into table student [partition (partcol1=val1,…)]; (1...

    史上最全面的hadoop入门视频教程

    第四章 HDFS的JavaAPI操作和MapReduce入门 第五章 MapReduce的WordCount案例和分区 第六章 MapReduce的排序和序列化 第七章 MapReduce的运行机制和join操作 第八章 MapReduce的其他操作和yarn 第九章 数仓Hive基本...

    华为HCIA-Big Data V2.0 LVC公开课培训.rar

    第四章 Spark2x基于内存的分布式计算 4.1_Spark概述-Spark原理与架构 4.2_Spark原理与架构-Spark在FusionInsight中的集成情况 第五章 HBase分布式NoSQL数据库 5.1_HBase基本介绍 5.2_HBase功能与架构 5.3_HBase...

    大数据常见问题之数据倾斜.docx

    大数据常见问题之数据倾斜全文共5页,... 大数据常见问题之数据倾斜全文共5页,当前为第4页。大数据常见问题之数据倾斜全文共5页,当前为第4页。2.程序层面,比如说在Hive中,经常遇到count(distinct)操作,这样会

    Hadoop权威指南 第二版(中文版)

    第4章 Hadoop I/O  数据完整性  HDFS的数据完整性  LocalFileSystem  ChecksumFileSystem  压缩  codec  压缩和输入切分  在MapReduce中使用压缩  序列化  Writable接口  Writable类  实现定制的...

    Hadoop权威指南(中文版)2015上传.rar

    第4章 Hadoop I/O 数据完整性 HDFS的数据完整性 LocalFileSystem ChecksumFileSystem 压缩 codec 压缩和输入切分 在MapReduce中使用压缩 序列化 Writable接口 Writable类 实现定制的Writable类型 序列化框架 Avro ...

    小白快速掌握Hadoop集成Kerberos安全技术频教程

    手把手视频详细讲解项目开发全过程,需要的小伙伴自行百度网盘下载,链接见附件,...第四章 配置HDFS和Kerberos的集成 第五章 配置YARN和Kerberos的集成 第六章 配置HIVE和Kerberos的集成 第七章 最终集成测试验收成果

    Apache atlas使用说明文档.pdf(转载分享请注明出处)

    第四章:源码编译与安装 18 4.1 源码下载与编译 18 4.2 源码编译与安装注意事项 19 4.3 Apache atlas 安装 19 第五章:hook引入(hive举例) 20 5.1配置文件修改 20 5.2 配置文件其他相关操作 21 第六章:Atlas 整合...

    nosql 入门教程

    第4章 理解存储架构 62 4.1 使用面向列的数据库 63 4.1.1 使用关系型数据库中的表格和列 63 4.1.2 列数据库对比RDBMS 65 4.1.3 列数据库当做键/值对的嵌套映射表 67 4.1.4 Webtable布局 70 4.2 HBase分布式...

    Hadoop实战(陆嘉恒)

    第4-7章深入地讲解了mapreduce计算模型、mapreduce应用的开发方法、mapreduce的工作机制,同时还列出了多个mapreduce的应用案例,涉及单词计数、数据去重、排序、单表关联和多表关联等内容;第8-11章全面地阐述了...

    《Hadoop实战》试读本(作者:陆嘉恒)

    第4-7章深入地讲解了MapReduce计算模型、MapReduce应用的开发方法、MapReduce的工作机制,同时还列出了多个MapReduce的应用案例,涉及单词计数、数据去重、排序、单表关联和多表关联等内容;第8-11章全面地阐述了...

    Hadoop实战

    第4-7章深入地讲解了mapreduce计算模型、mapreduce应用的开发方法、mapreduce的工作机制,同时还列出了多个mapreduce的应用案例,涉及单词计数、数据去重、排序、单表关联和多表关联等内容;第8-11章全面地阐述了...

    Hadoop实战-陆嘉恒

    第4-7章深入地讲解了mapreduce计算模型、mapreduce应用的开发方法、mapreduce的工作机制,同时还列出了多个mapreduce的应用案例,涉及单词计数、数据去重、排序、单表关联和多表关联等内容;第8-11章全面地阐述了...

    Hadoop实战丛书

    第4-7章深入地讲解了mapreduce计算模型、mapreduce应用的开发方法、mapreduce的工作机制,同时还列出了多个mapreduce的应用案例,涉及单词计数、数据去重、排序、单表关联和多表关联等内容;第8-11章全面地阐述了...

    Spark-Core学习知识笔记整理

    第四章 Spark编程进阶 29 1共享变量 29 1.1累加器 30 1.2广播变量 31 2基于分区进行操作 32 3与外部程序间的管道 33 4数值RDD的操作 34 5 Spark Shuffle机制 34 第五章 Spark调优与调试 39 1开发调优: 40 1.1调优...

Global site tag (gtag.js) - Google Analytics