HIVE 第四章数据操作 - - ITeye博客

`

blackproof

浏览: 1381141 次
性别:
来自: 北京

最近访客更多访客>>

lingxiajiudu

youtao531

mengjingwo

xuycan

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

guokaiwhu：赞啊！今晚遇到相同的问题，正追根溯源，就找到了博主！
hbase 报错gc wal.FSHLog: Error while AsyncSyncer sync, request close of hlog YouAr
喁喁不止：很清楚，有帮助。
hive常用函数
dsxwjhf： Good job !!
kafka获得最新partition offset
Locker.Xai：参考了
freemaker教程
maoweiwer：为啥EPHEMERAL_SEQUENTIAL类型的节点并没有自 ...
zookeeper 入门讲解实例转

HIVE 第四章数据操作

博客分类：

hadoop hive

hive 数据操作

阅读更多

数据操作篇

加载数据（会生成partition，如果不存在的话；local字段表示为是本机目录，如果不加，则表示为hdfs上的目录；overwrite关键字表示删除目标目录，当没有则保留，但会覆盖同名旧目录）一些限制条件：使用partition，则table必须是partition的；hive不会去验证你的data是服务schema的，但是hive会验证文件是否符合表定义，如sequencefile的table，file也必须是sequence files

load data local inpath '/home/hadoop/hive/data'

overwrite into table employees

partition(country='china',state='beijing');

静态插入数据：

插入数据(select * from employee 这样选择一个分区表，会将其partition的column也返回)

insert overwrite table employees

partition (country='US',state='dallas')

select name,salary,subordinate,deductions,address from employees se

where se.country='china' and se.state='beijing'

插入多条数据

FROM staged_employees se

INSERT OVERWRITE TABLE employees

PARTITION (country = 'US', state = 'OR')

SELECT * WHERE se.cnty = 'US' AND se.st = 'OR'

INSERT OVERWRITE TABLE employees

PARTITION (country = 'US', state = 'CA')

SELECT * WHERE se.cnty = 'US' AND se.st = 'CA'

INSERT OVERWRITE TABLE employees

PARTITION (country = 'US', state = 'IL')

SELECT * WHERE se.cnty = 'US' AND se.st = 'IL';

动态插入并创建partition：

INSERT OVERWRITE TABLE employees

PARTITION (country, state)

SELECT ..., se.cnty, se.st

FROM staged_employees se;

动态静态创建partition

INSERT OVERWRITE TABLE employees

PARTITION (country = 'US', state)

SELECT ..., se.cnty, se.st

FROM staged_employees se

WHERE se.cnty = 'US';

有一些参数控制，动态创建partition

hive.exec.dynamic.partition

false

Set to true to enable dynamic partitioning.

hive.exec.dynamic.partition.mode

strict

Set to nonstrict to enable all partitions to be determined

dynamically.

hive.exec.max.dynamic.partitions.pernode

100

The maximum number of dynamic partitions that can be created

by each mapper or reducer. Raises a fatal error if one

mapper or reducer attempts to create more than the threshold.

hive.exec.max.dynamic.partitions

+1000

The total number of dynamic partitions that can be created by

one statement with dynamic partitioning. Raises a fatal error

if the limit is exceeded.

hive.exec.max.created.files

100000

The maximum total number of files that can be created globally.

A Hadoop counter is used to track the number of files created.

Raises a fatal error if the limit is exceeded.

创建表，并加载数据

CREATE TABLE ca_employees

AS SELECT name, salary, address

FROM employees

WHERE se.state = 'CA';

导出数据

INSERT OVERWRITE LOCAL DIRECTORY '/tmp/ca_employees'

SELECT name, salary, address

FROM employees

WHERE se.state = 'CA';

批量导出数据

FROM staged_employees se

INSERT OVERWRITE DIRECTORY '/tmp/or_employees'

SELECT * WHERE se.cty = 'US' and se.st = 'OR'

INSERT OVERWRITE DIRECTORY '/tmp/ca_employees'

SELECT * WHERE se.cty = 'US' and se.st = 'CA'

INSERT OVERWRITE DIRECTORY '/tmp/il_employees'

SELECT * WHERE se.cty = 'US' and se.st = 'IL';

分享到：

HIVE 第五章查询 | HIVE 第三章表分区

2013-02-12 14:27
浏览 1677
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive编程指南中文版: 第4章 HiveQL：数据定义第5章 HiveQL：数据操作第6章 HiveQL：查询第7章 HiveQL：视图第8章 HiveQL：索引第9章模式设计第10章调优第11章其他文件格式和压缩方法第12章开发第13章函数第14章 ...

大数据技术之Hive数据仓库工具: 第一章 Hive基本概念第二章 Hive的安装第三章 Hive数据类型第四章 DDL数据定义第五章 DML数据操作第六章查询第七章函数第八章压缩和存储第九章企业级调优第十章常见错误及解决方案

大数据java操作hive.pdf: ⼤数据java操作hive ⼤数据⼤数据 java操作操作hive 版权声明：本⽂为博主学习整理原创⽂章，如有不正之处请多多指教。未经博主允许不得转载。虚拟机上操作，保证虚拟机上操作，保证hive数据库能正常连接进⼊...

大数据学习笔记: 第4章 Spark CORE编程 13 4.1 Spark Shell 13 4.2 RDD Transformations 13 4.3 Actions 16 4.4 用RDD编程 17 4.5 UN-Persist存储 18 第5章 Spark调度与高级编程 20 5.1 Spark应用程序例子 20 5.2 Spark-submit语法 ...

快速学习-DML数据操作: 第 5 章 DML数据操作 5.1 数据导入 5.1.1 向表中装载数据（Load）语法 hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] | into table student [partition (partcol1=val1,…)]; （1...

史上最全面的hadoop入门视频教程: 第四章 HDFS的JavaAPI操作和MapReduce入门第五章 MapReduce的WordCount案例和分区第六章 MapReduce的排序和序列化第七章 MapReduce的运行机制和join操作第八章 MapReduce的其他操作和yarn 第九章数仓Hive基本...

华为HCIA-Big Data V2.0 LVC公开课培训.rar: 第四章 Spark2x基于内存的分布式计算 4.1_Spark概述-Spark原理与架构 4.2_Spark原理与架构-Spark在FusionInsight中的集成情况第五章 HBase分布式NoSQL数据库 5.1_HBase基本介绍 5.2_HBase功能与架构 5.3_HBase...

大数据常见问题之数据倾斜.docx: 大数据常见问题之数据倾斜全文共5页，... 大数据常见问题之数据倾斜全文共5页，当前为第4页。大数据常见问题之数据倾斜全文共5页，当前为第4页。2.程序层面，比如说在Hive中，经常遇到count（distinct）操作，这样会

Hadoop权威指南第二版(中文版): 第4章 Hadoop I/O 　数据完整性　HDFS的数据完整性　LocalFileSystem 　ChecksumFileSystem 　压缩　codec 　压缩和输入切分　在MapReduce中使用压缩　序列化　Writable接口　Writable类　实现定制的...

Hadoop权威指南（中文版）2015上传.rar: 第4章 Hadoop I/O 数据完整性 HDFS的数据完整性 LocalFileSystem ChecksumFileSystem 压缩 codec 压缩和输入切分在MapReduce中使用压缩序列化 Writable接口 Writable类实现定制的Writable类型序列化框架 Avro ...

小白快速掌握Hadoop集成Kerberos安全技术频教程: 手把手视频详细讲解项目开发全过程，需要的小伙伴自行百度网盘下载，链接见附件，...第四章配置HDFS和Kerberos的集成第五章配置YARN和Kerberos的集成第六章配置HIVE和Kerberos的集成第七章最终集成测试验收成果

Apache atlas使用说明文档.pdf（转载分享请注明出处）: 第四章：源码编译与安装 18 4.1 源码下载与编译 18 4.2 源码编译与安装注意事项 19 4.3 Apache atlas 安装 19 第五章：hook引入（hive举例） 20 5.1配置文件修改 20 5.2 配置文件其他相关操作 21 第六章：Atlas 整合...

nosql 入门教程: 第4章理解存储架构　62 4.1 使用面向列的数据库　63 4.1.1 使用关系型数据库中的表格和列　63 4.1.2 列数据库对比RDBMS　65 4.1.3 列数据库当做键/值对的嵌套映射表　67 4.1.4 Webtable布局　70 4.2 HBase分布式...

Hadoop实战(陆嘉恒): 第4-7章深入地讲解了mapreduce计算模型、mapreduce应用的开发方法、mapreduce的工作机制，同时还列出了多个mapreduce的应用案例，涉及单词计数、数据去重、排序、单表关联和多表关联等内容；第8-11章全面地阐述了...

《Hadoop实战》试读本（作者：陆嘉恒）: 第4-7章深入地讲解了MapReduce计算模型、MapReduce应用的开发方法、MapReduce的工作机制，同时还列出了多个MapReduce的应用案例，涉及单词计数、数据去重、排序、单表关联和多表关联等内容；第8-11章全面地阐述了...

Hadoop实战: 第4-7章深入地讲解了mapreduce计算模型、mapreduce应用的开发方法、mapreduce的工作机制，同时还列出了多个mapreduce的应用案例，涉及单词计数、数据去重、排序、单表关联和多表关联等内容；第8-11章全面地阐述了...

Hadoop实战-陆嘉恒: 第4-7章深入地讲解了mapreduce计算模型、mapreduce应用的开发方法、mapreduce的工作机制，同时还列出了多个mapreduce的应用案例，涉及单词计数、数据去重、排序、单表关联和多表关联等内容；第8-11章全面地阐述了...

Hadoop实战丛书: 第4-7章深入地讲解了mapreduce计算模型、mapreduce应用的开发方法、mapreduce的工作机制，同时还列出了多个mapreduce的应用案例，涉及单词计数、数据去重、排序、单表关联和多表关联等内容；第8-11章全面地阐述了...

Spark-Core学习知识笔记整理: 第四章 Spark编程进阶 29 1共享变量 29 1.1累加器 30 1.2广播变量 31 2基于分区进行操作 32 3与外部程序间的管道 33 4数值RDD的操作 34 5 Spark Shuffle机制 34 第五章 Spark调优与调试 39 1开发调优： 40 1.1调优...

Global site tag (gtag.js) - Google Analytics