hive的一些资料整理 - - ITeye博客

`

samuschen

浏览: 398546 次
性别:
来自: 北京

最近访客更多访客>>

dy.f

u012363178

谁谁谁

wangyy

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

秦时明月黑：深入浅出，楼主很有功底
hive编译部分的源码结构
tywo45：感觉好多错误，但还是支持！
HDFS+MapReduce+Hive+HBase十分钟快速入门
xbbHistory：解析的很棒！！
Linux-VFS
darrendu：执行这个命令，bin/hadoop fs -ls /home/ ...
Hadoop示例程序WordCount运行及详解
moudaen：请问楼主，我执行总后一条语句时，执行的是自带的1.sql，你当 ...
TPC-H on Hive

hive的一些资料整理

博客分类：

hive

Mapreduce 框架

阅读更多

解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行。
Hive 的数据存储在 HDFS 中，大部分的查询由 MapReduce 完成（包含 * 的查询，比如 select * from tbl 不会生成 MapRedcue 任务）。
Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完成），在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。
External Table 只有一个过程，加载数据和创建表同时完成（ CREATE EXTERNAL TABLE ……LOCATION ），实际数据是存储在 LOCATION 后面指定的 HDFS 路径中，并不会移动到数据仓库目录中。当删除一个 External Table 时，仅删除元信息。
执行延迟。之前提到， Hive 在查询数据的时候，由于没有索引，需要扫描整个表，因此延迟较高。另外一个导致 Hive 执行延迟高的因素是 MapReduce 框架。由于 MapReduce 本身具有较高的延迟，因此在利用 MapReduce 执行 Hive 查询时，也会有较高的延迟。相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候， Hive 的并行计算显然能体现出优势。

分享到：

SequenceFile的压缩和分片 | scp

2010-12-06 16:23
浏览 1537
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive资料整理集合1: HIVE在腾讯分布式数据仓库实践分享赵伟.pdf Hap数据仓库工具--hive介绍.docx The Hive An The Hney Bee Langstrth.pdf bigtable,hive,pig.pdf HIVE优化以及执行原理.pdf hive实现原理-weib.pdf 【Hive】Hap Data ...

Hive优化方法整理: Hive优化方法整理 hive 数据倾斜内连接

Hive基本命令整理: Hive常用的命令整理，非常有用，可供开发人员备用查阅

hive官方文档整理: hive官方的文档整理成pdf，通过这个文档，你可以全方位的了解hive的使用和例子。

Hive查询优化整理与Hive简易版思维导图: hive思维导图与hive优化的相关建议。纯属个人收集在线资料并个人实践之后整理

Hive学习笔记整理.pdf: Hive学习笔记整理.pdf

Hadoop、HBase、Hive、Pig、Zookeeper资料整理: Hadoop、HBase、Hive、Pig、Zookeeper资料整理，欢迎大家下载学习

hive安装及相关知识整理: hive安装及相关知识整理 hive安装及相关知识整理 hive安装及相关知识整理 hive安装及相关知识整理

Hadoop_Hive安装--自己整理: Hadoop_Hive安装--自己整理

原生版的hadoop和hive搭建部分整理.zip: 除了hadoop还有clickhouse的几个文档，打包到一起了

Hive 简明教程.pdf: 第一部分：完全以日常使用为目标，整理了常用的Hive 语法，而抛弃了不常用的部分，用来满足不懂技术的分析人员来快速使用Hive 进行常见的日常数据分析。第二部分：如果想能写出高效的Hive 语句，必须要先了解Hive ...

HIVE-SQL开发规范.docx: hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的...本文是Hive的开发规范，包括从网上搜集的一些内容，也包括在工作中总结的，以及在书中整理的点。

大数据整理hadoop/hive: 大数据整理hadoop/hive

Hive内部表合并小文件Java程序: Hive内部表合并小文件Java程序

2021年-Hive大数据仓库-期末考试知识点重点-笔记整理.pdf: 2021年-Hive大数据仓库-期末考试知识点重点-笔记整理.pdf

Hive大数据仓库-笔记整理（一）2020年最新版.pdf: Hive大数据仓库-笔记整理（一）2020年最新版.pdf

大数据相关资料整理(Hadoop、Hive等等): 主要是针对 Dubbo、Hadoop、Hbase、Hive、Zookeeper、Kafka等相关文档整理

注册表Hive文件编程资料: 在工作遇到要分析注册表hive文件，实现删除键及键值的恢复查看，这里是我收集和整理的一些资料，相信会对研究注册表hive文件结构相关技术的朋友有帮助.

Global site tag (gtag.js) - Google Analytics