一、Hive基本原理
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
Hive将元数据存储在数据库(RDBMS)中,比如MySQL、Derby中。Hive有三种模式连接到数据,其方式是:单用户模式,多用户模式和远程服务模式。(也就是内嵌模式
、本地模式、远程模式)。
1.1 Hive体系结构:
Hive体系结构图:主要分为:用户接口、Thrift服务器、元数据存储、解析器、Hadoop
1.2 Hive数据类型
Hive的存储是建立在Hadoop文件系统之上的,它本身没有专门的数据存储格式,其主要包括四类数据模型:
表(Table)
分区(Partition)
桶(Bucket)
外部表(External Table)
Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、复杂数据类型。其中,基础数据类型包括:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。
1.3Hive的执行流程要点
操作符(Operator)是Hive的最小处理单位;
每个操作符处理代表HDFS操作或MR作业;
编译器把Hive SQL转换成一组操作符;
Hive通过ExecMapper和ExecReducer来执行MapReduce任务;
执行MapReduce时有两种模式:本地模式和分布式模式;
常见的Hive操作符(部分)如下:
1.4 Hive的HQL操作
hive基本的运行操作其实和sql差不多,例如:
- select u.name, o.orderid from order o join user u on o.uid = u.uid;
- select dealid, count(distinct uid), count(distinct date) from order group by dealid;
简单Hive表语句:
create table student
(
name string,
sex string,
age int
);
http://blog.csdn.net/u010330043/article/details/51225021
http://www.cnblogs.com/sdksdk0/p/5585051.html
http://www.cnblogs.com/uttu/archive/2013/02/28/2936953.html
相关推荐
hadoop入门学习教程 之10.Hive工作原理和基本使用,出自《Cloudera Hadoop 4 实战课程》,hadoop入门学习教程用到技术:CDH4,Cloudera Manager,Hive,HBase,Sqoop, Hadoop培训视频教程涉及项目:电商业日志流量...
题目:实验六:熟悉Hive的基本操作 姓名:小猪猪 日期:2022/5/15 1、实验环境: 设备名称 LAPTOP-9KJS8HO6 处理器 Intel(R) Core(TM) i5-10300H CPU @ 2.50GHz 2.50 GHz 机带 RAM 16.0 GB (15.8 GB 可用) 主机操作...
Hive原理/Hive SQL/Hive 函数/数据仓库分层和建模/Hive sql优化/数据倾斜
接着详细介绍了Hive的系统架构,包括基本组成模块、工作原理和几种外部访问方式,描述了Hive的具体应用及Hive HA原理;同时,介绍了新一代开源大数据分析引擎Impala及其与Hive的比较分析;最后,以单词统计为例,...
1、MapReduce实现基本SQL操作的原理 1.1 Join的实现原理 1.2 Group By的实现原理 1.3 Distinct的实现原理 2.1 Phase1 SQL词法,语法解析 2.1.1 Antlr 2.1.2 抽象语法树AST Tree 2.1.3 样例SQL ........... 2.3 Phase...
14.1 概述 14.2 Hive系统架构 14.3 Hive工作原理 14.4 Hive HA基本原理 14.5 Impala 14.6 Hive编程实践
第1章:Hive基本架构及环境部署 1.MapReduce分析与SQL分析对比 2.Hive的介绍及其发展 3.Hive的安装部署及启动 4.Hive的基本架构讲解 5.安装MySQL作为元数据库存储 6.配置Hive使用MySQL作为元数据库存储 7.Hive中基本...
WinCE 5.0下,基于Hive的注册表基本原理,操作系统加载注册表的基本步骤,使用Hive注册表的操作步骤等
1. 理解Hive作为数据仓库在Hadoop体系结构中的角色。 2. 熟练使用常用的HiveQL。 二、实验平台 1. 操作系统:Ubuntu18.04(或Ubuntu16.04)。 2. Hadoop版本:3.1.3。 3. Hive版本:3.1.2。 4. JDK版本:1.8。 三、...
大数据技术基础实验报告-Hive安装配置与应用
1. HBase基本工作原理 2. HBase基本操作与编程方法示例 3. Hive基本工作原理 4. Hive基本操作示例
本资源比较直白的描述了hive的基本功能和原理,以及怎么使用hive进行数据处理。比较适合初学者入门。
已经学习过大数据相关课程(比如入门级课程《大数据技术原理与应用》),了解大数据相关技术的基本概念与原理,了解Windows操作系统、Linux操作系统、大数据处理架构Hadoop的关键技术及其基本原理、列族数据库HBase...
学习时候的笔记 还有简单例子代码 111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111
文本详细分析了hadoop的基本构成和原理,hbase的基本原理和常用命令,hive的原理和常用命令等。
6.2_Hive功能与架构-Hive基本操作 7.1_Streaming简介-系统架构 7.2_关键特性介绍-StreamCQL介绍 8.1_Flink概述-Flink原理与技术架构 8.2_Flink原理与技术架构-Flink在FusionInsight HD中的集成情况 9.1_Loader简介-...
数据库审计系统基本原理与部署⽅式 数据库审计系统简介 什么是数据库审计? 数据库审计是记录数据库被访问⾏为的⽇志系统。 访问数据库的⼀般有两种⾏为,⼀种是应⽤服务区的访问,⼀种是数据库运维⼈员的访问。 ...
6.2 Hive功能与架构-Hive基本操作 7.1 Streaming的概述和架构 7.2 Streaming特性和StreamCQL介绍 8.1 Flink概述-Flink原理与技术架构 8.2 Flink的底层原理和集成情况 9.1 Loader数据转换 10.1 Flume的关键流程和...
6.2.1 Hive功能与架构-Hive基本操作 7.1.1 Streaming的概述和架构 7.2.1 Streaming特性和StreamCQL介绍 8.1.1 Flink概述-Flink原理与技术架构 8.2.1 Flink的底层原理和集成情况 9.1.1 Loader数据转换 10.1.1 ...
020 HBase技术原理03和Hive技术原理-王艳芝 021 Flume、Loader、Kafka技术原理-王艳芝 022 Fusion Insight HD学习总结与扯家常-王艳芝 023 数据挖掘概述预备知识-李申浩 024 数据挖掘基本知识术语+数据预处理...