Hive
中所有的数据都存储在
HDFS
中,
Hive
中包含以下数据模型:
Table
,
External
Table
,
Partition
,
Bucket
。
-
Hive
中的
Table
和数据库中的
Table
在概念上是类似的,每一个
Table
在
Hive
中都有一个相应的目录存储数据。例如,一个表
pvs
,它在
HDFS
中的路径为:
/wh/pvs
,其中,
wh
是在
hive-site.xml
中由
${hive.metastore.warehouse.dir}
指定的数据仓库的目录,所有的
Table
数据(不包括
External Table
)都保存在这个目录中。
-
Partition
对应于数据库中的
Partition
列的密集索引,但是
Hive
中
Partition
的组织方式和数据库中的很不相同。在
Hive
中,表中的一个
Partition
对应于表下的一个目录,所有的
Partition
的数据都存储在对应的目录中。例如:
pvs
表中包含
ds
和
city
两个
Partition
,则对应于
ds = 20090801, ctry = US
的
HDFS
子目录为:
/wh/pvs/ds=20090801/ctry=US
;对应于
ds = 20090801, ctry = CA
的
HDFS
子目录为;
/wh/pvs/ds=20090801/ctry=CA
-
Buckets
对指定列计算
hash
,根据
hash
值切分数据,目的是为了并行,每一个
Bucket
对应一个文件。将
user
列分散至
32
个
bucket
,首先对
user
列的值计算
hash
,对应
hash
值为
0
的
HDFS
目录为:
/wh/pvs/ds=20090801/ctry=US/part-00000
;
hash
值为
20
的
HDFS
目录为:
/wh/pvs/ds=20090801/ctry=US/part-00020
-
External Table
指向已经在
HDFS
中存在的数据,可以创建
Partition
。它和
Table
在元数据的组织上是相同的,而实际数据的存储则有较大的差异。
-
Table
的创建过程和数据加载过程(这两个过程可以在同一个语句中完成),在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据对访问将会直接在数
据仓库目录中完成。删除表时,表中的数据和元数据将会被同时删除。
-
External Table
只有一个过程,加载数据和创建表同时完成(
CREATE EXTERNAL TABLE
……LOCATION
),实际数据是存储在
LOCATION
后面指定的
HDFS
路径中,并不会移动到数据仓库目录中。当删除一个
External Table
时,仅删除
元信息。
分享到:
相关推荐
hive数据模型操作.pdf 学习资料 复习资料 教学资源
Hive数据模型操作-教案.pdf 学习资料 复习资料 教学资源
海量数据处理-hive数据仓库 很好的讲解的大数据海量数据处理的数据仓库模型建设
一、Hive的概述; 二、Hive的体系架构; 三、探讨Hadoop全家(生态圈); 四、Hive与传统数据库相比; 五、Hive的数据模型(自主学习); 六、搭建Haoop 2.7.6结合hive2.3.3实现数据仓库管理;
3. 数据清洗,数据模型构建 毕业设计,采用Hadoop+Hive构建数据仓库,使用django+echarts构建前端web网站对业务指标进行可视化呈现 毕业设计,采用Hadoop+Hive构建数据仓库,使用django+echarts构建前端web网站对...
Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model...
Hive表生成工具,Hive表生成工具Hive表生成工具
Hive 是重要的数据仓库工具,在数据挖掘、数据汇总、统计分析等领域有重要作用。特别的在电信业务中,Hive 扮演相当重要的角色,可以利用 Hive 统计用户的流量、话费、资费等信息,也可挖掘出用户的消费模型以帮助...
数据清洗,数据模型构建 ## Quick Start #### test python manage.py test #### makemigrations python manage.py makemigrations #### migrate python manage.py migrate #### run python manage.py ...
两种东西,其一是IBM微软数据产品为代表的,其二是Hadoop+Hive+Apache Hive数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。 可以将结构投影到已经存储的数据上。 提供了命令行工具和...
JPMML-Hive Apache Hive 数据仓库软件 ( ) 的 PMML 评估器库。特征完全支持 PMML 规范版本 3.0 到 4.2。 评估由 [JPMML-Evaluator] ( ) 库处理。先决条件Apache Hive 0.12.0 或更新版本。概述一个有效的 JPMML-Hive ...
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据...Hive中包含以下数据模型:Table内部表,External Table外部表,Partition分区,Bucket桶。Hive默认可以直接加载文本文件,还支持sequence file 、RCFile。
2022数据智能知识地图,完整数据中台架构与全貌,带你认识最全的数据中台组织架构、数据治理、数据安全、数据平台、风控、ABTEST、个性化推荐、计算广告、大数据基础技术栈等,非常详细。 2022数据智能知识地图,...
随着社会的发展,我们正步入一个信息技术世界。 在这样的世界中,由于电子商务,我们...根据分析,将对Hive数据库进行脱机数据分析和数据可视化。大大改进,因此可以为Hadoop业务数据的可视化分析模型提供参考和建议。
本资源中的源码都是经过本地编译过可运行的,下载后按照文档配置好环境就可以运行。资源项目的难度比较适中,内容都是经过助教老师审定过的,应该能够满足学习、使用需求,如果有需要的话可以放心下载使用。...
详细描述了使用Hive进行数据分析的基本步骤,包括创建Hive表、加载数据、编写和执行查询语句,以及查看和分析查询结果。它提供了具体的SQL示例,如创建用户表、加载CSV文件数据、执行各种查询操作(如筛选、统计、...
针对本次实验,我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)...
这将通过使用规范和取证模型、技术和操作审计以及通过业务分类元数据丰富的沿袭来提供 Hadoop 的真正可见性。它还使任何元数据使用者能够互操作,而无需彼此离散的接口——元数据存储是通用的。通过利用 Apache ...
2.把文本文件的数据集导入到数据仓库Hive中 3.对数据仓库Hive中的数据进行查询分析 4.使用Sqoop将数据从Hive导入MySQL 5.使用Sqoop将数据从MySQL导入HBase 6.使用HBase Java API把数据从本地导入到HBase中 7.使用R对...
涉及知识点:清洗 pandas + 分析 hive + 可视化 ( hue + pyecharts ) + 预测 sklearn 1. 数据集说明 2. 数据处理 2.1 数据清洗 2.2 数据导入 3. 数据分析可视化 3.1 整体情况(招聘企业数、岗位数、招聘人数、平均...