不同类型比较
不同类型的数字float double做比较,要注意0.2float大于0.2double
可以cat(0.2 as float)
order by and sort by
hive的order by是全部数据的排序,在一个reduce中处理排序,默认升序。效率比较低,通常跟limit一起用
可以用hive.mapred.mode=strict来强制,order后跟着limit
sort by是在每个reduce中,进行排序,
(是否在一个reduce中,由groupcomparator决定,如果没有就是key的compare,在hive中UDAF在控制mapper的key输出到reducer上,普通的compact是hash分布到key上,或是自定义compact的hash均匀分布ketama算法)
distribut by是让相同的key归到同一个reducer中,这样sort可以进行reducer中的排序
(注意 sort需要放在distribute前边)
cluster
cluster by是一种distribute和sort的简写,让按照clauses中语句分组,并且按照其他字段排序
cast函数
cast类型转换函数,当string不符合条件,则为unknown data为null
可以嵌套cast(cast(cast(binary as string)as double))
将float转换为int 可以用round floor
取样查询 sample
rand随机
select * from numbers tablesample(bucket 3 out of 10 on rand()) s;
column随机:以一个column,这样会在多个线程里跑multiple runs
select * from numbers tablesample(bucket 3 out of 10 on number) s;
block随机: 另一个取样函数(block sampling 当表小于block size128mb,则全部rows返回)
有个hive.sample.seednumber来控制seed information for block based
select * from numbersflat tablesample(0.1 percent) s;
使用number做sample,用以下语句,让sample按照sample存储,可以只访问hash file中需要的bucket
create table numbers_bucketed(number int) clustered by (number) into 3 buckets
set hive.enforce.bucketing = true;
union
select * from table1
union all
select * from table2
from(
from src select src.key , src.value where src.key < 100
union all
from src select src.* where src.key >100
) unioninput
insert overwrite directory '/tmp/union.out' select unioninput.*
相关推荐
Hive3第六章:更换引擎
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。(1)解析器(SQL Parser):将SQL字符串转换成抽象语法树AST,这一步一般都用第三方工具库完成,比如antlr;对AST...
第6章:Hive性能优化及Hive3新特性课程学习目标掌握Hive中分区表及分桶表的设计及优化实现了解Hive中索引的设计及应用场景掌握Hive中文件格式与数据
第6章 HiveQL:查询 第7章 HiveQL:视图 第8章 HiveQL:索引 第9章 模式设计 第10章 调优 第11章 其他文件格式和压缩方法 第12章 开发 第13章 函数 第14章 Streaming 第15章 自定义Hive文件和记录格式 第16章 Hive的...
Hive对存储在HDFS中的数据进行分析和管理,它可以将结构化的数据文件映射为一张数据库表,通过SQL查询分析需要的内容,查询Hive使用的SQL语句简称Hive SQL(HQL)。Hive的运行机制??不熟悉MapReduce的用户也能很方便...
第6章 Hive组建安装配置.docx
第6章 Hive组建安装配置.pdf
第2章:Hive 常用DML、UDF及连接方式 13.Hive中分区表的介绍 14.Hive中分区表的创建及使用 15.Hive中数据导入的6种方式及其应用场景 16.Hive中数据导出的4种方式及表的导入导出 17.Hive中HQL的基本语法(一) 18....
第一章 Hive基本概念 第二章 Hive的安装 第三章 Hive数据类型 第四章 DDL数据定义 第五章 DML数据操作 第六章 查询 第七章 函数 第八章 压缩和存储 第九章 企业级调优 第十章 常见错误及解决方案
hadoop大数据平台技术与应用--第6章数据仓库Hive.pdf
第1章数据仓库基础与Apache Hive入门课程计划目录 一、 课程计划 2 二、 数据仓库 5 1. 数据仓库概念 5 2. 场景案例:数据仓库为何而来?6
大数据
第6章 zookeeper介绍 25 6.1 zookeeper简介 25 6.2 分布式应用程序 25 6.3 Apache Zookeeper意味着什么? 26 第7章 zookeeper基本组成与工作流程 27 第8章 zookeeper的leader节点选择 31 第9章 zookeeper安装 33 第...
清华大学精品大数据实战课程(Hadoop、Hbase、Hive、Spark)PPT课件含习题(29页) 第6章 Spark SQL.rar
第1章 初识Hadoop 1 第2章 关于MapReduce 19 第3章 Hadoop分布式文件系统 49 第4章 Hadoop的I/O操作 89 第5章 MapReduce应用开发 157 第6章 MapReduce的工作机制 205 第7章 MapReduce的类型与格式 241 第8章 ...
第6章 SQL to Hadoop:Sqoop 第7章 Hadoop性能调优和运维 应用篇:商业智能系统项目实战 第8章 在线图书销售商业智能系统 第9章 系统结构设计 第10章 在开发之前 第11章 实现数据导入导出模块 第12章 实现数据分析...
第六章元数据管理系统解析 第七章hive的Metastore机制 第八章基于hadoop架构数仓管理工具hive 第九章hadoop集群Yarn容量调度器 第十章从0到1简单搭建数仓ODS层(埋点日志+业务数据) 第十一章从0到1简单搭建加载数仓...
全书共10章:前6章系统讲解Hive工作原理、特点,Hive架构,HiveQL表操作,HiveQL数据操作,HiveQL查询,Hive安装与配置,Hive自定义函数;第8~10章是综合案例部分,通过案例帮助读者掌握整个大数据项目的开发流程,...
章节说明:教材只需要授课...针对2015、2016年大数据技术的新发展,2016年林子雨老师为教材新增了三个章节(将在下一版教材中放入教材),新增第14章基于Hadoop的数据仓库Hive、第15章Hadoop架构再探讨、第16章Spark。
第6章 Hive——飞进数据仓库的小蜜蜂 (源码下载) 第7章 Pig——一头什么都能吃的猪 (源码下载) 第8章 Facebook的女神——Cassandra (源码下载) 第9章 Chukwa——收集数据的大乌龟 (无源码) 第10章 一统天下...