- 浏览: 2571673 次
- 性别:
- 来自: 广州
文章分类
- 全部博客 (880)
- 每日总结 (26)
- java (37)
- lucene 2.4源码学习 (11)
- 庖丁分词的源码分析 (5)
- cindy源码阅读 (10)
- jetty (3)
- java基础 (49)
- hadoop (37)
- python (7)
- 那些蛋疼的事 (15)
- 测试 (5)
- spring (3)
- redis (4)
- git (4)
- 我的开源项目 (2)
- linux (15)
- mysql (8)
- bootsharp (1)
- idea (1)
- Disruptor源码分析 (11)
- 高并发 (22)
- jdk (4)
- 领域驱动 (1)
- 坑 (6)
- 表达式框架 (7)
- 游戏 (3)
- Guava (1)
- 缓存 (1)
- 数据库 (1)
- 游戏项目 (3)
- java8 (1)
最新评论
-
hsluoyz:
PyCasbin是一个用Python语言打造的轻量级开源访问控 ...
权限管理的一个简单后台 -
liuyachao111:
谢谢 问题解决了
对实体 "characterEncoding" 的引用必须以 ';' 分隔符结尾 -
jnjeC:
多谢博主分享,在配置文件里的&也要改成& ...
对实体 "characterEncoding" 的引用必须以 ';' 分隔符结尾 -
大维啊:
同志,你这不行啊!
java 的 AccessController.doPrivileged使用 -
lisha2009:
解决了我的问题,多谢博主分享!
对实体 "characterEncoding" 的引用必须以 ';' 分隔符结尾
使用muti group by之前:
使用后:
从我的这个使用场景来看,使用前后的运行时间是差不多的.
echo "订购 下载 试听 搜索 pv uv :============================================= " hive -e "use platform; select ${group},sum(buy),sum(down),sum(listen),sum(search),sum(pv),count(distinct IMSI) from( select ${group},IMSI, case when action=1 then 1 else 0 end as buy, case when action=2 then 1 else 0 end as down, case when action=3 then 1 else 0 end as listen, case when action=4 then 1 else 0 end as search, case when (${pvcase}) then 1 else 0 end as pv from T_FeedbackAccessday2 where ${case} )middle group by ${group};" | grep "2013-" >tmp.data echo "流量:============================================= " hive -e "use platform; select day,porttype,subporttype,'flow',sum(abs(yidong)), sum(abs(notyidong)) from( select day,porttype,subporttype, case when (UCASE(network) in('CTWAP','CTNET') and abs(FluxByte)<10485760) then FluxByte else cast(0 as bigint) end as yidong, case when (UCASE(network) not in('CTWAP','CTNET') and abs(FluxByte)<10485760) then FluxByte else cast(0 as bigint) end as notyidong from T_FeedbackAccessday2 where ${case} and (PortType !=5 OR subporttype!=4) OR (PortType =5 and subporttype =4 and ActionModule= 'actionFeedback')) middle group by day,porttype,subporttype" | grep "2013-" >flow.data
使用后:
hive -e "use platform; from T_FeedbackAccessday2 INSERT OVERWRITE TABLE result2 PARTITION(day='${day}',category='buy') select porttype,subporttype,comefrom,'',sum(case when action=1 then 1 else 0 end) as buy where ${case} group by ${group} INSERT OVERWRITE TABLE result2 PARTITION(day='${day}',category='down') select porttype,subporttype,comefrom,'',sum(case when action=2 then 1 else 0 end) as buy where ${case} group by ${group} INSERT OVERWRITE TABLE result2 PARTITION(day='${day}',category='listen') select porttype,subporttype,comefrom,'',sum(case when action=3 then 1 else 0 end) as buy where ${case} group by ${group} INSERT OVERWRITE TABLE result2 PARTITION(day='${day}',category='search') select porttype,subporttype,comefrom,'',sum(case when action=4 then 1 else 0 end) as buy where ${case} group by ${group} INSERT OVERWRITE TABLE result2 PARTITION(day='${day}',category='uv') select porttype,subporttype,comefrom,'',count(distinct IMSI) as buy where ${case} group by ${group} INSERT OVERWRITE TABLE result2 PARTITION(day='${day}',category='pv') select porttype,subporttype,comefrom,'',sum(${pvcase}) as buy where ${case} group by ${group} INSERT OVERWRITE TABLE result2 PARTITION(day='${day}',category='yidong') select porttype,subporttype,'','',sum(${yidongcase}) as buy where ${case} group by porttype,subporttype INSERT OVERWRITE TABLE result2 PARTITION(day='${day}',category='notyidong') select porttype,subporttype,'','',sum(${notyidongcase}) as buy where ${case} group by porttype,subporttype;"
从我的这个使用场景来看,使用前后的运行时间是差不多的.
发表评论
-
hadoop的stream
2013-09-13 19:30 1162如统计一个文件有多少行(/user/hive/warehous ... -
hadoop的archive(打包压缩)
2013-09-13 19:25 1513如: hadoop archive -archiveName ... -
hadoop的一些监控
2013-09-13 14:51 933... -
hive报错Too many counters的解决
2013-09-09 16:18 4730解决办法 在执行hql的机器上修改mapred-site.x ... -
转发 Mongodb 和 Hbase的区别
2013-09-05 14:43 1191原始网址:http://hi.baidu.co ... -
hive警告解决 WARNING: org.apache.hadoop.metrics.jvm.EventCounter is deprecated.
2013-08-28 10:17 1854--修改参数 vi hive-log4j.propertie ... -
解决hbase的启动不起来 Master is initializing
2013-08-24 12:38 3983现象:hbase启动不起来,报错显示Master is ini ... -
hadoop的rsync是个好东西
2013-08-23 16:02 2643如可以这样用 rsync -v hive-site.xm ... -
hive TempStatsStore cannot be created
2013-08-23 10:00 1767<property> <na ... -
hadoop hive中metastore报错的解决
2013-08-10 16:42 2078报的错: Unable to instantiate or ... -
hive的Recover partitions是个好东西
2013-08-08 10:11 2044之前从hadoop复制数据到hive之后,每次都要add pa ... -
hive的一个报错 Not In Group By Key
2013-08-05 19:08 11330这个报错的原因是:select的字段没有出现在group by ... -
hive用正则表达式的方式使用多字节切割符号
2013-08-02 14:57 5828hive默认是不支持多字节切割符号的. 我采用了正则表达式的方 ... -
安装使用flume
2013-07-18 12:20 15861 首先去官网下载 http://flume.apache.o ... -
kerberos不能导出证书的解决
2013-07-06 15:40 2879执行命令 ktadd -k /etc/hadoop/conf/ ... -
protobuf 安装中问题的解决
2013-07-06 10:04 17547解决办法: 把自带的gtest 1.4 换成1.5 安装的版 ... -
kerberos不能续约一个证书
2013-07-02 11:59 3284kinit -R 的时候,报错: kinit: Tick ... -
jps命令Could not synchronize with target
2013-06-28 09:32 2798网上有人说离开安全模式就可以解决这个,但是我尝试是没有成功的: ... -
安装kerberos的坑
2013-06-27 17:57 4962执行kinit的时候老是报错: kinit: Client ... -
hadoop权限设置
2013-06-19 18:12 1510(1) 在core-site.xmll中配置以下属性: < ...
相关推荐
set hive.groupby.mapaggr.checkinterval = 100000000; //在 Map 端进行聚合操作的条目数目 set hive.groupby.skewindata = true; //解决数据倾斜的万能钥匙 当map阶段运行不了的时候,可以设置 set hive.map.aggr ...
二、Distribute by 五、Cluster by 六、如何使用sort by实现全局排序
hive的group by 和集合函数 hive的Order By/Sort By/Distribute By Join查询,join只支持等值连接 LEFT,RIGHT 和 FULL OUTER JOIN LEFT SEMI JOIN Hive当前没有实现 IN/EXISTS 子查询,可以用 LEFT SEMI JOIN 重写子...
hive hive hive hive hive hive hive hive hive hive hive hive
3.1 Group By 28 3.2 Order /Sort By 28 4. Hive Join 29 5. HIVE参数设置 31 6. HIVE UDF 33 6.1 基本函数 33 6.1.1 关系操作符 33 6.1.2 代数操作符 34 6.1.3 逻辑操作符 35 6.1.4 复杂类型操作符 35 6.1.5 内建...
利用Hive进行复杂用户行为大数据分析及优化案例(全套视频+课件+代码+讲义+工具软件),具体内容包括: ...15_Hive中的数据倾斜及解决方案-group by 16_Hive中使用正则加载数据 17_Hive中使用Python脚本进行预处理
3.1 Group By 28 3.2 Order /Sort By 28 4. Hive Join 29 5. HIVE参数设置 31 6. HIVE UDF 33 6.1 基本函数 33 6.1.1 关系操作符 33 6.1.2 代数操作符 34 6.1.3 逻辑操作符 35 6.1.4 复杂类型操作符 35 6.1.5 内建...
使用hive3.1.2和spark3.0.0配置hive on spark的时候,发现官方下载的hive3.1.2和spark3.0.0不兼容,hive3.1.2对应的版本是spark2.3.0,而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。 所以,如果想要使用高...
hive-jdbc
1 Hive 概念与连接使用: 2 2 Hive支持的数据类型: 2 2.1原子数据类型: 2 2.2复杂数据类型: 2 2.3 Hive类型转换: 3 3 Hive创建/删除数据库 3 3.1创建数据库: 3 3.2 删除数据库: 3 4 Hive 表相关语句 3 4.1 Hive ...
Hive表生成工具,Hive表生成工具Hive表生成工具
创建mysql用户:create user 'hive' identified by 'hive'; 8. 授权:grant all privileges on *.* to 'hive'@'%' with grant option 9. 重启一下这个mysql服务。 10. 使用hive用户创建数据库并修改连接信息。
《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件 第...
hive窗口系列函数
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'root' WITH GRANT OPTION; FLUSH PRIVILEGES; 6. Jline包版本不一致的问题,需要拷贝hive的lib目录中jline.2.12.jar的jar包替换掉hadoop中的 /home/...
Hive.sql
Hive是一个基于Hadoop的数据仓库工具,它本身并不存储数据,部署在Hadoop集群上,数据是存储在HDFS上的. Hive所建的表在HDFS上对应的是一个文件夹,表的内容对应的是一个文件。它不仅可以存储大量的数据而且可以对...
Hive原理/Hive SQL/Hive 函数/数据仓库分层和建模/Hive sql优化/数据倾斜
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储...