本月博客排行
-
第1名
青否云后端云 -
第2名
e_e -
第3名
vipbooks - silverend
- lemonhandsome
- ajinn
- jveqi
- kingwell.leng
年度博客排行
-
第1名
青否云后端云 -
第2名
zw7534313 -
第3名
大家都说我很棒 - liyihz2008
- wy_19921005
- gengyun12
- hbxflihua
- e_e
- luxurioust
- dbagirl
- zysnba
- Alsmile
- robotmen
- gaozzsoft
- jywhltj
- cpongo1
- leslie26
- qepwqnp
- zhangdaiscott
- 解宜然
- cuityang
- sichunli_030
- gashero
- fantaxy025025
- 淡看人生
- ranbuijj
- gdpglc
- ssydxa219
- wallimn
- vipbooks
- hanbaohong
- jickcai
- johnsmith9th
- javashop
- appalese
- gaojingsong
- weiyides
- zhangyi0618
- java-007
- AVI
- laiyangdeli
- lyongq04
- xpenxpen
- liunancun
- 龙哥IT
- conkeyn
- nychen2000
- lyndon.lin
- panshunchang
- ouanui
最新文章列表
Spark SQL中实现Hive MapJoin
在Hive中,如果一个很大的表和一个小表做join,Hive可以自动或者手动使用MapJoin,将小表的数据加载到DistributeCache中,从而在使用Map Task扫描大表的同时,完成join,这对join的性能提升非常多。
在SparkSQL中,目前还不支持自动或者手动使用MapJoin。变通的方法是,将小表进行cache,然后再和大表做join。 Spa ...
hive--Sort Merge Bucket Map Join
Bucket Map Join
1. 测试1:两个1亿多记录的表,不存在数据倾斜与笛卡尔积,测试下来与普通的join差不多;
2. 测试2:一个4000万和一个5000多万的表join,关联键数据倾斜,并且笛卡尔积,效果明显;
create table lxw_test(imei string,sndaid string,data_time string)
CL ...