本月博客排行
年度博客排行
-
第1名
青否云后端云 -
第2名
zw7534313 -
第3名
大家都说我很棒 - wy_19921005
- liyihz2008
- gengyun12
- e_e
- hbxflihua
- luxurioust
- zysnba
- robotmen
- Alsmile
- gaozzsoft
- jywhltj
- cpongo1
- qepwqnp
- 解宜然
- gashero
- sichunli_030
- cuityang
- fantaxy025025
- vipbooks
- wallimn
- leslie26
- ssydxa219
- gdpglc
- javashop
- ranbuijj
- jickcai
- hanbaohong
- johnsmith9th
- appalese
- gaojingsong
- weiyides
- 淡看人生
- java-007
- zhangyi0618
- AVI
- laiyangdeli
- liunancun
- xpenxpen
- zhangdaiscott
- 龙哥IT
- nychen2000
- conkeyn
- ouanui
- lemonhandsome
- jveqi
- panshunchang
- MagicLee
最新文章列表
Hadoop的Map Sied Join
散仙,在有关Hadoop的上篇博客里,给出了基于Reduce侧的表连接,今天,散仙,就再来看下如何在Map侧高效完成的join,因为在reduce侧进行join在shuffle阶段会消耗大量的时间,如果在Map端进行Join,那么就会节省大量的资源,当然,这也是有具体的应用场景的。
使用场景:一张表十分小、一张表很大。
用法:在提交作业的时候先将小表文件放到该作业的DistributedC ...
【转】Hadoop 中的两表join
原文见:http://www.gemini5201314.net/hadoop/hadoop-%E4%B8%AD%E7%9A%84%E4%B8%A4%E8%A1%A8join.html
作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论各 ...
Hadoop 中使用DistributedCache遇到的问题
自己在写MAR/REDUCE代码时,遇到了一个问题,一个大数据文件和一个小数据文件匹配计算,但是小数据文件太小,所以想采用HIVE的MAP JOIN的方式,把小数据文件放到直接大数据文件map的datanode的内存中,这样少了MR代码的1对N的数据文件关联。
实现这个的最佳方案就是利用distributed cache。HIVE的MAP JOIN也是利用这个技术。
首先简要介 ...