学习地址: http://my.oschina.net/u/176897/blog/99761
写点自己的理解,大牛请直接略过。
好友推荐里有推荐一些你可能认识的人,其中二度人脉是其中一种。
比如: 何炅和谢娜 在微博上相互关注,那用二度人脉的方法就是找和谢娜相互关注的人(如 张杰,海涛,某人), 这时候[张杰,海涛,某人]就是何炅的二度人脉,排除掉何炅已经相互关注的张杰,剩下[张杰和某人],于是何炅发现忘记关注海涛了,接着互粉了。
在hadoop上计算用户们的二度人脉采用两步:<key,value> <key,[values]>表示
1.
第一个map输入互粉的 <a,b> , <a, c> , <a,d> , <b, c> , <b,d>
reduce阶段: 得到<a, [b, d, c]> <b, [c, d]>
输出(2=二度人脉,1=互粉) <b+d,2> <b+c,2> <c+d, 2> <a+b, 1> <a+d, 1> <a+c, 1>
<c+d, 2> <b+c, 1> <b+d, 1>
2. map输入上一个阶段输出。
reduce阶段:开始累加二度的值,出现是互粉的则为非二度。
<b+d, [2,1]> 其实b和d 已经互粉。
<b+c, [2,1]>
<c+d, [2,2]> c和d是二度人脉,出现值为2,出现的越高表示他们月有可能相互认识。越值得推荐给对方。
按照微博的用户数量估计一下数据量。
1. 1亿的用户,平均有100个互粉用户,则有100亿的数据奔向reduce阶段。
(假设其中有1万的用户,他们有1000个互粉,则reduce输出可能达到1w*1000*1000=100亿的数据量输出,容易发生数据倾斜的情况。)总的有可能会有 1亿*100*100 = 1万亿的输出数据, 存储空间需要20T左右(未压缩),
2. 第二个阶段的数据量由第一个阶段决定。但是第二阶段需要启动更多reduce去算完这1万亿的数据,所以这个阶段会和第一个阶段一样耗时。
希望有跑过这个量级的朋友分享一下经验。
分享到:
相关推荐
有关好友推荐的各种算法,是一个人的论文~ 觉得写的还不错
hadoop之MapReduce实现二度好友算法,包含输入数据demo,完整运算代码,在windows10下成功运行,输出结果为cat hello:2,hadoop:2,mr:1,world:1类似。
基于关联规则的社交网络好友推荐算法,向程冠,熊世桓,提出了一种基于关联规则的社交网络好友推荐算法,在进行好友推荐时,考虑现实社交活动中“志趣相投”的好友常常会关注相同的人和
好友推荐算法方面计算机学报的论文,都比较好,本人亲自看过的。
针对基于社区划分的潜在好友推荐算法FRCD运行速度慢的问题,提出了一种基于社区划分的多线程潜在好友推荐算法MTFRCD。该算法在网络拓扑图上利用多线程技术寻找核心关系子网,以核心关系子网作为标签种子节点,使用多...
考虑了用户之间的链接和内容信息,提出了一种结合非负矩阵因式分解的主题社区好友推荐算法(T-NMF)。该算法给出了主题社区和综合相似度计算方法,产生好友推荐列表。实验表明,该算法可以更好地反映用户的偏好,...
提出了一种基于关联规则的社交网络好友推荐算法,在进行好友推荐时,考虑现实社交活动中“志趣相投”的好友常常会关注相同的人和事,网络社交中的好友也常常会关注相同的“人”和“事”,将“关注”看成一条交易记录,把...
一种社交网络下的好友推荐算法,张萌哲,张成文,基于社交关系的社交网络下的好友推荐算法的利用用户之间的共同好友或粉丝的重合度来计算用户相似性,忽略了用户与的现有好友中的
推荐系统教程_第7周 社交网络好友推荐,图算法,在图数据库Neo4j上的实现.rar
#资源达人分享计划#
社交网络中潜在好友推荐算法研究.pdf
基于hadoop的好友推荐系统 使用 MapReduce 内含系统说明文件
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的课程设计、期末...基于Spark GraphX+PageRank算法的仿微博用户好友的分布式推荐系统源码+项目说明.zip
基于决策树的学术性社交网络好友推荐算法
利用相似兴趣好友推荐的喜欢物品UserCF算法 利用喜欢的物品推荐相似物品的ItemCF算法 利用用户和物品之间包含共同特征的标签推荐 基于标签的推荐系统,新用户标签问题比较少可以利用挖掘标签关联规则来增加标签 ...
社交网络中的信任推荐和好友搜索过滤算法研究
随着社交网的广泛流行,用户的数量也急剧增加,针对社交网络用户难以在海量用户环境中快速发现其可能感兴趣的潜在好友的问题,各种推荐算法应运而生,协同过滤算法便是其中最为成功的思想。然而目前的协同过滤算法...
基于Spark+PageRank算法构建仿微博用户好友的分布式推荐系统.zip 1、该资源内项目代码经过严格调试,下载即用确保可以运行! 2、该资源适合计算机相关专业(如计科、人工智能、大数据、数学、电子信息等)正在做课程...
国内也涌现了一些优秀的音乐推荐网站如豆瓣电台、虾米音乐、网易云音乐等等,根据用户平时推荐给好友的歌曲,听歌行为以及歌曲收录信息,找到“相似的品味者”,更好的做出推荐。 本文针对传统基于用户或者基于物品...
针对这一问题,基于微博大数据,以 Hadoop 为平台,HBase 为基础,MapReduce 为编程框架,提出了基于Apriori 算法与 Item-based 协同过滤算法的组合算法,并构建了推荐好友系统。该系统通过 Apriori 算法对冗杂的...