[spark-src-core] 7.1 application in spark-PageRank

leibnitz

浏览: 274386 次
性别:
来自: 广州

最近访客更多访客>>

eternal1025

bneliao

adapterofcoms

caipeijun666

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

spark

below code path are all from sparks' example beside some comments are added by me.

val lines = ctx.textFile(args(0), 1)
    //-1 generate links of <src,targets> pair
    var links = lines.map{ s =>
      val parts = s.split("\\s+")
      (parts(0), parts(1)) //-pair of <src,target>
    }.distinct() //-needless if dedupliate
      .groupByKey().cache() //-raw:利用groupby生成一个准备join的表,模拟表数据实际情况; 由于links多次迭代所以要cache提升性能 #B
      //-leib.如果此行打开,上行也要同时打开否则redueByKey()异常,因为for()中flatMap()会产生(Char,Double)
//      .partitionBy(new org.apache.spark.HashPartitioner(2)).cache()

    //-2 generate ranks with default value,ie <spawnup-url,default-rank>
    //-use val if #A is comment
    var ranks = links.mapValues(v => 1.0) // ie <raw-links-key,1.0>

    //-3
    for (i <- 1 to iters) {
      //-3.1 reverse the spawnup urls to target urls:inner join;由于links是url全集可能性能影响大
      //- 交换links,ranks是否可以提升性能? no ,this is not leftJoin but inner join
      // ?links数量太大时,对于后续深迭代计算影响大,可以先利用contribs计算新的links(mapValues())再进行下一次join
      //-note:both links and ranks rdd are same partitioner,so no shuffle is necessary for join op
      val contribs = links.join(ranks).values.flatMap{ case (urls, rank) => //-why uses 'case' clause?元组tuple就要用
        val size = urls.size  //-target(to) urls size
        urls.map(url => (url, rank / size)) //-avg rank per target url
      }
      //-3.2 merge the contributed ranks per target url; 注意:此ranks不断收窄(慢慢远离出发urls),导致要计算的数据越来越少,see #A
      //-为什么不用恢复到原ranks节点数?若果恢复,统计数据将再恢复为第二次的数据
      ranks = contribs.reduceByKey(_ + _).mapValues(0.15 + 0.85 * _) //加权求和; retains same partittoner with join
      //-#A:若果数量确实庞大,可以使用此方法大约每隔几轮缓存下结果,这样在10轮以上的就快很多了? cmp #B
//      val oldlinks = links
//      links = links.join(ranks).map{ case (k,(urls, rank)) => (k,urls)} //-added by leib
//      oldlinks.unpersist(false)

      println("step------------------------------"+i+"---------------------------------")
      ranks.foreach(s => println("-result:" + s._1 + " - " + s._2))
    }

ref:

PageRank算法在spark上的简单实现

Spark PageRank

0
顶

3
踩

分享到：

[spark-src-core] 8. trivial bug in spark ... | [spark-src-core] 6. checkpoint in spark

2016-11-03 15:59
浏览 595
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[spark-src-core] 7.1 application in spark-PageRank

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[spark-src-core] 7.1 application in spark-PageRank

评论

发表评论

相关推荐

spark-broadcast in spark

spark-storage/memory used in spark

spark-hive on spark

spark-RDD vs DataFrame vs DataSet

[spark-src-core] 8. trivial bug in spark standalone executor assignment

[spark-src-core] 6. checkpoint in spark

[spark-src-core] 5.big data techniques in spark

[spark-src-core] 4.2 communications b/t certain kernal components

[spark-src-core] 3.3 run spark in standalone(cluster) mode

[spark-src-core] 3.2.run spark in standalone(client) mode

[spark-src-core] 3.run spark in cluster(local) mode

[spark-src-core] 2.5 core concepts in Spark

[spark-src-core] 2.4 communications b/t certain kernal components

[spark-src-core] 2.3 shuffle in spark

[spark-src-core] 2.2 job submitted flow for local mode-part II

[spark-src-core] 2.2 job submitted flow for local mode-part I

[spark-src-core] 2.1 relationships b/t misc spark shells

[spark-src] 1-overview

[spark-src]-source reading

spark stream-Spark Streaming：大规模流式数据处理的新贵

最近访客更多访客>>