`
laies
  • 浏览: 241118 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

PageRank解释

阅读更多
   通过对由超过 50,000 万个变量和 20 亿个词汇组成的方程进行计算,PageRank 能够对网页的重要性做出客观的评价。PageRank 并不计算直接链接的数量,而是将从网页 A 指向网页 B 的链接解释为由网页 A 对网页 B 所投的一票。这样,PageRank 会根据网页 B 所收到的投票数量来评估该页的重要性。
    此外,PageRank 还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。重要网页获得的 PageRank(网页排名)较高,从而显示在搜索结果的顶部。Google 技术使用网上反馈的综合信息来确定某个网页的重要性。搜索结果没有人工干预或操纵,这也是为什么 Google 会成为一个广受用户信赖、不受付费排名影响且公正客观的信息来源。
    其实简单说就是民主表决。打个比方,假如我们要找李开复博士,有一百个人举手说自己是李开复。那么谁是真的呢?也许有好几个真的,但即使如此谁又是大家真正想找的呢?:-) 如果大家都说在 Google 公司的那个是真的,那么他就是真的。
    在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是 Page Rank 的核心思想。 当然 Google 的 Page Rank 算法实际上要复杂得多。比如说,对来自不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。Page Rank 考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到网页本身的排名,这不成了先有鸡还是先有蛋的问题了吗?
    Google 的两个创始人拉里•佩奇 (Larry Page )和谢尔盖•布林 (Sergey Brin) 把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值。值得一提的事,这种算法是完全没有任何人工干预的。
    理论问题解决了,又遇到实际问题。因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵 就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。今天 Google 的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多。
    我来 Google 后,拉里 (Larry) 在和我们几个新员工座谈时,讲起他当年和谢尔盖(Sergey) 是怎么想到网页排名算法的。他说:"当时我们觉得整个互联网就像一张大的图 (Graph),每个网站就像一个节点,而每个网页的链接就像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以用这个发现做个博士论文。" 他和谢尔盖就这样发明了 Page Rank 的算法。
网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下,以前的信息检索大多把每一个网页当作独立的个体对待,很多人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。 
    今天,Google 搜索引擎比最初复杂、完善了许多。但是网页排名在 Google 所有算法中依然是至关重要的。在学术界, 这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程 (Information Retrieval) 的教程。
分享到:
评论
1 楼 tangfeng 2007-06-29  
看这篇论文《The Anatomy of a Large-Scale Hypertextual Web Search Engine》by Sergey Brin and Lawrence Page

相关推荐

    PageRank 解释

    由于工作需要了解PageRank的知识。网上关于这块的介绍不是很系统。这里翻译了《An Introduction to information retrieval》教材中关于PageRank的介绍。应该说教材中关于这部分的介绍是很清晰的。只是个人水平有限,...

    PageRank of Google

    关于Google PageRank算法的介绍,并有详细的图文解释

    Google的秘密PageRank彻底解说中文版

    本文对作为评价甚高的搜索引擎 Google 的核心技术之一 PageRank (网页等级)的基本的概念和评价原理进行解释。

    pageRank:使用Python的pageRank算法实现

    pageRank是一个简单的Python搜索蜘蛛,页面排名和可视化工具。 这是一组模拟搜索引擎某些功能的程序。 他们将数据存储在名为“ spider.sqlite”的SQLITE3数据库中。 可以随时删除此文件以重新启动该过程。 目的是...

    pagerank算法实现 与 networkX进行对比 爬取真实网站数据

    Task 1.网站关系可视化及PR计算(新闻与政府网站 1.请以“新华网”和“人民网”为起点,在各网站首页上,爬取与他们有超链接关系的其他网站列表,再顺藤摸瓜,爬取列表中各网站首页上,...尝试解释排序产生变 化的原因。

    wiki-place-rank

    排序位置的结果集合可用于估计地名的每个解释的突出程度。 要运行,首先下载: 转储Geonames安装这个包: go get github.com/madelfio/wiki-place-rank/ 运行以下命令: wiki-place-rank all $WIKIDUMP $...

    基于静电力理论发现Web服务之间的语义关联

    为此,通过对服务调用的历史日志进行统计计算,我们提供了一种基于PageRank的方法来度量服务组件的重要性,并定义它们之间的距离度量。 然后,通过采用证据叠加的基本思想,给出了一种基于相关服务组件的度量WSDL...

    graphia:用于创建和分析图的可视化工具

    Graphia是功能强大的开源视觉分析应用程序,旨在帮助解释大型和复杂的数据集。产品特点支持从原始CSV到GraphML的多种输入数据格式使用诸如Pearson相关系数的算法创建相关图可视化数百万个数据点和关系交互式可视化和...

    网页排名

    MAP2110的存储库,以及Google PageRank的算法。 一个项目的解释,一个算法的计划和一个完整的程序,即“ projeto.pdf”和“ /relatorio/relatorio_map2110.pdf”。 面食程序论坛: 面食程序 面食测试,包括输入...

    链接研究SEO工具栏「Link Research SEO Toolbar」-crx插件

    搜索引擎可以将不自然的链接增长解释为负面信号,这可能导致排名下降 Google使用链接增长趋势来检测任何算法操纵尝试。如果您的反向链接配置文件增长太快,那么您就退出了。如果您太慢,则永远不会进入首页。为什么...

    大海捞针:使用网络分析识别被欧洲人权法院作为一般法律原则引用的案例-研究论文

    在本章中,我们提出了两种不同的方法来确定我们在欧洲人权法院实践中所谓的多晶原则,即与公约中一个或几个条款的解释没有直接关系的法律原则,但适用于与其实质内容无关的案件。 这些原则的例子可能是国家支付赔偿...

Global site tag (gtag.js) - Google Analytics