`
Ryee
  • 浏览: 275997 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

爬虫访问优先级别与索引逻辑(爬虫更新频率)

阅读更多
众所周知,搜索引擎爬虫对页面的更新频率主要依靠链接的广泛度(流行度)来判断的,也就是说那些有较多外链和内链的页面会有较高的更新频率。
* 首页通常有最多的外链
* 其次是产品分类,二级分类 到三级分类等逐级衰减
* 最后在内容或产品页面会获得很少的关注

所以网站的架构决定了,爬虫索引的优先级别。下图是一个经典的网站结构层级



重要页面获得优先索引,这在算法上市非常友好的。



紫色节点是最重要的,我们可以看到这也是首要的入口。其下面页面通过它来逐级传递因为这种路径结构决定了搜索引擎的爬虫路径,必然越向下级的页面将获得很少的关注和索引机会。

例如分类站点,他包含了很多的内容如同上图一样有主要的分类,子分类和搜索结果页面等等。这些页面较主页有较低的权重,但他们的索引结果影响到其他的内容-detail信息、广告等。这些重要的页面却起源于List,而且在list上展现的广告相比list本身又是很少更新的。

国外的测试研究,通过有分类和没有分类的类目页面对比索引量,该索引量通过两种方式获得,1)site命令 2)Google Webmaster Tools(GWT) 结果如图:



我们看到的结论是什么?
1、 页面数量越多,收录的可能性越低;
2、 Site命令和GWT的数值有较大的偏差,但总体趋势相同;
3、 对于翻页后的收录量大致按页衰减1.2-1.3%/page

1 2 3 4 5 .....>>

衰减是否按照顺序和入口机会来很衡量的。很简单他们又做了改进测试;
改进方案:
1 2 3 4 5 ... 10  ...15  .....>>


一个月后观察到结果是



说明,页面收录的机会是相等的。新增页面的入口并没有给相邻的页面带来权重的提高也就是说爬虫并不是严格按照结构顺序索引的。

越多的页面链接指向list,他们将会获得较好的收录和索引机会;
页面距离入口地址越远,收录的机会越小。建议不要创建过深的网站结构,页面间的关联会提升入口的索引优先。

  • 大小: 32.7 KB
  • 大小: 32.3 KB
  • 大小: 17.1 KB
  • 大小: 15.4 KB
分享到:
评论

相关推荐

    爬虫深度优先与广度优先.rar

    爬虫深度优先与广度优先.rar

    网络爬虫与数据采集更新

    网络爬虫与数据采集更新 网络爬虫是指通过编程方式自动地从互联网上获取数据的过程。它可以自动地从网站上抓取数据,并将其存储在数据库或其他存储介质中,以供后续使用。爬虫的应用非常广泛,例如抓取商品信息、...

    猫头鹰搜索引擎,爬虫,分词,索引,搜索.zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    语雀爬虫 可以保存整个语雀知识库为Markdown格式 (包含完整目录结构和索引).zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    各种爬虫:爱企查爬虫,网上114企业信息爬虫,抖音视频爬虫,wipo爬虫, 专利信息爬虫(patentscope).zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    Python网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdf

    Python网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdfPython网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdfPython网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdfPython网络爬虫技术 第1章 ...

    爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文

    爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文...

    信用中国爬虫.zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    Python网络爬虫与数据采集

    Python 网络爬虫与数据采集知识点总结 Python 网络爬虫与数据采集是指使用 Python 语言编写的网络爬虫程序来抓取和处理网络数据的过程。该领域涉及到网络爬虫的基础知识、爬虫开发语言 Python、数据采集和处理技术...

    完整版基于java语言实现的广度优先算法多线程爬虫程序网络爬虫毕业设计报告共69页.pdf

    本文通过JAVA实现了一个基于广度优先算法的多线程爬虫程序。为何要使用多线程,以及如何实现多线程;系统实现过程中的数据存储;网页信息解析等。 通过实现这一爬虫程序,可以搜集某一站点的URLs,并将搜集到的...

    《Python爬虫大数据采集与挖掘》期末考试考题汇总带答案.doc

    《Python 爬虫大数据采集与挖掘》期末考试考题汇总带答案 本资源摘要信息涵盖了 Python 爬虫大数据采集与挖掘的各个方面,包括爬虫技术的应用、Web 页面组成结构、Robots 协议、Web 信息提取、HTML 解析、HTTP 状态...

    爬虫系列 Scrap爬虫框架 百度云盘爬虫(网盘) .zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    秀人网爬虫 55156爬虫.zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    网站图片爬虫小工具 网站图片爬虫小工具

    网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具...

    Python爬虫环境与爬虫介绍

    * 增量式网络爬虫:只对已下载网页采取增量式更新或只爬行新产生的及已经发生变化的网页,需要通过重新访问网页对本地页面进行更新,从而保持本地集中存储的页面为最新页面。 * 深层网络爬虫:可以爬取深层网页,...

    TVBoxOSC 服务端爬虫 .zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    网络爬虫爬虫软件

    需要加载一个字典文件,此字典文件在爬虫程序中要求放在此目录结构下: c:\dictionary\dictionary.txt,词典默认认为是按照词语长到短的顺序排列的 ...4、此爬虫程序采用的是广度优先的搜索方法搜索网络中的网页

    谷歌专利爬虫.zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    豆瓣爬虫租房.zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

    闲鱼爬虫,闲鱼采集,闲鱼分析.闲鱼hook,闲鱼签名.闲鱼滑块,闲鱼风控,闲鱼抢拍,闲鱼强聊,闲鱼秒拍,闲鱼商品监控.zip

    遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...

Global site tag (gtag.js) - Google Analytics