众所周知,搜索引擎爬虫对页面的更新频率主要依靠链接的广泛度(流行度)来判断的,也就是说那些有较多外链和内链的页面会有较高的更新频率。
* 首页通常有最多的外链
* 其次是产品分类,二级分类 到三级分类等逐级衰减
* 最后在内容或产品页面会获得很少的关注
所以网站的架构决定了,爬虫索引的优先级别。下图是一个经典的网站结构层级
重要页面获得优先索引,这在算法上市非常友好的。
紫色节点是最重要的,我们可以看到这也是首要的入口。其下面页面通过它来逐级传递因为这种路径结构决定了搜索引擎的爬虫路径,必然越向下级的页面将获得很少的关注和索引机会。
例如分类站点,他包含了很多的内容如同上图一样有主要的分类,子分类和搜索结果页面等等。这些页面较主页有较低的权重,但他们的索引结果影响到其他的内容-detail信息、广告等。这些重要的页面却起源于List,而且在list上展现的广告相比list本身又是很少更新的。
国外的测试研究,通过有分类和没有分类的类目页面对比索引量,该索引量通过两种方式获得,1)site命令 2)Google Webmaster Tools(GWT) 结果如图:
我们看到的结论是什么?
1、 页面数量越多,收录的可能性越低;
2、 Site命令和GWT的数值有较大的偏差,但总体趋势相同;
3、 对于翻页后的收录量大致按页衰减1.2-1.3%/page
衰减是否按照顺序和入口机会来很衡量的。很简单他们又做了改进测试;
改进方案:
| 1 | | 2 | | 3 | | 4 | | 5 | | ... | | 10 | | ... | | 15 | | .....>> |
一个月后观察到结果是
说明,页面收录的机会是相等的。新增页面的入口并没有给相邻的页面带来权重的提高也就是说爬虫并不是严格按照结构顺序索引的。
越多的页面链接指向list,他们将会获得较好的收录和索引机会;
页面距离入口地址越远,收录的机会越小。建议不要创建过深的网站结构,页面间的关联会提升入口的索引优先。
![点击查看原始大小图片](http://dl2.iteye.com/upload/attachment/0020/4509/2c1acca3-3d6c-3473-97b2-4e44d2f81efe-thumb.gif)
- 大小: 32.7 KB
![点击查看原始大小图片](http://dl2.iteye.com/upload/attachment/0020/4511/7f60fb56-06a0-387d-a07c-a2a4cc01cddb-thumb.gif)
- 大小: 32.3 KB
![点击查看原始大小图片](http://dl2.iteye.com/upload/attachment/0020/4531/fe3a842c-8a94-3cef-b127-95c625e06af7-thumb.gif)
- 大小: 17.1 KB
![点击查看原始大小图片](http://dl2.iteye.com/upload/attachment/0020/4537/d009b87f-6715-3de0-a4d0-737fea6a06b1-thumb.gif)
- 大小: 15.4 KB
分享到:
相关推荐
爬虫深度优先与广度优先.rar
网络爬虫与数据采集更新 网络爬虫是指通过编程方式自动地从互联网上获取数据的过程。它可以自动地从网站上抓取数据,并将其存储在数据库或其他存储介质中,以供后续使用。爬虫的应用非常广泛,例如抓取商品信息、...
遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...
遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...
遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...
Python网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdfPython网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdfPython网络爬虫技术 第1章 Python爬虫环境与爬虫简介 教案.pdfPython网络爬虫技术 第1章 ...
爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文爬虫论文...
遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...
Python 网络爬虫与数据采集知识点总结 Python 网络爬虫与数据采集是指使用 Python 语言编写的网络爬虫程序来抓取和处理网络数据的过程。该领域涉及到网络爬虫的基础知识、爬虫开发语言 Python、数据采集和处理技术...
本文通过JAVA实现了一个基于广度优先算法的多线程爬虫程序。为何要使用多线程,以及如何实现多线程;系统实现过程中的数据存储;网页信息解析等。 通过实现这一爬虫程序,可以搜集某一站点的URLs,并将搜集到的...
《Python 爬虫大数据采集与挖掘》期末考试考题汇总带答案 本资源摘要信息涵盖了 Python 爬虫大数据采集与挖掘的各个方面,包括爬虫技术的应用、Web 页面组成结构、Robots 协议、Web 信息提取、HTML 解析、HTTP 状态...
遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...
遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...
网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具...
* 增量式网络爬虫:只对已下载网页采取增量式更新或只爬行新产生的及已经发生变化的网页,需要通过重新访问网页对本地页面进行更新,从而保持本地集中存储的页面为最新页面。 * 深层网络爬虫:可以爬取深层网页,...
遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...
需要加载一个字典文件,此字典文件在爬虫程序中要求放在此目录结构下: c:\dictionary\dictionary.txt,词典默认认为是按照词语长到短的顺序排列的 ...4、此爬虫程序采用的是广度优先的搜索方法搜索网络中的网页
遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...
遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...
遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施...