爬虫访问优先级别与索引逻辑（爬虫更新频率）

Ryee

浏览: 275997 次
性别:
来自: 上海

最近访客更多访客>>

faxMonkey

kt007time

u010833547

祥之北漂

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

SEO技术

GWT 搜索引擎算法 Google

众所周知，搜索引擎爬虫对页面的更新频率主要依靠链接的广泛度（流行度）来判断的，也就是说那些有较多外链和内链的页面会有较高的更新频率。
* 首页通常有最多的外链
* 其次是产品分类，二级分类到三级分类等逐级衰减
* 最后在内容或产品页面会获得很少的关注

所以网站的架构决定了，爬虫索引的优先级别。下图是一个经典的网站结构层级

重要页面获得优先索引，这在算法上市非常友好的。

紫色节点是最重要的，我们可以看到这也是首要的入口。其下面页面通过它来逐级传递因为这种路径结构决定了搜索引擎的爬虫路径，必然越向下级的页面将获得很少的关注和索引机会。

例如分类站点，他包含了很多的内容如同上图一样有主要的分类，子分类和搜索结果页面等等。这些页面较主页有较低的权重，但他们的索引结果影响到其他的内容-detail信息、广告等。这些重要的页面却起源于List，而且在list上展现的广告相比list本身又是很少更新的。

国外的测试研究，通过有分类和没有分类的类目页面对比索引量，该索引量通过两种方式获得，1）site命令 2）Google Webmaster Tools(GWT) 结果如图：