`

搜索引擎如何抓取互联网页面

 
阅读更多
先说说搜索引擎的原理吧。搜索引擎是把互联网上的网页内容存在自己的服务器上,当用户搜索某个词的时候,搜索引擎就会在自己的服务器上找相关的内容,这样就是说,只有保存在搜索引擎服务器上的网页才会被搜索到。哪些网页才能被保存到搜索引擎的服务器上呢?只有搜索引擎的网页抓取程序抓到的网页才会保存到搜索引擎的服务器上,这个网页抓取程序就是搜索引擎的蜘蛛.整个过程分为爬行和抓取。

  一、 蜘蛛

  搜索引擎用来爬行和访问网站页面的程序被称为蜘蛛,也可称之为机器人。蜘蛛访问浏览器,就和我们平时上网一个样子,蜘蛛同样会申请访问,得到允许后才可以浏览,可是有一点,搜索引擎为了提高质量和速度,它会放很多蜘蛛一起去爬行和抓取。

  蜘蛛访问任何一个网站时,都会先去访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。

  和浏览器一样,搜索引擎蜘蛛也有表明自己身份的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辨识搜索引擎蜘蛛。

  二、 跟踪链接

  为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行一样。

  整个互联网是有相互链接的网站及页面组成的。当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。

  最简单的爬行的策略有:深度优先和广度优先。

  1、 深度链接

  深度优先指当蜘蛛发现一个链接时,它就会顺着这个链接指出的路一直向前爬行,直到前面再也没其他链接,这时就会返回第一个页面,然后会继续链接再一直往前爬行。

  2、 广度链接

  从seo角度讲链接广度优先的意思是讲的蜘蛛在一个页面发现多个链接的时候,不是跟着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。

  从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,没有什么东西是无限的,蜘蛛的带宽资源和蜘蛛的时间也是一样都是有限的,也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。

  3.吸引蜘蛛

  蜘蛛式不可能抓取所有的页面的,它只会抓取重要的页面,那么哪些页面被认为比较重要呢?有以下几点:

  (1) 网站和页面权重

  (2) 页面更新度

  (3) 导入链接

  (4) 与首页点击距离

  4.地址库

  搜索引擎会建立一个地址库,这么做可以很好的避免出现过多抓取或者反复抓取的现象,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。

  地址库中的URL有以下几个来源:

  (1) 人工录入的种子网站。

  (2) 蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。

  (3) 搜索引擎自带的一种表格提供站长,方便站长提交网址。

分享到:
评论

相关推荐

    搜索引擎系统中网页抓取模块研究

    如今互联网资源迅速膨胀,搜索引擎能够从浩如烟海的杂乱信息中抽出一条清晰的检 索路径,让用户获得自己需要的信息。由蜘蛛程序实现的网页抓取模块是搜索引擎系 统提供服务的基础,从资源的角度决定了整个系统的成败...

    搜索引擎优化课件.zip

    搜索引擎优化,又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术。搜索引擎采用易于被...

    搜索引擎蜘蛛捕捉php版

    它的作用是访问互联网上的html网页,建立索引数据库,使用户能在搜索引擎中搜索到贵网站的网页。 搜索引擎派出“蜘蛛”程序检索现有网站一定IP地址范围内的新网站,而对现有网站的更新则根据该网站的等级不同有快慢...

    这就是搜索引擎(mobi).zip

    对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,...

    这就是搜索引擎:核心技术详解

    对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,...

    基于百度的全文搜索引擎

    文档从基本概念入手,详细阐述了全文搜索引擎如何通过爬取互联网信息、建立网页索引数据库,提供纯文字搜索结果的过程。同时,还深入剖析了全文搜索引擎的工作流程,包括网页抓取、预处理、建立索引、查询处理以及...

    中科院简单搜索引擎模型 搜索引擎爬虫数据抓取系统分析与介绍 共49页.pdf

    第三节、网页抓取简单模型 1.最简单Spider抓取模型 2.最简单Spider调度模型 3.最简单Spider调度质量模型 4.最简单Spider调度策路模型 5.Spider的常见问题 第四节、页预处理简单模型 1.质量筛选...

    网啦搜索引擎系统v1.0

    网啦搜索引擎系统由四个子系统构成,分别是:网页抓取子系统、数据搬运子系统、WEB搜索子系统、数据库引擎。 • 网页抓取子系统:英文名Spider,用于抓取互联网上的网页,编码并存放到本地磁盘缓冲中。本子系统运行...

    搜索引擎代码

    3.对搜索列表页面进行SEO处理,避免百度、Google等搜索引擎陷入链接陷阱。 2010.12.17升级(0.95版本) 0.95版升级的主要内容如下: 1.提高系统稳定性:优化蜘蛛抓取网页时索引建立的方式,避免因服务器异常,...

    C#仿搜索引擎爬行演示程序源码

    C#仿搜索引擎爬行演示程序源码,在URL处输入具体的网页地址,不要输入域名,输域名无效,也就是要指定到网页扩展名,这样程序就会顺着该页上的链接一个个抓取,在保存目录处设定好输出目录,抓取的文件会存入这个...

    最先进的收索引擎优化SEO

    分为站外SEO和站内SEO两种.SEO的主要工作是通过了解各类搜索引擎如何抓取互联网页面、如何进行索引以及如何确定其对某一特定关键词的搜索结果排名等技术,来对网页进行相关的优化,使其提高搜索引擎排名,从而提高...

    前台通过JS抓取用户在百度等搜索引擎输入的关键词

    互联网公司通过百度,360,搜狗等做广告推广 用户在搜索引擎中输入相关的关键词汇 查询到相关广告 并点击进入到该页面 在页面中会记录相关的来源以及在搜索引擎中搜索的关键词 公司可以通过对关键词的统计做定向推广...

    如何禁止网站内容被搜索引擎收录的几种方法讲解

    通常做网站的目标就是让搜索引擎收录,扩大推广面,但是如果你的网站涉及个人隐私或者机密性非公开的网页而需要禁止搜索引擎收录抓取的话,该如何操作呢?比如淘宝网就是禁止搜索引擎收录的一个例子,本文将教你几种...

    百度有价值内容 baidu SEO

    1、搜索引擎为用户展现的每一条搜索结果,都对应着互联网上的一个页面。每一条搜索结果从产生到被搜索引擎展现给用户,都需要经过四个过程:抓取、过滤、建立索引和输出结果。 2、百度蜘蛛会通过搜索引擎系统的计算...

    SEO实操手册DOC

    SEO是通过研究各类搜索引擎如何抓取互联网页面和文件,及研究搜索引擎进行排序的规则,来对网页进行相关的优化,使其有更多的内容被搜索引擎收录,并针对不同的关键字获得搜索引擎的左边更高的排名,从而提高网站访问量,...

    VC++搜索引擎网络爬虫设计与实现

    多线程网络爬虫程序是从指定的Web页面中按照宽度优先算法进行解析、搜索,并把搜索到的每条URL进行抓取、保存并且以URL为新的入口在互联网上进行不断的爬行的自动执行后台程序。 网络爬虫主要应用socket套接字技术...

    嘉兴开拓者SEO入门介绍二

    SEO 是通过研究各类搜索引擎如何抓取互联网页面和文 件,及研究搜索引擎进行排序的规则,来对网页进行相关的优化,使其有更多的内容被搜索引擎收录,并针对不同的关键字获得搜索引擎的左边更高的排名,从而提高网站...

    基于asp.net的搜索引擎的简单实例 C#

    搜索引擎无疑是当今网络上的热门话题之一,网络上的资源五花八门,要在其中寻找我们需要的...简单的说来,搜索引擎就是将互联网上的网页内容抓取下来,分析其中的内容建立索引,用户通过检索索引就能查找到相关网页。

    ASP.NET基于Ajax+Lucene构建搜索引擎的设计和实现(源代码+毕设).rar

    通过搜索引擎从互联网上获取有用信息已经成为人们生活的重要组成部分,Lucene是构建搜索引擎的其中一种方式。搜索引擎系统是在.Net平台上用C#开发的,数据库是MSSQL Server 2000。主要完成的功能有:用爬虫抓取网页...

    基于Lucene4.6+Solr4.6+S2SH实战开发垂直搜索引擎

    对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,...

Global site tag (gtag.js) - Google Analytics