`
lisanping
  • 浏览: 141914 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

对Spider网络蜘蛛的理解

阅读更多
Spider,网络蜘蛛,又叫网络机器,它是搜索引擎的主要模块:网络蜘蛛负责抓取网络上的网页数据,再通过分词技术对网页数据建立索引,然后对网页根据一些相关性排序。

基本原理:Spider通过网页上的链接从一个网页(一般是首页)访问到另一个网页,从而实现对整个网络的数据收集。其实是把网状转变成树形去遍历,对树的遍历我们知道有广度优先和深度优先,一般采用广度优先。我们还知道遍历树有前序、中序和后序,不同的搜索引擎遍历顺序各不同。

流程参考:1,建立一个队列,把首页地址放入队列
               2,从队列中取出一个地址,访问改地址,并对返回的数据(一般是HTML文件)进行分析,遇到href(链接)并分析后放入到队列中
              3,重复2,直到队列为空

如果是广度遍历,为了效率我们可以设定一个级别,如果该页面与首页的关系度超过这个级别,则不放入队列。对于页面节点可以采用hashtable数据结构,这样加入一个是否已经被网络蜘蛛爬过的标志变量,防止重复访问。

对链接的分析是个难点,需要较好的算法对其支持。
分享到:
评论

相关推荐

    netspider webspider 网络蜘蛛

    netspider webspider 网络蜘蛛 netspider webspider 网络蜘蛛 netspider webspider 网络蜘蛛

    Spider网络蜘蛛

    xnSpider,网络蜘蛛

    开源webspider网络蜘蛛

    稳定的网络蜘蛛,可以并行抓取多个站点,BS架构控制系统,使用httpsqs 和淘宝的tair可以作为分布式爬虫基础,去重能力强,存储系统为mysql,可以用sphinx等做索引

    网络蜘蛛webspider

    网站下载,webspider is very excellent soft

    商剑分布式网络蜘蛛(网络爬虫-spider)

    商剑分布式网络蜘蛛,性能高速运转,能耗尽全部带宽,可批量采集海量数据的网页,若几百台服务器安装商剑...更是搜索引擎-网络蜘蛛-网络爬虫-spider-网页抓取等技术的必备工具之一。http://www.100spider.cn/wspider.rar

    spider网络蜘蛛抓资源实现

    网络蜘蛛C语言实现,采用广度优先搜索,哈希存储,源代码(附详细步骤说明)以及可执行程序

    开源网络蜘蛛(Spider)一览

    开源网络蜘蛛介绍 开源网络蜘蛛介绍 开源网络蜘蛛介绍 开源网络蜘蛛介绍

    C#-Spider网络爬虫网络机器人网络蜘蛛多线程下载HTTP协议[归类].pdf

    C#-Spider网络爬虫网络机器人网络蜘蛛多线程下载HTTP协议[归类].pdf

    开源webspider网络蜘蛛webspider-1.0.0.6.tar.gz

    稳定的网络蜘蛛,可以并行抓取多个站点,BS架构控制系统,使用httpsqs 和淘宝的tair可以作为分布式爬虫基础,去重能力强,存储系统为mysql,可以用sphinx等做索引

    网络蜘蛛webspider开源系统

    稳定的网络蜘蛛,可以并行抓取多个站点,BS架构控制系统,使用httpsqs 和淘宝的tair可以作为分布式爬虫基础,去重能力强,存储系统为mysql,可以用sphinx等做索引,原始版本

    WebSpider 2.7 汉化版网络蜘蛛

    WebSpider 2.7 汉化版网络蜘蛛原版是一个德文软件。你只要给出一个起始页面或者目录,它就可以帮助你将整个网站或者其中的部分下载到你的硬盘上并保留原始的目录结构以便离线浏览。与许多其它同类工具相比,它具有...

    网络蜘蛛spider crawl

    用Java写的网络蜘蛛,可以抓取网站URL列表,并分词站内外列表。有清晰的注释,和大家一同学习

    用C#2[1].0实现网络蜘蛛WebSpider

    通过程序可以实现网页的抓取,内附源码可供研究!

    spider网络爬虫 c++

    spider网络爬虫 c++ 实现 采用广度搜索算法获取url

    搜索引擎网络蜘蛛

    搜索引擎完整源码自带网络爬虫功能,spider网络爬虫+数据库+界面源代码

    网络蜘蛛(网络爬虫)webspider完整版

    本程序实现了四部分功能: 1.运行程序,输入一个合法的URL,程序自动获取该URL对应网页的内容并把内容保存至本地。 2.运行程序,输入一个合法的URL,程序自动获取该URL对应网页的内容并搜索内容里的Email Addresses...

    网络蜘蛛spider

    利用蜘蛛向已存在的网页发送新闻申请 得到结果 java web 利用Java解析得到的页面 得到想要的信息

    用C#2.0实现网络蜘蛛

    用C#2.0实现网络蜘蛛,介绍的比较详细,主要是框架的设计,里面有 部分代码!

    html5微信小游戏源码 蜘蛛spider aircraft(仅用于参考)

    html5微信小游戏源码 蜘蛛spider aircraft(仅用于参考)html5微信小游戏源码 蜘蛛spider aircraft(仅用于参考)html5微信小游戏源码 蜘蛛spider aircraft(仅用于参考)html5微信小游戏源码 蜘蛛spider aircraft...

    spider网络爬虫源代码

    这是一个spider网络爬虫源代码,用c++完成的,主要是为搜索引擎研究者提供很好的材料,为初学者提供代码。大家可以互相学习学习。

Global site tag (gtag.js) - Google Analytics