`
m635674608
  • 浏览: 4955166 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

爬虫类型

    博客分类:
  • java
 
阅读更多
http://m.chinaz.com/web/2013/0325/297115.shtml


1. 批量型爬虫(Batch Crawler):批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定的目标后,即停止抓取过程。至于具体目标可能各异,也许是设定抓取一定数量的网页即可,也许是设定抓取消耗的时间等。

2.增量型爬虫(Incremental Crawler):增量型爬虫与批量型爬虫不同,会保持持续不断的抓取,对于抓取到的网页,要定期更新,因为互联网的网页处于不断变化中,新增网页、网页被删除或者网页内容更改都很常见,而增量型爬虫需要及时反映这种变化,所以处于持续不断的抓取过程中,不是在抓取新网页,就是在更新已有网页。通用的商业搜索引擎爬虫基本都属此类。

3.垂直型爬虫(Focused Crawter):垂直型爬虫关注特定主题内容或者属于特定行业的网页,比如对于健康网站来说,只需要从互联网页而里找到与健康相关的页面内容即可,其他行业的内容不在考虑范围。垂直型爬虫一个最大的特点和难点就是:如何识别网页内容是否属于指定行业或者主题。从节省系统资源的角度来说,不太可能把所有互联网页面下载下来之后再去筛选,这样浪费资源就太过分了,往往需要爬虫在抓取阶段就能够动态识别某个网址是否与主题相关,并尽量不去抓墩无关页面,以达到节省资源的目的。垂直搜索网站或者垂直行业网站往往需要此种类型的爬虫。

分享到:
评论

相关推荐

    爬虫的实际应用

    爬虫类型:1.静态网页爬虫2.动态网页爬虫3.APP内嵌H54.APP数据接口5.数据接口分析直播安排1.接口逆向:美团外卖接口2.事件监听:拍卖系统3.舆情监测

    C#网络爬虫源码

    有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、...

    C++网络爬虫项目

    WEBCRAWLER 网络爬虫实训项目 1 WEBCRAWLER 网 络 爬 虫 实 训 项 目 文档版本: 1.0.0.1 编写单位: 达内IT培训集团 C++教学研发部 编写人员: 闵卫 定稿日期: 2015年11月20日 星期五WEBCRAWLER 网络爬虫实训项目 ...

    python爬虫:爬取豆瓣阅读出版社数据

    爬虫类型很多,常用的有通用网络爬虫(爬取网站所有内容)和聚焦网络爬虫(针对某一特定需求) 3爬虫原理 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ayGTorSC-1584147798547)...

    Python爬虫框架Scrapy教程 完整版PDF

    它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。 《Python爬虫框架Scrapy教程》主要是针对学习python爬虫的课程,又基础的python爬虫框架scrapy开始,一步步学习...

    C#实现网络爬虫

    有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、...

    完整版Python网络爬虫之Scrapy爬虫框架使用案例教程含源代码共18页.pdf

    它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。 Scratch,是抓取的意思,这个Python的爬虫框架叫Scrapy,大概也是这个意思吧,就叫它:小刮刮吧。 小刮刮是一个为...

    搜索引擎爬虫(支持自定目录)

    搜索引擎爬虫 可以下载到指定的目录 支持多线程

    爬虫面试题(总结篇).docxpython面试

    * 数据库支持的数据类型:不同的数据库支持不同的数据类型,爬虫需要根据实际情况选择合适的数据库。 八、python 基础问题 * python2 和 python3 的区别:python2 和 python3 有着不同的语法和标准库。 * python ...

    利用scrapy框架进行分布式爬虫

    scrapy提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,是一个为爬取网站数据、提取结构性数据而设计的应用程序框架,它可以应用在广泛领域

    爬虫学习。实战:微博各种类型爬虫,唯品会商品,淘宝商品等.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    包含了各个类型网站的爬虫源码集合

    各个比较知名的网站爬虫集合,比如B站,知乎,新浪,B站760万视频信息爬虫,豆瓣用户爬虫,Stackoverflow 100万问答爬虫,spider163 网易云音乐爬虫很多很多的源码合集

    scrapy知网专利爬虫

    对于知网专利,可以包括专利名称、专利号、专利类型、申请人、发明人、申请日期、授权日期、引用次数等关键字段。 然后, 设计爬虫的抓取流程。一般来说,可以分为以下几个步骤: 1. 确定入口URL。可以从知网的专利...

    基于国家企业信用信息公示系统的反爬虫验证码类型.zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    Python爬虫技术的网页数据抓取与分析.pdf

    聚焦网络爬虫主要针对特定的信息进行抓取和分析,而通用网络爬虫则对所有类型的网页信息进行抓取和分析。 网络爬虫的原理 网络爬虫的原理是通过种子URL, 并将其置入需抓取的URL中,然后提取需抓取的URL,在予以...

    scrapy爬虫

    Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。...它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

    利用爬虫把github上所有的项目数据爬下来,包含项目名,语言类型,星数等

    利用爬虫把github上所有的项目数据爬下来,包含项目名,语言类型,星数等

    Python入门及爬虫开发视频教程

    包含环境的安装和配置、变量、数据类型、运算符、流程控制、队列、元组、字典、函数、面向对象(抽象、封装、继承、多态、构造函数等)、python中的包和模块、文件和文件夹模块、正则表达式、python操作sql server、...

    Python爬虫的意义以及如何运用爬虫技术开发代码.pdf

    1. 确定爬取目标:确定需要爬取的网站或数据源,以及需要爬取的数据类型。 2. 分析网站结构:通过分析网站的结构,确定需要爬取的数据所在的位置和方式。 3. 编写爬虫代码:使用Python编写爬虫代码,根据网站结构和...

    python爬虫的基本教程.txt

    变量和数据类型:了解Python中的基本数据类型,如字符串、整数、列表等。 控制流语句:掌握条件语句(if/else)、循环语句(for/while)等。 函数和模块:学习如何定义和使用函数,以及如何使用Python模块来扩展...

Global site tag (gtag.js) - Google Analytics