Gecco爬虫框架的线程和队列模型

xtuhcy

浏览: 139160 次
性别:
来自: 北京

最近访客更多访客>>

zlf3865072

james1110

orangehome

ljmybfq

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

gecco

gecco 线程队列爬虫

简述

爬虫在抓取一个页面后一般有两个任务，一个是解析页面内容，一个是将需要继续抓取的url放入队列继续抓取。因此，当爬取的网页很多的情况下，待抓取url的管理也是爬虫框架需要解决的问题。本文主要说的是gecco爬虫框架的队列和线程模型。

线程和队列模型

gecco的队列模型是两级队列模型。分为初始请求队列和派生请求队列。初始请求队列在循环模式下是一个阻塞式的FIFO队列，在非循环模式下是一个非阻塞式的FIFO队列。派生队列是一个非阻塞的剔重的FIFO队列；
线程首先去初始请求队列按照FIFO原则获取一个请求，如果线程数量大于初始请求队列的数量，多余的线程就会待定新的初始请求入队，因此建议线程数量不要大于初始请求队列的数量；
对于循环模式loop(true)，线程在抓取完成后，会将初始请求重新放入队列；
多线程只对初始请求队列有效，每个线程会有自己的派生请求队列，因此派生请求队列是在单线程下运行的，爬虫将派生请求放入队列继续抓取，直到没有派生请求；
线程在抓取完成派生请求后，会继续向初始请求队列获取初始请求

为什么要用这种模型

Gecco的线程模型很像浏览器，每一个线程对应一个浏览器的Tab。每个浏览器的Tab一次只能看一个页面，因此就有了初始请求队列多线程，派生请求队列单线程的模型。
使用这种队列和线程模型开发人员很好理解，结构简单易懂，效率也能保证。想用多线程提高效率就想办法放入初始请求队列。

如何动态的获取初始请求队列

如果想通过多线程提高爬虫的效率就需要想办法将请求放入初始请求队列。我们可以先通过一个爬虫引擎将待抓取的请求保存起来。另外一个爬虫引擎以第一个爬虫引擎获取的请求作为初始请求开启多线程运行。简单说就是初始请求也是可以抓取出来的，并不一定非要写死。下面是jd采用多线程抓取的一段代码，全部代码已经上传github。

    //先获取分类列表，放入AllSortPipeline.sortRequests
    HttpGetRequest start = new HttpGetRequest("http://www.jd.com/allSort.aspx");
    start.setCharset("GBK");
    GeccoEngine.create()
    .classpath("com.geccocrawler.gecco.demo.jd")
    .start(start)
    .run();


    //分类列表下的商品列表采用3线程抓取
    GeccoEngine.create()
    .classpath("com.geccocrawler.gecco.demo.jd")
    //从上面的GeccoEngine获取初始请求
    .start(AllSortPipeline.sortRequests)
    .thread(5)
    .interval(2000)
    .start();

1
顶

0
踩

分享到：

JAVA类加载机制以及如何自定义类加载器 | Gecco框架典型案例—闲逛APP

2016-06-08 10:29
浏览 2104
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Gecco爬虫框架的线程和队列模型

简述

线程和队列模型

为什么要用这种模型

如何动态的获取初始请求队列

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Gecco爬虫框架的线程和队列模型

简述

线程和队列模型

为什么要用这种模型

如何动态的获取初始请求队列

评论

发表评论

相关推荐

无头浏览器，从phantomjs到webkit4j

教您使用DynamicGecco抓取JD全部商品信息

DynamicGecco实现爬取规则的动态加载

Gecco框架典型案例—闲逛APP

gecco 1.1.0稳定版发布，易用的轻量化爬虫

gecco 1.0.9 发布，易用的轻量化爬虫

java开源爬虫gecco 发布1.0.8版本

java爬虫gecco的稳定性测试

java爬虫gecco监控来了，不再裸奔

java开源爬虫gecco发布版本1.0.6，更灵活的配置downloader

java爬虫gecco支持htmlunit

教您使用java爬虫gecco抓取JD全部商品信息（三）

教您使用java爬虫gecco抓取JD全部商品信息（二）

教您使用java爬虫gecco抓取JD全部商品信息（一）

java开源爬虫gecco详细文档新鲜出炉

Java主题爬虫Gecco发布1.0.4版本

最近访客更多访客>>