org.archive.crawler.framework.ToeThread - shareHua - ITeye博客

`

shareHua

浏览: 13849 次
性别:
来自: 群：57917725

最近访客更多访客>>

woodding2008

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

org.archive.crawler.framework.ToeThread

博客分类：

heritrix3

阅读更多

1、controller.getFetchChain().process(curi,this);
1.1、org.archive.crawler.prefetch.Preselector,
1.2、org.archive.crawler.prefetch.PreconditionEnforcer,
1.3、org.archive.modules.fetcher.FetchDNS,
//httpclient
1.4、org.archive.modules.fetcher.FetchHTTP,
1.5、org.archive.modules.extractor.ExtractorHTTP,
1.6、org.archive.modules.extractor.ExtractorHTML,
1.7、org.archive.modules.extractor.ExtractorCSS,
1.8、org.archive.modules.extractor.ExtractorJS,
1.9、org.archive.modules.extractor.ExtractorSWF

2、controller.getFrontier().beginDisposition(curi);
BdbFrontier.beginDisposition(curi)

3、controller.getDispositionChain().process(curi,this);
3.1、org.archive.modules.writer.MirrorWriterProcessor
//getCandidateChain().process(prereq, null);//add seeds
3.2、org.archive.crawler.postprocessor.CandidatesProcessor
     //run isInScope(curi)
     3.2.1、org.archive.crawler.prefetch.CandidateScoper
     3.2.2、org.archive.crawler.prefetch.FrontierPreparer
        // set schedulingDirective
        3.2.2.1、curi.setSchedulingDirective(getSchedulingDirective(curi));
        // set canonicalized version
        3.2.2.2、curi.setCanonicalString(canonicalize(curi));
        // set queue key
        3.2.2.3、curi.setClassKey(getClassKey(curi));
        // set cost
        3.2.2.4、curi.setHolderCost(getCost(curi));
        // set URI precedence
        3.2.2.5、getUriPrecedencePolicy().uriScheduled(curi);
3.3、org.archive.crawler.postprocessor.DispositionProcessor

分享到：

org.archive.modules.extractor.Hop | org.archive.modules.deciderules.DecideRu ...

2012-12-17 23:15
浏览 706
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

TK-crawler.pyTK-crawler.pyTK-crawler.py: TK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_...

Wechat.Crawler.zip: Wechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zip

Crawler4j-3.5: 1、对应Crawler4j的版本应该是3.5。 2、http://code.google.com/p/crawler4j -> Source -> Checkout上用Git Clone失败。 3、采用最笨的方法从 Source -> Browse上把文件一个一个拷贝下来，自己新建的Java项目，包...

Node.js-js-crawler-Node.JS的网络爬虫支持HTTP和HTTPS: js-crawler - Node.JS的网络爬虫，支持HTTP和HTTPS

Node.js-node-crawler-NodeJS中的爬虫拥有简洁的API: node-crawler - NodeJS中的爬虫拥有简洁的API

Python实现上市公司新闻文本分析与分类预测源码+使用说明，并判断与该新闻相关的股票有哪些，是利好还是利空: 文本处理(text_processing.py)、文本挖掘（text_mining.py）、新闻爬取（crawler_cnstock.py，crawler_jrj.py，crawler_nbd.py，crawler_sina.py，crawler_stcn.py）、Tushare数据提取（crawler_tushare.py） ...

Node.js-baha-crawler.js是一個專門用來爬巴哈姆特各版資料的爬蟲模組: baha-crawler.js 是一個專門用來爬巴哈姆特各版資料的爬蟲模組

Node.js-ptt-crawler.js是一個專門用來爬批踢踢(Ptt)各版資料的爬蟲模組: ptt-crawler.js 是一個專門用來爬批踢踢(Ptt)各版資料的爬蟲模組

appcrawler-2.4.0-jar-with-dependencies.jar: app自动化测试工具，能够自动点击ui界面实行测试分析，是移动测试的利器

simil-crawler.py: simil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_...

JS_Dungeon_Crawler:使用 Three.js 的 JS Dungeon Crawler: JS_Dungeon_Crawler 使用three.js 的JS Dungeon Crawler。

playground.nodejs.node-crawler:开心地抓取网页: 安装环境 Git NodeJS + NPM 安装方法 git clone https://github.com/i-c0112/playground.nodejs.node-crawler.git crawl && cd crawl npm install 执行方法 npm test 输出结果 output/<itemID>.html

PyPI 官网下载 | crawler_framework-0.3.2.tar.gz: 资源来自pypi官网。资源全名：crawler_framework-0.3.2.tar.gz

html-crawler.zip_in_org.jsoup.Jsoup: HTML Crawler written in Java code

grub.org - Distributed Internet Crawler-开源: Grub是一个分布式Internet爬网程序/索引器，旨在在多平台系统上运行，并与中央服务器/数据库接口。

crawler_tutorial.ipynb: 简单爬虫操作，直达博客——复工复产，利用Python爬虫爬取火车票信息，利用Python 爬虫获取火车票信息

26个爬虫代码实例源码大全（纯源码不带视频的实例）.rar: distribute_ crawler-master.zip GushiwenSpider-master-new.rar QQ-Groups-Spider-master.zip SpiderKeeper -master.zip zhihu_ spider-master.zip BaiduyunSpider-master.zip WechatSogou-master.zip wooyun, _...

surt:排序友好的URI重新排序转换（SURT）python程序包: 有关SURT的更多信息： ://crawler.archive.org/articles/user_manual/glossary.html#surt 这主要是archive-commons org.archive.url软件包的python端口。 org.archive.url软件包的原始Java版本在这里： : 该...

disease-crawler:从 code.google.compdisease-crawler 自动导出: ==摘要== 在本文中，我们设计并构建了模型，以帮助医生完成诊断罕见疾病的任务。使用由“疾病名称”和“摘要”组成的罕见疾病先验知识，我们利用“谷歌搜索引擎”收集了 3882 种罕见疾病的额外知识以扩展模型。...

PHPCrawl.rar_PHP CRAWLER_PHPCrawl_crawler_web crawler in PHP_爬虫: 使用PHP脚本编写的一个网络爬虫，用来抓取对应网站的一些基本信息。

Global site tag (gtag.js) - Google Analytics