1、controller.getFetchChain().process(curi,this);
1.1、org.archive.crawler.prefetch.Preselector,
1.2、org.archive.crawler.prefetch.PreconditionEnforcer,
1.3、org.archive.modules.fetcher.FetchDNS,
//httpclient
1.4、org.archive.modules.fetcher.FetchHTTP,
1.5、org.archive.modules.extractor.ExtractorHTTP,
1.6、org.archive.modules.extractor.ExtractorHTML,
1.7、org.archive.modules.extractor.ExtractorCSS,
1.8、org.archive.modules.extractor.ExtractorJS,
1.9、org.archive.modules.extractor.ExtractorSWF
2、controller.getFrontier().beginDisposition(curi);
BdbFrontier.beginDisposition(curi)
3、controller.getDispositionChain().process(curi,this);
3.1、org.archive.modules.writer.MirrorWriterProcessor
//getCandidateChain().process(prereq, null);//add seeds
3.2、org.archive.crawler.postprocessor.CandidatesProcessor
//run isInScope(curi)
3.2.1、org.archive.crawler.prefetch.CandidateScoper
3.2.2、org.archive.crawler.prefetch.FrontierPreparer
// set schedulingDirective
3.2.2.1、curi.setSchedulingDirective(getSchedulingDirective(curi));
// set canonicalized version
3.2.2.2、curi.setCanonicalString(canonicalize(curi));
// set queue key
3.2.2.3、curi.setClassKey(getClassKey(curi));
// set cost
3.2.2.4、curi.setHolderCost(getCost(curi));
// set URI precedence
3.2.2.5、getUriPrecedencePolicy().uriScheduled(curi);
3.3、org.archive.crawler.postprocessor.DispositionProcessor
分享到:
相关推荐
TK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_...
Wechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zipWechat.Crawler.zip
1、对应Crawler4j的版本应该是3.5。 2、http://code.google.com/p/crawler4j -> Source -> Checkout上用Git Clone失败。 3、采用最笨的方法从 Source -> Browse上把文件一个一个拷贝下来,自己新建的Java项目,包...
js-crawler - Node.JS的网络爬虫,支持HTTP和HTTPS
node-crawler - NodeJS中的爬虫拥有简洁的API
文本处理(text_processing.py)、文本挖掘(text_mining.py)、新闻爬取(crawler_cnstock.py,crawler_jrj.py,crawler_nbd.py,crawler_sina.py,crawler_stcn.py)、Tushare数据提取(crawler_tushare.py) ...
baha-crawler.js 是一個專門用來爬巴哈姆特各版資料的爬蟲模組
ptt-crawler.js 是一個專門用來爬批踢踢(Ptt)各版資料的爬蟲模組
app自动化测试工具,能够自动点击ui界面实行测试分析,是移动测试的利器
simil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_crawler.pysimil_...
JS_Dungeon_Crawler 使用three.js 的JS Dungeon Crawler。
安装环境 Git NodeJS + NPM 安装方法 git clone https://github.com/i-c0112/playground.nodejs.node-crawler.git crawl && cd crawl npm install 执行方法 npm test 输出结果 output/<itemID>.html
资源来自pypi官网。 资源全名:crawler_framework-0.3.2.tar.gz
HTML Crawler written in Java code
Grub是一个分布式Internet爬网程序/索引器,旨在在多平台系统上运行,并与中央服务器/数据库接口。
简单爬虫操作,直达博客——复工复产,利用Python爬虫爬取火车票信息,利用Python 爬虫获取火车票信息
distribute_ crawler-master.zip GushiwenSpider-master-new.rar QQ-Groups-Spider-master.zip SpiderKeeper -master.zip zhihu_ spider-master.zip BaiduyunSpider-master.zip WechatSogou-master.zip wooyun, _...
有关SURT的更多信息: ://crawler.archive.org/articles/user_manual/glossary.html#surt 这主要是archive-commons org.archive.url软件包的python端口。 org.archive.url软件包的原始Java版本在这里: : 该...
==摘要== 在本文中,我们设计并构建了模型,以帮助医生完成诊断罕见疾病的任务。 使用由“疾病名称”和“摘要”组成的罕见疾病先验知识,我们利用“谷歌搜索引擎”收集了 3882 种罕见疾病的额外知识以扩展模型。...
使用PHP脚本编写的一个网络爬虫,用来抓取对应网站的一些基本信息。