1、CrawlMetadata: including identification of crawler/operator
org.archive.modules.CrawlMetadata: Basic crawl metadata, as consulted by functional modules and recorded in ARCs/WARCs.
org.archive.modules.seeds.TextSeedModule
org.archive.modules.deciderules.DecideRuleSequence
org.archive.modules.CandidateChain
org.archive.modules.FetchChain
org.archive.modules.DispositionChain
org.archive.crawler.framework.CrawlController
org.archive.crawler.frontier.BdbFrontier
org.archive.crawler.util.BdbUriUniqFilter
forceRetire
smallBudget
veryPolite
highPrecedence
<!-- OPTIONAL BUT RECOMMENDED BEANS -->
actionDirectory
crawlLimiter
checkpointService
statisticsTracker
loggerModule
sheetOverlaysManager
cookieStorage
serverCache
configPathConfigurer
分享到:
相关推荐
Heritrix3.0教程 使用入门(三) 配置文件crawler-beans.cxml介绍.docx
python库,解压后可用。 资源全名:spidy_web_crawler-1.5.3.1-py3-none-any.whl
python库。 资源全名:monkey.crawler-1.0.0.dev1-py3-none-any.whl
这是配合https://blog.csdn.net/CUFEECR/article/details/104550773的代码和数据,可以用于进行测试和交流学习,不得滥用,违者请自负责任。
资源来自pypi官网。 资源全名:ckan_crawler-0.1.14-py3-none-any.whl
资源来自pypi官网。 资源全名:spidy_web_crawler-1.5.3.1-py3-none-any.whl
app自动化测试工具,能够自动点击ui界面实行测试分析,是移动测试的利器
资源分类:Python库 所属语言:Python 资源全名:lightnovel_crawler-2.28.10-py3-none-any.whl 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059
python库。资源全名:feedsearch-crawler-0.1.16.tar.gz
资源来自pypi官网。 资源全名:noizze-crawler-10.tar.gz
资源来自pypi官网。 资源全名:noizze-crawler-8.tar.gz
资源来自pypi官网。 资源全名:koala-crawler-0.0.1.tar.gz
crawler-order.zip
TK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_crawler.pyTK_...
js-crawler - Node.JS的网络爬虫,支持HTTP和HTTPS
python库。 资源全名:shopee_crawler-0.1.2.tar.gz
资源分类:Python库 所属语言:Python 资源全名:inspire-crawler-0.4.2.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059
资源来自pypi官网。 资源全名:google_news_crawler-0.3.4.tar.gz