`
koreyoshi
  • 浏览: 237106 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Heritrix学习及部署(三)

阅读更多
----------------------抓取部署任务 start--------------------
1.选jobs-based on a profile 创建一个新的工作任务

2.到了下面的设置页面
Name of new job:为这次任务去一个名称(抓取保存的文件夹名称的前缀)
Description:
Seeds:此处输入要抓取的地址,例:http://www.address.com

3.设置(上图选Settings)
user-agent:Mozilla/5.0(compatible;heritrix/@这里输入hiritrix的版本号@ +这里输入要抓取的地址) 例:
Mozilla/5.0(compatible;heritrix/@1.14.4@ +http://www.address.com)
from:设置邮箱地址,例:123456@qq.com

4.设置submodules
请严格按照以下方式来设置:
1). frontier
     org.archive.crawler.frontier.BdbFrontier
2). scope
     org.archive.crawler.scope.BroadScope
3). Prefetcher
     org.archive.crawler.prefetch.Preselector
     org.archive.crawler.prefetch.PreconditionEnforcer
4). Fetcher
     org.archive.crawler.fetcher.FetchDNS
     org.archive.crawler.fetcher.FetchHTTP
5). Extractor
     org.archive.crawler.extractor.ExtractorHTTP
     org.archive.crawler.extractor.ExtractorHTML
6). Writer
     可以是MirrorWriter或ARCWriter,一般建议使用MirrorWriter
7). PostProcessor
      org.archive.crawler.postprocessor.CrawlStateUpdater
      org.archive.crawler.postprocessor.LinksScoper
      org.archive.crawler.postprocessor.FrontierScheduler
     (FrontierScheduler可以自行扩展,按书上的方法)
----------------------抓取部署任务 end--------------------


分享到:
评论

相关推荐

    heritrix爬虫安装部署

    介绍了heritrix爬虫安装和部署,以及运行示例和常见错误

    很好的heritrix学习资料

    很好的heritrix学习资料,可以看看

    Heritrix部署直接能运行的项目

    Heritrix主要有三大部件:范围部件,边界部件,处理器链 范围部件:主要按照规则决定将哪个URI入队。 边界部件:跟踪哪个预定的URI将被收集,和已经被收集的URI,选择下一个URI,剔除已经处理过的URI。 处理器链...

    heritrix源码

    heritrix学习源码和资料

    heritrix下载及配置

    详细的说明heritrix下载及配置,图形加文字说明,一看就会

    Heritrix3手册翻译

    Heritrix User Manual https://webarchive.jira.com/wiki/display/Heritrix/Heritrix3 Heritrix3(或简称H3)指Heritrix的3.0发布。 目前官方的Heritrix 3.0.0版已经发布(2009年12月)。 后续的发行H3将是3.0.1...

    heritrix正确完整的配置heritrix正确完整的配置

    heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置

    Heritrix安装详细过程

    按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页

    heritrix-1.14.4爬虫框架及源码

    heritrix-1.14.4爬虫框架及源码

    Heritrix 配置

    Heritrix 配置,部署详解 在Eclipse里配置Heritrix的开发环境 1. 下载heritrix-1.14.3-src.zip和heritrix-1.14.3.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包; 2. 在Eclipse下新建普通Java项目,取名...

    网络爬虫Heritrix1.14.4可直接用

    在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用

    heritrix系统使用.ppt

    heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识

    Heritrix(windows版)

    包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。

    heritrix3种子载入方式

    heritrix3 灵活载入种子的方式进行了详细的介绍,通过学习可以方便的想heritrix3 载入种子!

    heritrix-3.1.0 最新jar包

    heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器

    Heritrix-1.14.4源代码

    Heritrix-1.14.4源代码,已经建成了项目。直接导入(import)Eclipse中,即可以直接运行。方便广大渴望学习Heritrix源代码的同学。

    heritrix1.14.4源码包

    heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...

    Heritrix使用详解与高级开发应用

    Heritrix使用详解与高级开发应用 Heritrix开发应用详细

    heritrix1.14.0jar包

    爬虫时我们会使用heritrix,搭建工程时要导入这些jar包,该jar包是1.14.0版本的。

    heritrix-1.14.2.zip

    heritrix-1.14.2.zip是一个开源项目

Global site tag (gtag.js) - Google Analytics