1.在cmd下面进入Heritrix的bin目录下
输入heritrix -a admin:admin,弹出新窗口,新窗口中运行heritrix
2.浏览中输入https://localhost:8443/
得到界面如下
第一个输入框中写入任意Job名称,如s
第二个输入框如果不写则默认存储在bin目录下的jobs文件夹下![](http://dl.iteye.com/upload/attachment/0073/6666/132780e7-fbed-3c9d-b792-84c583408f9e.gif)
3.点击create后:
![](http://dl.iteye.com/upload/attachment/0073/6670/79da105d-5453-3fae-825e-4acf93b0ca34.gif)
4.点击"s"任务:
crawler-beans.cxml是配置本次抓取网页的配置文件
![](http://dl.iteye.com/upload/attachment/0073/6672/ce687133-8443-3d86-8123-a0ae1db9411a.gif)
5.点击edit:
修改配置文件中的内容,点击左上角的"save change"保存本次修改
第一个参数:可以填写你的ip(好像用了路由器的网络就不行了,不知是不是我弄错了?)
第二个参数:填写你的Job名称(和前面填写的一致)
第三个参数:填写描述
![](http://dl.iteye.com/upload/attachment/0073/6674/0d50c475-d8bb-3cb9-8fbc-7c5f3074b42a.gif)
添加要爬取的网页
![](http://dl.iteye.com/upload/attachment/0073/6689/1b22c124-27fe-3a7a-b688-dd985c2433cc.gif)
此处修改最后一个属性:把Version改为3.1.0,后面为你的联系方式(如果不填可能有的网站会拒绝被抓取)
![](http://dl.iteye.com/upload/attachment/0073/6668/f4ba7533-10bf-3188-bdcb-f10a0cbb2cd5.gif)
返回job界面,build->launch->刷新->uppause,会看到Job的状态为Running
![点击查看原始大小图片](http://dl2.iteye.com/upload/attachment/0073/6666/132780e7-fbed-3c9d-b792-84c583408f9e-thumb.gif)
- 大小: 6.5 KB
![点击查看原始大小图片](http://dl2.iteye.com/upload/attachment/0073/6668/f4ba7533-10bf-3188-bdcb-f10a0cbb2cd5-thumb.gif)
- 大小: 11.1 KB
![点击查看原始大小图片](http://dl2.iteye.com/upload/attachment/0073/6670/79da105d-5453-3fae-825e-4acf93b0ca34-thumb.gif)
- 大小: 6.7 KB
![点击查看原始大小图片](http://dl2.iteye.com/upload/attachment/0073/6672/ce687133-8443-3d86-8123-a0ae1db9411a-thumb.gif)
- 大小: 7 KB
![点击查看原始大小图片](http://dl2.iteye.com/upload/attachment/0073/6674/0d50c475-d8bb-3cb9-8fbc-7c5f3074b42a-thumb.gif)
- 大小: 3.3 KB
![点击查看原始大小图片](http://dl2.iteye.com/upload/attachment/0073/6689/1b22c124-27fe-3a7a-b688-dd985c2433cc-thumb.gif)
- 大小: 2.5 KB
分享到:
相关推荐
开源的爬虫软件Heritrix3.1.0,文件为可用的源代码,供下载,经测试,可用。
heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器
包含: heritrix-3.1.0-dist.tar.gz heritrix-3.1.0-src.tar.gz 官方文档下载地址
Heritrix是一个爬虫框架,可加如入一些可互换的组件
Heritrix的使用入门
heritrix3.1.0网络爬虫源码包,包含src和dist
包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。
heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识
Heritrix3.0教程 使用入门(三) 配置文件crawler-beans.cxml介绍.docx
Heritrix使用详解与高级开发应用 Heritrix开发应用详细
heritrix 的详细配置 与 使用资料.里面对heritrix配置有详细的说明!
文档中讲述了如何在heritrix中使用pagerank的算法。根据文章中内容很容易将pagerank算法添加到heritrix中去
heritrix系统使用,本文详细介绍了heritrix系统使用,是个很不错的入门级资源。。。
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
Heritrix 使用手册 全doc 文本
Heritrix用户手册,Heritrix简介与入门 Heritrix配置与开发指南
Heritrix1.4.4安装配置使用手册,有研究索引技术的可以下载看看.
后续的发行H3将是3.0.1补丁版包括小的修改和增强将在2010年上半年,3.2.0将包含以使用简单、持续爬行和大规模爬行为主题的新功能。 H3的文档包括 Heritrix 3.0 and 3.1 User Guide Heritrix 3.x API Guide ...
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400...