heritrix的启动与设置收藏
新一篇: EPC901安装XP | 旧一篇: Heritrix使用笔记——Heritrix运行脚本
转自http://hi.baidu.com/syimiaoa/blog/item/999e29f7934cdd26720eec84.html,很好的介绍了heritrix的启动与设置
初步学习了Heritrix,这个网络小爬虫,以下是对其运行和任务设置的学习总结.
1.关于安装:
我使用的版本号为1.12.1,官网地址为 http://crawler.archive.org/。常规安装,即解压到相关目录,我选择的是D:\heritrix(之前确定Java环境已经配置好)。
2.配置管理帐户:
(1) 将 D:\heritrix\heritrix-1.12.1.jar 解压,拷贝profiles\default 下的两个文件order.xml和seeds.txt复制到 \heritrix\conf 目录下,
(2) 拷贝 D:\heritrix\conf\jmxremote.password.template 到 D:\heritrix下,并且重命名为"jmxremote.password"。之后编辑该文件内容关于密码的部分:
monitorRole @PASSWORD@ ==> monitorRole admin
controlRole @PASSWORD@ ==> controlRole admin
修改完毕之后,保存该文件。并且需要将该文件的属性改为“只读”。
(3) 打开 \heritrix\conf 下的heritrix.properties文件,在“heritrix.cmdline.admin = ” 项的后面加入你所要设定的管理员账户和密码,用“:”分割,如:
heritrix.cmdline.admin = admin:admin
我在此处将管理员账户和密码都设置为admin.
3.运行Heritrix:
[1] 将cmd定位到 D:\heritrix\bin,执行 "heritrix --admin=admin:admin" 命令,即可启动 heritrix,
有一点需要注意,heritrix默认使用8080端口,要保证系统端口没有冲突。之后便可以访问 http://127.0.0.1:8080 或http://localhost:8080 使用 heritrix 提供的WUI,即Web管理端。并且使用"admin/admin"登录。
[2]选Jobs选项,设置抓取页为http://news.sohu.com 具体设置如图:
图1: 处理链设置
设置方法很简单,就是在下拉列表中选择好,点击Add添加即可。之后的设置可参考图中内容,要注意每一项处理器设置都是有顺序关系的。每一项的名称其实都揭示了其作用.
[3] 选择Jobs菜单的“Settings”项进入运行参数设置页面 . 进入运行参数设置页面后,有很多可以设定的参数,对于需要了解详情的设置,请点击设置框左边的“?”号,可看到弹出的帮助信息。最简单的可只更改 “HTTP-Header”项中的内容,更改其属性值“user-agent”和“from”。修改内容如图2:
图2 运行参数设置中的“HTTP-Header”项
图2中红色框内是修改前后对照。其中“user-agent”中的“PROJECT_URL_HERE”对应自己的完整URL地址,“from”中设置自己的合法email地址,这两项设置其实可随便设置,只要格式规则合法即可。图中的@VERSION@设置为1.12.1,即1.12.1版本的。
[4] 设置完成后,点击如图3所示任务提交菜单项,即完成全部任务的建立工作。
设置完成后,点击如图9所示任务提交菜单项,即完成全部任务的建立工作。
图3 任务提交菜单
[5]运行任务
通过提交设定好的任务,页面返回到Jobs的主菜单,可看到如图4画面:
图4 任务已经建立
在图4中,我们可以看到红色字说明一个任务已经被建立,在页面下方有任务的一些信息和设置菜单。此时点击左上角的“Console”菜单,返回主页面,看到如图5:
图4 等待开始的任务
按照图5中的红色说明,点击“Start”可以开始任务。如图5:
图5已经激活的任务
点击左下角红色框标出的“Refresh”选项,可以刷新任务状态。图6是刚刚开始的任务状态:
图6 刚刚开始的任务
在图6中,我们可以看到,要暂停当前任务可点击任务状态旁的选项“Pause”。
抓取页面会存放在我的工作目录下的mirror文件夹内,如图7:
图7抓取后的网站和文件保存结构
图7中可以看到,每一个站点的URL地址即为保存的目录名称,
其文件和对应的服务目录结构被保存到此目录下面。此处看出,Heritrix更像一个强大的网站下载工具。
至此,Heritrix的简单抓取任务设置描述完毕,呵呵。。。
补充:为了在抓取时不保存其他无关页面,可扩展FrontierScheduler来抓取特定的内容。
打包成新的heritrix-1.12.1.jar 文件,运行cmd执行此操作
方法一:将多个文件打包
D:\heritrix\heritrix-1.12.1>jar cvf heritrix-1.12.1.jar com modules my org profi
les selftest st heritrix.properties jndi.properties arcMetaheaderBody.xsl warcin
fobody.xsl
方法二:将整个文件目录打包
D:\heritrix\heritrix-1.12.1>jar cvf heritrix-1.12.1.jar heritrix-1.12.1
分享到:
相关推荐
Heritrix User Manual https://webarchive.jira.com/wiki/display/Heritrix/Heritrix3 Heritrix3(或简称H3)指...3.X移到新的模型,在单一作业目录下的单一作业可以原地再次启动(每次启动不在需要生成新的作业目录)。
Heritrix使用详解与高级开发应用 Heritrix开发应用详细
Heritrix的安装与配置方法:文档中详细介绍了Heritrix的安装与配置,可以按照里面的方法自己安装配置。
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...
Heritrix用户手册,Heritrix简介与入门 Heritrix配置与开发指南
Heritrix工程 eclipse可用无需搭环境,放eclipse中启动就可以访问爬虫页面了·
heritrix 的详细配置 与 使用资料.里面对heritrix配置有详细的说明!
heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识
heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器
包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。
Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400...
heritrix学习源码和资料
基于Heritrix的主题网络爬虫设计与实现,论文
有关Heritrix运行的配置问题,给初学者参考
heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...
爬虫时我们会使用heritrix,搭建工程时要导入这些jar包,该jar包是1.14.0版本的。
heritrix-1.14.2.zip是一个开源项目