在其他帖子上看到有Eclipse 配置 Heritrix 1.14.4的文章,这里有很多内容是引用自那里。如
http://extjs2.iteye.com/blog/699751
不过这里对配置有一些进一步的说明。
Eclipse 配置 Heritrix 1.14.4的配置过程如下:
1. 首先从http://sourceforge.net/projects/archive-crawler/ 中下载
heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip(Windows)
2. 在Eclipse 中创建一个java project的工程(可以命名为Heritrix)
3. 将heritrix-1.14.4-src.zip解压中的src/java 中的 com、org、st三个文件夹复制到工程src下。
4. 将heritrix-1.14.4-src.zip解压中src中conf文件夹复制到项目根目录。
5. 将heritrix-1.14.4-src.zip解压中lib文件夹复制到项目根目录。
6. 将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。
7. 将heritrix-1.14.4.zip解压中webapps文件夹复制到项目根目录。
如果文件夹名称不是webapps 需要在Heritrix.java中进行相应的更改。
/**
* @throws IOException
* @return Returns the directory under which reside the WAR files
* we're to load into the servlet container.
*/
public static File getWarsdir()
throws IOException {
return getSubDir("webapps");
}
8. 配置文件进行修改,找到conf下heritrix.properties文件
//设置用户密码
heritrix.cmdline.admin = admin:admin
//设置端口
heritrix.cmdline.port = 8080
9. 对工程进行jar包引入,将lib下面所有的jar包引入工程。
10.Eclipse中导入Heritrix,报错找不到类 sun.net.www.protocol.file.FileURLConnection,sun包是受保护的包,默认只有sun公司的软件才能使用。Eclipse会报错,把对保护使用warning就可以了。Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning
11. 添加配置文件夹。如果你运行Heritrix时,在配置页面中没有可选项,这一步可以解决问题。在工程中找到org.archive.crawler.Heritrix.java右键选运行方式配置,选择Classpath ,选择User Entries -- Advanced ,选择Add Folders,将conf文件夹添加进去。点击Run 开始运行
07:34:47.484 EVENT Starting Jetty/4.2.23
07:34:47.906 EVENT Started WebApplicationContext[/,Heritrix Console]
07:34:48.125 EVENT Started SocketListener on 127.0.0.1:8080
07:34:48.125 EVENT Started org.mortbay.jetty.Server@133f1d7
Heritrix version: @VERSION@
分享到:
相关推荐
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...
Heritrix1.14.4安装配置使用包,其中包括源码包。 具体使用方法可参考:http://blog.csdn.net/baalhuo/article/details/52189425
很多网上的资料讲得比较乱,不够完善,而且都是把源文件放项目根目录下,不符合我们开发者的习惯。其实几步就可以完成了,记住的我们开发的习惯对进行配置,很容易上手
免费,抵制积分下载,免费,抵制积分下载免费,抵制积分下载免费,抵制积分下载免费,抵制积分下载免费,抵制积分下载免费,抵制积分下载免费,抵制积分下载
heritrix1.14.4源码+项目
此文件中包括heritrix-1.14.4.zip和heritrix-1.14.4-src.zip 其中src是源码,已测试能够集成到eclipse中进行二次开发
网络爬虫工具Heritrix1.14.4,包中包含完整的Heritrix程序,并附带着一个抓取网易的扩展接口,很适合刚刚接触Heritrix工具的新手
heritrix-1.14.4-src绝对是你想要的那一种,找了很长时间啊,和你一起分享
NULL 博文链接:https://zengzhaoshuai.iteye.com/blog/985997
heritrix-1.14.4-src.zip
Eclipse下配置Heritrix,具体配置步骤详细介绍。
Heritrix-1.14.4源代码,已经建成了项目。直接导入(import)Eclipse中,即可以直接运行。方便广大渴望学习Heritrix源代码的同学。
heritrix-1.14.4爬虫框架及源码
heritrix-1.14.4-src.tar.gz
Heritrix在Eclipse中的源文件。Heritrix1.14.4;Eclipse:helios。 在Eclipse中新建一个javaproject工程,将下载下来的。另附说明
近期需要使用heritrix-1.14.4,配了半天才配好,这个是控制台执行版本. 注意:解压到相关目录,之后配置系统环境变量"HERITRIX_HOME"到该解压目录(Java环境已经配置好)。 使用控制台命令启动 : heritrix --admin=...
Heritrix是用来爬取网页的开源工具包,本文档描述了如何在Eclipse环境下配置heritrix