`
li_sir
  • 浏览: 113442 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

在myeclipse配置heritrix1.14.3

    博客分类:
  • java
阅读更多
[/b]最近要做个站内搜索,准备使用heritrix爬行数据,上午照着网上的例子,先使用了个1.14.1版本的,结果发现在module中没add按钮,导致没法改变writer,最后使用1.14.3版本,几经折腾,终于搞成功了。
[b]第一部分,配置heritrix
1,从http://sourceforge.net/网站上搜索heritrix,找到1.14.3版本,下载heritrix-1.14.3-src.zip和heritrix-1.14.3.zip,进行解压。
2在myeclipse中创建一个新的java工程heritrix,单击完成。
3,将heritrix-1.14.3-src下src/java目录中org、com和st目录拷到myeclipse项目工程下src目录下
4,将heritrix-1.14.3-src下src目录下conf和resourses文件夹复制到项目工程(heritrix)的根目录下
5,将heritrix-1.14.3(第二个解压包)下的webapps拷到项目工程的根目录下
6,将heritrix-1.14.3-src下lib目录拷到项目工程根目录下(可以不拷,只要构建classpath路径就行),把里面的所有jar都添加到classpath路径下
7,将heritrix-1.14.3-src下src/conf下的profiles拷到项目工程根目录下
8,修改项目工程下conf下的heritrix.properties文件,具体修改如下(红色标记部分):
heritrix.version = 1.14.3

# Location of the heritrix jobs directory.
heritrix.jobsdir = jobs

# Default commandline startup values.
# Below values are used if unspecified on the command line.
heritrix.cmdline.admin = admin:admin
heritrix.cmdline.port = 8080
heritrix.cmdline.run = false
heritrix.cmdline.nowui = false
heritrix.cmdline.order =
heritrix.cmdline.jmxserver = false
heritrix.cmdline.jmxserver.port = 8081

其中heritrix.version版本号,heritrix.cmdline.admin登录用户名和密码,heritrix.cmdline.port 服务端口号
9,在项目/src/org.archive.crawler包下Heritrix.java上点击右键选运行方式->运行配置->classpath->点击右边的ADVANCED->ADD FOLDERS->选择根目录下的conf->RUN 即可
启动成功,控制台打印
04:49:08.203 EVENT  Starting Jetty/4.2.23
04:49:08.796 EVENT  Started WebApplicationContext[/,Heritrix Console]
04:49:09.140 EVENT  Started SocketListener on 127.0.0.1:8080
04:49:09.140 EVENT  Started org.mortbay.jetty.Server@1f6f0bf
Heritrix version: 1.14.3

运行http://localhost:8080,出现登录页面,输入admin,admin登录成功,标明配置成功。
第二部分 建立Job
登录成功后,进入WEB控制台操作页面,
点击jobs,进入[img]http://dl.iteye.com/upload/picture/pic/65671/07609212-1c7f-34e7-ad4d-a37811a7d8b9.jpg [/img],选择With defaults 项,进入
[img]http://dl.iteye.com/upload/picture/pic/65669/4555ce7d-21fd-3990-9097-51582f4b9be9.jpg [/img],填写相关信息,其中seeds必须是以/结尾
点击Module,主要设置,中remove 掉原有的,add新选择的,然后点击settings,修改[img]http://dl.iteye.com/upload/picture/pic/65677/4a0e13af-f57c-319e-8d5a-b47ba3bcce45.jpg [/img],点击submit job,配置完成,可在Console中启动heritrix,则开始抓取
0
0
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics