`
xiangxingchina
  • 浏览: 510830 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

运行heritrix1.14.4报错 thread-10 org.archive.util.ArchiveUtils.() TLD list unavailab

阅读更多

运行heritrix1.14.4报错 thread-10 org.archive.util.ArchiveUtils.<clinit>() TLD list unavailable

最近需要用到heritrix做一个需求,下来研究了一下。

根据网上的文章在eclipse中启动报了下面的错误

10:02:59.968 EVENT  Starting Jetty/4.2.23
10:03:00.765 EVENT  Started WebApplicationContext[/,Heritrix Console]
10:03:00.859 EVENT  The scratchDir you specified: F:\project3.5\heritrix\target\jsp-compiled-development is unusable.
10:03:01.000 EVENT  Started SocketListener on 127.0.0.1:8088
10:03:01.000 EVENT  Started
org.mortbay.jetty.Server@1f6ba0f
2010-07-10 10:03:01.250 严重 thread-10 org.archive.util.ArchiveUtils.<clinit>() TLD list unavailable
java.lang.NullPointerException
 at java.io.Reader.<init>(Unknown Source)
 at java.io.InputStreamReader.<init>(Unknown Source)
 at org.archive.util.ArchiveUtils.<clinit>(ArchiveUtils.java:759)
 at org.archive.crawler.settings.CrawlSettingsSAXHandler$DateHandler.endElement(CrawlSettingsSAXHandler.java:385)
 at org.archive.crawler.settings.CrawlSettingsSAXHandler.endElement(CrawlSettingsSAXHandler.java:248)
 at com.sun.org.apache.xerces.internal.parsers.AbstractSAXParser.endElement(Unknown Source)
 at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl.scanEndElement(Unknown Source)
 at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl$FragmentContentDispatcher.dispatch(Unknown Source)
 at com.sun.org.apache.xerces.internal.impl.XMLDocumentFragmentScannerImpl.scanDocument(Unknown Source)
 at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(Unknown Source)
 at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(Unknown Source)
 at com.sun.org.apache.xerces.internal.parsers.XMLParser.parse(Unknown Source)
 at com.sun.org.apache.xerces.internal.parsers.AbstractSAXParser.parse(Unknown Source)
 at org.archive.crawler.settings.XMLSettingsHandler.readSettingsObject(XMLSettingsHandler.java:298)
 at org.archive.crawler.settings.XMLSettingsHandler.readSettingsObject(XMLSettingsHandler.java:339)
 at org.archive.crawler.settings.SettingsHandler.initialize(SettingsHandler.java:130)
 at org.archive.crawler.settings.XMLSettingsHandler.initialize(XMLSettingsHandler.java:124)
 at org.archive.crawler.admin.CrawlJobHandler.loadProfile(CrawlJobHandler.java:385)
 at org.archive.crawler.admin.CrawlJobHandler.loadProfiles(CrawlJobHandler.java:348)
 at org.archive.crawler.admin.CrawlJobHandler.<init>(CrawlJobHandler.java:217)
 at org.archive.crawler.admin.CrawlJobHandler.<init>(CrawlJobHandler.java:186)
 at org.archive.crawler.Heritrix.<init>(Heritrix.java:405)
 at org.archive.crawler.Heritrix.<init>(Heritrix.java:393)
 at org.archive.crawler.Heritrix.doCmdLineArgs(Heritrix.java:718)
 at org.archive.crawler.Heritrix.main(Heritrix.java:556)

虽然报错,但是可以进入登陆页面,UI已经正常启动。

这个东西没有用过,前一天刚刚使用cmd命令运行成功,今天在eclipse中建工程又碰到新问题。

一步一坎啊。

昨天运行的时候后台是没有报这个错误的,但是今天在eclipse下配置文件位置不对也报过NullPointerException的错误。

因此分析还是少了某个文件。

经过几个小时调试,发现是少了一个名字为tlds-alpha-by-domain.txt的文件。

发布包中对应位置是有该文件的,具体位置为org\archive\util,在该路径下补充该文件就不报错了。

至于该文件的用途还不清楚,有高手可以指点一下。

该文件可以在源文件包src\resources路径下找到。

分享到:
评论

相关推荐

    heritrix-3.4.0-SNAPSHOT-src.zip

    Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本,配合heritrix-3.4.0-SNAPSHOT-dist.zip使用

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    此文件中包括heritrix-1.14.4.zip和heritrix-1.14.4-src.zip 其中src是源码,已测试能够集成到eclipse中进行二次开发

    网络爬虫Heritrix1.14.4可直接用

    在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用

    heritrix1.14.4源码包

    heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...

    heritrix-1.14.4-src

    heritrix-1.14.4-src绝对是你想要的那一种,找了很长时间啊,和你一起分享

    heritrix1.14.4(内含src)

    免费,抵制积分下载,免费,抵制积分下载免费,抵制积分下载免费,抵制积分下载免费,抵制积分下载免费,抵制积分下载免费,抵制积分下载免费,抵制积分下载

    heritrix-1.14.4

    heritrix-1.14.4-src.zip

    Heritrix1.14.4(含源码包)

    Heritrix1.14.4安装配置使用包,其中包括源码包。 具体使用方法可参考:http://blog.csdn.net/baalhuo/article/details/52189425

    heritrix-1.14.4 for linux

    heritrix-1.14.4-src.tar.gz

    heritrix-1.14.4-docs.rar

    因为文件大了点 把docs取了出来单独上传 需要的下载一下

    heritrix-3.4.0-SNAPSHOT-dist.zip

    Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本

    Heritrix,Mohr-et-al-2004.pdf,其作者谈其优劣

    Heritrix,Mohr-et-al-2004.pdf,其作者谈其优劣 Heritrix Gordon Mohr-et-al-2004.pdf heritrix学习必读,谢谢

    heritrix1.14.4源码+项目

    heritrix1.14.4源码+项目

    java-网络爬虫.zip

    用java写的网络爬虫,新手可以学习学习。内置myeclipse工程,还有一个解说文本文件

    heritrix-1.12.1-src.zip与heritrix 配置文档

    heritrix-1.12.1-src.zip与heritrix 配置文档

    Heritrix-3.1.0(linux版)

    包含: heritrix-3.1.0-dist.tar.gz heritrix-3.1.0-src.tar.gz 官方文档下载地址

    web爬虫Heritrix.zip

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    这是我在官方网站下载的,里面还有在myeclipse安装方法及常见问题解决

    Heritrix源码分析11-15.pdf

    自己学习网络爬虫时知识所学习的资料,希望可以和大家分享,并能对大家有所帮助,希望能共同进步。

    从snapshot启动Linux进程snappy-start.zip

    snappy-start 是从 snapshot 启动 Linux 进程的工具。它允许程序的多个实例从 snapshot 快速启动。特性:更快的启动,当程序在启动时正在做大量的计算。节省内存,因为程序启动过程写入的内存页将在实例之间共享。...

Global site tag (gtag.js) - Google Analytics