一段时间没有碰nutch和solr后,今天重新用nutch抓取了一些数据后,想用solr建立索引,我先java -jar start.jar开启了solr,可以访问http://localhost:8983/solr/。然后我先删除了solr的data文件夹中的所有文件,再对nutch爬取的信息做solrindex时,总是报错:
SolrIndexer: starting at 2012-06-15 21:10:02
Adding 372 documents
java.io.IOException: Job failed!
然后我查了nutch的logs/hadoop.log,看到:
org.apache.solr.common.SolrException: no segments* file found in org.apache.lucene.store.NIOFSDirectory@/home/hadoop/program/apache-solr-3.5.0/example/solr/data/index lockFactory=org.apache.lucene.store.NativeFSLockFactory@20c906: files: [write.lock] org.apache.lucene.index.IndexNotFoundException: no segments* file found in org.apache.lucene.store.NIOFSDirectory@/home/hadoop/program/apache-solr-3.5.0/example/solr/data/index lockFactory=org.apache.lucene.store.NativeFSLockFactory@20c906: files: [write.lock]
是说没有找到data/index,于是按照如下步骤重新来一遍:
1、关闭solr
2、删除solr的data下面的所有文件和文件夹
3、启动solr,这时会自动在solr的data下面建立index和spellchecker文件夹
再执行solrindex就可以了!
分享到:
相关推荐
解决nutch在window系统安装报错问题Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-tom\mapred\staging\tom1698089073\.staging to 0700,替换jar包OK!
主要介绍了javax.net.ssl.SSLException: java.lang.RuntimeException: Could not generate DH keypair 解决方法,有需要的朋友们可以学习下。
然后环境变量设置为NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.5.0(也就是说跟JAVA_HOME是相同的).测试nutch是否安装成功,只需要执行以下命令: $cd D:/Downloads/Soft/nutch-1.0/bin $sh nutch
Nutch 和 Solr (参见 ) 版本 1. 索尔 Solr 用于 8.5.1(或 7.3.1)版本wget http://archive.apache.org/dist/lucene/solr/8.5.1/solr-8.5.1.tgz 2. 阿帕奇纳奇 使用 Apache Nutch 版本 1.17(或 1.16)。 wget ...
apache-nutch-2.3.1-src.tar.gz
这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档,但该文档适合所有Linux系统和目前各版本的nutch。 目 录 介绍 ............................................................... 2 0 集群...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....
windows下搭建nutch会...java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator606301699\.staging to 0700 此jar包是已经注释好 的然后从新编译的jar。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....
nutcher 是 Apache Nutch 的中文教程,在... Nutch流程控制源码详解(bin/crawl中文注释版) Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit 文档截图:
Nutch 是一个开源Java 实现的搜索引擎。这里是它的安装包。
apache-nutch-1.4-bin.tar.gz.part2
Nutch是一款刚刚诞生的完整的开源搜索引擎系统,可以结合数据库进行索引,能快速构建所需系统。Nutch 是基于Lucene的,Lucene为 Nutch 提供了文本索引和搜索的API,所以它使用Lucene作为索引和检索的模块。Nutch的...
apache-nutch-1.4-bin.tar.gz.part1
解决nutch 1.9在cgywin中运行报Injector: java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator139727905\.staging to 0700错误的问题,即修改hadoop-...
nutch配置nutch-default.xml
apache-nutch-1.3 的源码包,需要的可以看下
apache-nutch-1.4-bin.part2
apache-nutch-1.4-bin.part1
nutch1.8最新版2014.6.10part2