nutch建立索引成功,通过lucene直接搜索索引文件可以搜索到相关结果,但是通过nutch搜索不到结果
解决方案:
<property>
<name>searcher.dir</name>
<value>crawl</value>
</property>
在nutch-default.xml中配置searcher.dir的默认路径为crawl,nutch会到crawl这个路径里面搜索,而你的索引文件跟本不在这个目录下面,所有搜索不到结果.
你可以在nutch-site.xml中加入searcher.dir这个属性的配置,value为nutch的索引文件的上一级目录.
比如:
我的索引文件为F:/cygwin/home/nutch-1.0/crawled/index,
配置为F:/cygwin/home/nutch-1.0/crawled
(注:我使用相对路径时也没搜到结果,后用绝对路径后可以了,推荐先用一下绝对路径。)
然后从nutch-default.xml中把包括名为search.dir的属性复制到
nutch-site.xml,修改<value></value>之间的内容,如下:
<property>
<name>searcher.dir</name>
<value>F:/cygwin/home/nutch-1.0/crawled</value>
<description>
Path to root of crawl. This directory is searched (in
order) for either the file search-servers.txt, containing a list of
distributed search servers, or the directory "index" containing
merged indexes, or the directory "segments" containing segment
indexes.
</description>
</property>
好,切入正题:
首先保证你说的抓取是正确的抓取,那样会在抓取目录下生成五个目录,分别是crawldb,index,indexes,linkdb,segments。
注:有两个地方存在nutch-site.xml文件,因为不了解,所以我把两个nutch-site.xml文件都作了修改。分别为~/nutch-
1.0conf/nutch-site.xml和~tomcat/webapps/ROOT/WEB-INF/classes/nutch-
site.xml
摘自我在sogou上的回答。
分享到:
相关推荐
介绍 Nutch 的背景知识,包括 Nutch 架构,爬虫和...然后示例说明 Nutch 爬虫如何抓取目标网站内容,产生片断和索引,并将结果存放在集群的2个节点上。最后使用 Nutch 检索器提供的 API 开发应用,为用户提供搜索接口。
Nutch 读取搜索结果目录统计数据、提取链接结构信
Nutch Htmlunit Plugin 重要说明: 当前项目基于Nutch 1.X系列已停止更新维护,转向Nutch 2.x系列版本的新项目:http://www.oschina.net/p/nutch-ajax 项目简介 基于Apache Nutch 1.8和Htmlunit...
课程背景:Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,最大的区别在于2.X对...
Nutch1.7二次开发培训讲义 之 腾讯微博抓取分析
nutch解决搜索结果高亮和网页快照链接无效及网页变形
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
虽然Nutch的页面排序方法比较合理,但是很多情况下仍然不能 满足需要。分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改Nutch 排序的方法,对每种方法的实现进行了阐述...
解决Nutch摘要问题,跟nutch摘要相关的一些问题
资源中urls.txt是我nutch单步执行过程的种子文件,里面的ppt主要讲解nutch单步执行流程,并获取每次单步执行的结果文件,对文件进行分析,同时ppt还讲解了nutch的插件的基础知识,不是很详细,但是可以作为参考。...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....
其中内容均为前段时间研究开源搜索引擎时搜集参考的资料,非常齐全包含的内容有: Computing PageRank Using Hadoop.ppt Google的秘密PageRank彻底解说中文版.doc JAVA_Lucene_in_Action教程完整版.doc Java开源搜索...
nutch平台的详细搭建过程 配置环境 抓取 建立索引 查看结果
nutch是一个已经实现了所有功能的搜索引擎,提供给大家的就是nutch 的api,用nutch 开发必不可少的帮手。网上很少能搜到。
Nutch搜索引擎数据获取1、 基本原理2、网络蜘蛛3、局域网抓取
Nutch搜索引擎·Nutch简单应用(第3期) 1.1 Nutch 命令详解 1.2 Nutch 简单应用
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
图解搜索引擎nutch配置,自己制作的教程。因为在网上搜索到的教程很多都是粗略,对于初学nutch搜索引擎很难配置好,所以自己亲自打造了一篇图解教程!希望你能够配置成功!
1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析
Nutch搜索引擎·Nutch简介及安装(第1期) Nutch搜索引擎·Solr简介及安装(第2期) Nutch搜索引擎·Nutch简单应用(第3期) Nutch搜索引擎·Eclipse开发配置(第4期) Nutch搜索引擎·Nutch浅入分析(第5期)