1. nutch 基本配置和安装不在赘述。
2.新建自己的plugin 只要实现对应的plugin接口即可。
3.plugin.xml 的具体配置可以参考plugins目录下的标准。
4.一个是schema.xml,在其中的fields标签下加入如下代码:
<field name="test1" type="date" stored="true" indexed="true"/>
<field name="test2" type="string" stored="true" indexed="true"/>
其中的stored表示这个字段的值要存储在lucene的索引中
其中的indexed表示这个字段的值是不是要进行分词查询
还有一个是solrindex-mapping.xml文件,这个文件的作用是把索引过滤器中生成的字段名与schema.xml中的做一个对应关系,要在其fields标签中加入如下代码:
<field dest="test1" source="fetchTime"/>
<field dest="test2" source="metadata"/>
这样自定义索引过滤插件就算完成了,记得这里的schema.xml文件是在solr/conf目录下的,修改以后要重启一下,不知道solr支不支持修改了配置文件后不重启就可以生效。
bin/nutch solrindex http://localhost:8080/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*
solr的索引文件在solr/data/index中,你可以用luke这个工具加开其索引文件,看一下其中的一些元信息,这个时候你就应该可以看到test1与test2这两个字段了.
5. 查询
http://localhost:8080/solr/admin/
到对应的core中输入关键字查询,index的字段就出现了。test1和test2.
OVER
记录下,免得遗忘。
分享到:
相关推荐
Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的...下面介绍Nutch中文分词插件的实现与配置。
nutch插件,安装nutch插件,mysql与nutch
nutch插件机制 实例讲解 轻松学习 扩展nutch功能 随意添加扩展
Nutch使用总结 信息检索 建立索引 一个让入学者自己搭建搜索引擎的东西
nutch对指定字段进行查询的程序 和 在搜索的时候加不加双引号的区别
nutch分布式搜索索引热替换程序,当使用nutch分布式搜索的时候,通过修改nutch来实现重建索引和分布式搜索分隔开,相互不影响
基于Apache Nutch 1.8和Htmlunit组件,实现对于AJAX加载类型页面的完整页面内容抓取解析。 According to the implementation of Apache Nutch 1.8, we can't get dynamic ...
Nutch 高级 插件是开发 多Nutch内部的流程有很好的解释和说明
Nutch的插件机制...详细讲解了nutch的api 很有帮助
基于Nutch的中文分词插件实现,张文龙,刘一伟,中文分词是中文垂直搜索引擎中的一个关键技术,分词的好坏直接影响提取文本的精确度。Nutch是一个开源的Web搜索引擎,它为英文用户�
Nutch开源搜索引擎增量索引recrawl的终极解决办法续
关于nutch的搜索引擎的中文分词的研究,包括了编写与实现
Nutch是一个优秀的开放源代码的Web搜索引擎。虽然Nutch的页面排序方法比较合理,但是很多情况下仍然不能 满足需要。分析开源搜索引擎Nutch...排序的方法,对每种方法的实现进行了阐述,最后对这些方法的特点进行了比较
Nutch的插件机制分析,了解Nutch的插件机制
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
资源中urls.txt是我nutch单步执行过程的种子文件,里面的ppt主要讲解nutch单步执行流程,并获取每次单步执行的结果文件,对文件进行分析,同时ppt还讲解了nutch的插件的基础知识,不是很详细,但是可以作为参考。...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....
基于Nutch技术的主题搜索引擎实现_李东海.caj
Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对...