`
ancin
  • 浏览: 51936 次
  • 性别: Icon_minigender_1
文章分类
社区版块
存档分类
最新评论

Nutch Nutch插件实现自定义索引字段

阅读更多
1. nutch 基本配置和安装不在赘述。
2.新建自己的plugin 只要实现对应的plugin接口即可。
3.plugin.xml 的具体配置可以参考plugins目录下的标准。
4.一个是schema.xml,在其中的fields标签下加入如下代码:

 <field name="test1" type="date" stored="true" indexed="true"/>  
<field name="test2" type="string" stored="true" indexed="true"/>  


其中的stored表示这个字段的值要存储在lucene的索引中
其中的indexed表示这个字段的值是不是要进行分词查询

还有一个是solrindex-mapping.xml文件,这个文件的作用是把索引过滤器中生成的字段名与schema.xml中的做一个对应关系,要在其fields标签中加入如下代码:

<field dest="test1" source="fetchTime"/>  
<field dest="test2" source="metadata"/>  


这样自定义索引过滤插件就算完成了,记得这里的schema.xml文件是在solr/conf目录下的,修改以后要重启一下,不知道solr支不支持修改了配置文件后不重启就可以生效。


bin/nutch solrindex http://localhost:8080/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/* 
solr的索引文件在solr/data/index中,你可以用luke这个工具加开其索引文件,看一下其中的一些元信息,这个时候你就应该可以看到test1与test2这两个字段了.

5. 查询
http://localhost:8080/solr/admin/
到对应的core中输入关键字查询,index的字段就出现了。test1和test2.

OVER
记录下,免得遗忘。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics