2009年5月5日 星期二 天气晴
第一次写博客,希望自己的这点技术可以帮到新人,也可以让高手提点一下吧。
公司项目要做一个搜索引擎的,以前没有接触过,既然公司有了这样的需求,不会也要迎着头皮上了,2月份接手,中间停了半个月,三月份继续,满打满算的有两个月了吧,从不懂搜索引擎到现在算是有些小成就了吧。
公司交任务时让我用nutch做,其实我也不知道用什么,不过既然说了nutch那就看看吧,网上搜资料,===现在越来越发现,自己离不开网络了,离不开google了,只要有不懂的,不会的,不知道的,google一下,什么资料都有了。===不过网上nutch的资料也不是很多,尤其是做国内的项目,中文分词也是一个比较麻烦的事情,反正是网上搜资料,找分词插件,有IKAnalyzer.jar,庖丁,。。。找了几个,最后还是决定用IKAnlyzer.jar了,在这里要感谢原作者把源代码共享了。
经过不断的实验,测试,最终修改IKAnlyzer源代码,使其可以自定义关键字字典了,也就是可以根据自己所属的行业,将行业关键字作为字典来检索了,由于我作的公安项目的,所以mykeywords里装的都是公安有关的关键字。
修改了nutch的源代码,使其可以在一个定时线程中运行,我定的是每天晚上1点钟抓取网页,也许这样太频繁了,不过,我也不知道要定义多长时间更新索引,就索性定位每天一次了,反正一个bat文件就和tomcat一样开了,就放到那里让他自己运行着就行了。
在网上查nutch资料时发现好多教程,博客,都是千篇一律,就连定义的属性都一样,可没一个都写着原创,,真不可思议,不过我厌恶的是我要查资料,在google里总是出现这样url不同,但内容相同的东东,让我的查询资料有了不少的麻烦,而且查到的也不能运行,总是有些小BUG,不知道发帖的人有没有自己测试,还是直接抄别人的就发到自己的博客上了,,晕死了,,,
这次修改nutch源代码,实现了可以在windows机下直接运行,也不用写那么多脚本了,麻烦,还总是出错,就一个bat就行了。
==================我是分割线=====================
把项目成品发上来,,直接联系我所要也可以,,,本文章在我的csdn博客中也又发表,均为原创,由于资源大小限制,请到我的csdn博客下载资源:http://blog.csdn.net/myhongkongzhen/archive/2009/05/05/4150750.aspx
搜索资源名:
nutch搜索引擎windows版本,运行bat文件即可
http://download.csdn.net/source/1351580修改版part1
http://download.csdn.net/source/1351677 修改版part2
http://download.csdn.net/source/1351721修改版part3
一同下载
如果大家有什么不明白的地方,可以联系我qq511134962
msn:myhongkongzhen@gmail.com
我试验了两台机,可以直接运行,如果下载下来不能直接运行,也请联系我,,一般是没有问题的,,
- 大小: 10.8 KB
- 大小: 26 KB
- 大小: 23 KB
- 大小: 43.2 KB
分享到:
相关推荐
nutch搜索引擎windows版本,运行bat文件即可,包含中文分词技术,采用IKAnalyzer。jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,...
nutch搜索引擎windows版本,运行bat文件即可,包含中文分词技术,采用IKAnalyzer。jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,...
nutch搜索引擎windows版本,运行bat文件即可,包含中文分词技术,采用IKAnalyzer。jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,...
nutch搜索引擎windows版本,运行bat文件即可,包含中文分词技术,采用IKAnalyzer。jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,...
nutch搜索引擎windows版本,运行bat文件即可,包含中文分词技术,采用IKAnalyzer。jar分词插件,并做了自定义关键分词的修改,可根据自己从事的行业关键字做分词,在此感谢原作者,实现每天晚上1点钟运行爬行工作,...
Nutch搜索引擎·Nutch简介及安装(第1期) Nutch搜索引擎·Solr简介及安装(第2期) Nutch搜索引擎·Nutch简单应用(第3期) Nutch搜索引擎·Eclipse开发配置(第4期) Nutch搜索引擎·Nutch浅入分析(第5期)
Lucene+Nutch搜索引擎开发
利用Nutch和IKanalyzer构造中文分词搜索引擎
Lucene nutch 搜索引擎开发 Part1
完整的《Lucene+nutch搜索引擎开发》PDF版一共83.6M,无奈我上传的最高限是80M,所以切成两个。这一个是主文件,还需要下载一个副文件Lucene+nutch搜索引擎开发.z01。解压时直接放到一起,解压这个主文件就行了。
Lucene nutch 搜索引擎 开发 实例 源码 里面包含了Lucene的使用源码 以及nutch使用的源码 还有spider的使用源码 例子的注释比较详细~适合初学者
licene 实例代码 nutch实例代码 lucene+nutch搜索引擎开发实例代码(王学松版)
lucene+nutch搜索引擎开发一书源码第一部分,因为源码太大,所以分两部分。
学习Lucene和Nutch的入门书籍,学习搜索引擎开发值得一看的书籍
《Lucene+nutch搜索引擎开发》书附带的源代码
Nutch是一个优秀的开放源代码的Web搜索引擎。虽然Nutch的页面排序方法比较合理,但是很多情况下仍然不能 满足需要。分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改...
Lucene+nutch搜索引擎开发(全本2-1),本电子书共两部分
Lucene+nutch搜索引擎开发(全本2-2),本电子书共两部分
其中内容均为前段时间...中文搜索引擎技术揭密.doc 九大开源搜索引擎介绍.txt 基于Nutch的搜索引擎技术.pdf 基于开源工具搭建小型搜索引擎.pdf 整合开源工具的小型搜索引擎构建.pdf 用_Hadoop_进行分布式并行编程.doc
作为舆情监测系统的一部分,本文的目标是基于Nutch,同时,结合目前最常用中文分词技术,根据不同的中文分词方法,实验并得出不同分词方法在性能以及使用环境上的优缺点,以此为舆情监测系统选择合适的中文分词方法...