`
文章列表
1.1 什么是nutch nutch 就一个开源的java 实现的搜索引擎,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和web爬虫。现在的nutch 的发展趋势是网络爬虫,全文搜索是用lucene的内核,nutch 是lucene的一个子项目,apache 又从nutch项目里面产生了hadoop,tika,gora等其他子项目,其实就是对一些公共模块的封装,重用,然后起个名字,实现松耦合。1.2 学nutch的原因     1,透明性:nutch是开放源代码的,排序算法是公平,透明,没有商业因素,如百度竞价排名等。】      2,理解搜索引擎:我们没有google的源代码, ...
Global site tag (gtag.js) - Google Analytics