`
oycn0755
  • 浏览: 109877 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论
阅读更多

相关技术及概念:

 

lucene: 基入JAVA的开源搜索引擎

Nutch

Heritrix:爬虫框架,是IA的开放源代码,可扩展的,基于整个Web的归档网络爬虫工程

compass:一流的开放源码JAVA搜索引擎框架

Solr:是一个基于Lucene java库的企业级搜索服务器
IKAnalyzer:为lucene定做的中文分词组件

jspider:顾名思义,是一个用Java开发的爬虫。

htmlparser:是解析html页面的,因为lucene自带的html解析器不够健壮,所以用了这个。

 

 

Solr是一个基于Lucene java库的企业级搜索服务器,包含XML/HTTP,JSON API, 高亮查询结果,faceted search(不知道该如何翻译,片段式搜索),缓存,复制还有一个WEB管理界面。Solr运行在Servlet容器中。所以Solr和Lucene的本质区别有以下三点:搜索服务器,企业级和管理。Lucene本质上是搜索库,不是独立的应用程序,而Solr是。Lucene专注于搜索底层的建设,而Solr专注于企业应用。Lucene不负责支撑搜索服务所必须的管理,而Solr负责。所以说,一句话概括Solr: Solr是Lucene面向企业搜索应用的扩展

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics