基于 Lucene 的8 个开源搜索引擎
摘要: Lucene是一种功能强大且被广泛使用的搜索引擎,以下列出8种基于Lucene的搜索引擎,你可以想象他们有多么强大...Apache SolrSolr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到 ...
Lucene是一种功能强大且被广泛使用的搜索引擎,以下列出8种基于Lucene的搜索引擎,你可以想象他们有多么强大...
Apache Solr Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提 供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。http://lucene.apache.org/solr/
Elastic Search ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。http://www.elasticsearch.com
Index Tank IndexTank, 一套基于Java的索引-实时全文搜索引擎实现,Includes features like variables (boosts), categories (facets), faceted search, snippeting, custom scoring functions, suggest, and autocomplete。IndexTank的设计分离了相关性标记和文档内容,因为相关性标记的生命周期和文档本身是不一样的,特别是在用户创建的内容的情况下,例如 分享次数,Like按钮,+1按钮等等。https://github.com/linkedin/indextank-engine
Katta
Katta是一个可扩展的、故障容错的、分布式实施访问的数据存储。
Katta可用于大量、重复、索引的碎片,以满足高负荷和巨大的数据集。这些索引可以是不同的类型。当前该实现在Lucene和Hadoop mapfiles
http://katta.sourceforge.net/
Bobo Search
bobo-browse 是一用java写的lucene扩展组件,通过它可以很方便在lucene上实现分组统计功能。
比如说搜索电脑,可以得到cpu是intel的有几条命中记录,cpu是amd的有几条命中记录。
https://github.com/javasoze/bobo
Compass
Compass是一个强大的,事务的,高性能的对象/搜索引擎映射(OSEM:object/search engine mapping)与一个Java持久层框架.Compass包括:
* 搜索引擎抽象层(使用Lucene搜索引荐), * OSEM (Object/Search Engine Mapping) 支持, * 事务管理, * 类似于Google的简单关键字查询语言, * 可扩展与模块化的框架, * 简单的API.
http://www.compass-project.org/
Summa
Summa是一种由java开发的,快速模块化和可扩展的搜索引擎. Summa 有如下特点:
-
综合搜索. Summa 能够同时访问许多不同的数据和资料来源,并以一个统一的接口公开
-
模块化设计.Summa 搜索系统由一系列独立模块组成, 这样使得它更简单容易地被维护和升级
-
可扩展性. Summa 支持分布式架构而且能够按比例的扩大或缩小以处理任何数量的数据
-
开放标准. Summa 基于现代web技术与标准, 不包含任何私有代码或原理.
-
故障容错. 如果某单一数据资源或服务出错, Summa 将会继续运行而不受出错部分限制.
http://wiki.statsbiblioteket.dk/summa/
Constellio Constellio 是一个开源的搜索解决方案,适合企业级的搜索。基于 Apache Solr 项目构建,使用 Lucene 做为搜索引擎,并提供基于 Web 的网页和文档的检索。可选择文档类型、文件夹以及文件名进行检索。http://constellio.com/
via findbestopensource
|
转自:http://www.lupaworld.com/article-215678-1.html
七个开源搜索引擎:http://www.oschina.net/news/39289/7-search-engines-for-big-data
分享到:
相关推荐
其中内容均为前段时间研究开源搜索引擎时搜集参考的资料,非常齐全包含的内容有: Computing PageRank Using Hadoop.ppt Google的秘密PageRank彻底解说中文版.doc JAVA_Lucene_in_Action教程完整版.doc Java开源搜索...
我的毕业论文基于开源LUCENE的新闻搜索引擎的实现
基于Lucene.Net垂直搜索引擎完全开源版.rar
探讨了Lucene和Heritrix在构建垂直搜索引擎中的应用。 1、垂直搜索引擎的基本介绍 2、基于Java 的全文检索引擎—Jakarta Lucene 3、网络爬虫Heritrix 4、Lucene和Heritrix在构建垂直搜索引擎中的应用(含代码) 5、...
垂直搜索引擎完全开源版 c#开发基于Lucene.net 1.前台结合Lucene的搜索引擎功能,使得数据搜索更快; 2.新增加采集功能,采集时图片下载,flash下载功能,默认配置的是南海网分类信息的采集规则; 3.该代码简洁,...
对网络搜索引擎技术进行简要研究,学习搜索引擎完成搜索工作的整个流程中涉及的各种技术,并采用开源工具Nutch、Lucene实现一个简单的搜索引擎,具体功能如下: 1、熟悉网络爬虫程序,采用开源的爬虫工具采集指定...
最受欢迎的java开源全文搜索引擎开发工具包。提供了完整的查询引擎和索引引擎,部分文本分词引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简易用的工具包,以方便在目标系统中实现全文检索...
基于XML和Lucene构建黄页搜索引擎,姜伟,宋茂强,随着用户对搜索引擎要求的不断提高,垂直搜索引擎应运而生,成为搜索引擎新的发展趋势。论文基于开源全文索引引擎工具包Lucene,采
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播...
Lucene是一种功能强大且被广泛使用的搜索引擎,以下列出8种基于Lucene的搜索引擎,你可以想象他们有多么强大
教你如何利用网上现有的开源工具搭建一个小型的搜索引擎,完成简单的搜索引擎功能,获取感兴趣的信息!
基于Lucene开源框架设计实现了MYSearch全文搜索引擎。给出了MYSearch实现的基 本原理和设计流程,以及实验结果,并针对Lucene在中文分词方面的不足展开了讨论,给出了改进 方法。
ShootSearch是一个c#编写的基于dotlucene的开源搜索引擎.其目标是能够检索http,ftp,本地,本地网络邻居四类资源. 已经完成http部分. 测试DEMO: 新浪&搜狐首页开始所有www开头的主机,13分钟54.5 MB 985个文件 60...
基于lucene的搜索引擎的开发,是一款很好的基于java的开源工具包
产品开发目前基于C# Lucene.Net 软件包括两个个部分: 1、jwSearchEngine索引器: 索引器是用来把数据库内的数据索引成索引文件来使用的,注意目前的1.0版本仅仅支持 SqlServer数据库 2、网站程序 网站直接...
XunTa允许对每个人名下的数量无限制的关键词单独打分,从而实现基于“评价图谱”和“知识图谱”的好友匹配与信息推荐。 二.XunTa技术特点 1.在架构上内生地支持增量式实时搜索。 2.除达人搜索外,还提供...
lucene是一个java编写的开源全文检索工具包,功能强大。您可以基于lucene编写自己的搜索引擎。
利用Lucene开源全文本搜索技术框架建立了校园搜索引擎,设计并实现了资源采集、信息检索、数据检索等模块,完成了一个基于Lucene的搜索引擎的应用,改进后的基于Lucene的校园搜索引擎能满足校园用户的需要并提升了...
1) 基于Lucene自己进行封装实现站内搜索。工作量及扩展性都较大,不采用。 2) 调用Google、Baidu的API实现站内搜索。同第三方搜索引擎绑定太死,无法满足后期业务扩展需要,暂时不采用。 3) 基于Compass+Lucene实现...