`
mmdev
  • 浏览: 13009882 次
  • 性别: Icon_minigender_1
  • 来自: 大连
文章分类
社区版块
存档分类
最新评论

全文检索方案讨论

 
阅读更多
全文检索方案:

1. Lucene
2. sphinx
3. Solr(基于Lucene)
4. CoreSeek(基于sphinx)


方案1.
Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。在Java开发环境里Lucene是一个成熟的免费开放源代码工具。
想用Lucene的朋友可以参考下SourceForge上的开源项目WebLucene.
WebLucene工作流程如下:
将数据用脚本导出成XML格式;
将XML数据源导入LUCENE索引;
从WEB界面得到XML结果输出,并通过XSLT生成HTML页面

参考车东网站:http://www.chedong.com/tech/weblucene.html


方案2:
Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL也设计了一个存储引擎插件。
Sphinx 单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒(毫秒级)。Sphinx创建索引的速度为:创建100万条记录的索引只需 3~4分钟,创建1000万条记录的索引可以在50分钟内完成,而只包含最新10万条记录的增量索引,重建一次只需几十秒。

参考:http://iamcaihuafeng.blog.sohu.com/160584457.html


方案3:
Apache Solr是一个开源的搜索服务器。Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现。


方案4就不介绍了。

建议还是在前三种中选择一种,像Oschina采用的是Lucene。


官网:
1.Sphinx: http://sphinxsearch.com/
2.Lucene: http://lucene.apache.org/
3.Solr: http://lucene.apache.org/solr/
2.CoreSeek:http://www.coreseek.cn/news/14/52/
分享到:
评论

相关推荐

    检索 COM 类工厂中 CLSID 为 {000209FF-0000-0000-C000-000000000046} 的组件问题整理

    在本文中,我们讨论了 COM 类工厂中 CLSID 为 {000209FF-0000-0000-C000-000000000046} 的组件问题,该组件通常用于 Microsoft Word 文档处理。 问题 1:错误:0x80040154 或 8000401a 错误信息:检索 COM 类工厂中...

    基于弱监督深度学习的图像检索技术研究.pdf

    本文基于弱监督深度学习的图像检索技术研究提供了一种新的解决方案,能够解决传统图像检索方法中的问题,提高图像检索的准确性和效率。该技术可以广泛应用于图像检索、计算机视觉等领域,实现智能化和自动化的图像...

    基于深度神经网络模型的中文分词方案.pdf

    本文还讨论了基于深度神经网络模型的中文分词方案的优点和缺点,并对该方案在实际应用中的可行性进行了讨论。本文提出了一种基于深度神经网络模型的中文分词方案,解决了传统分词方法在处理海量网络文本时性能下降的...

    JDDC大赛第4名解决方案参赛源码+学习说明.zip

    在初赛阶段,我们还尝试了多种不同的检索方案,主要有:1)BM25;2)使用word2vec创建词向量,构建句子向量后计算余弦相似性;3)LSI等。这些方案的最终得分都没能超越经过优化的tfidf基线。 ## 决赛阶段思路及算法...

    论文研究-基于NoSQL的FITS文件头元数据存储和查询研究.pdf

    随着大型天文望远镜的投入使用,观测台站正面临PB量级的海量数据存储、快速检索难题;同时由于在数据检索中起着关键作用的FITS文件头的可变...通过具体查询实例验证了该方案在存储天文可变FITS文件头的有效性和可行性。

    政务信息资源目录体系_第5部分:政务信息资源标识符编码方案

    本文档是关于政务信息资源目录体系的第五部分,专门讨论政务信息资源标识符编码方案的标准化。该标准由中国标准化研究院、大唐电信集团、北京信息资源管理中心、中国电子技术标准化研究所、天津南大通用数据技术有限...

    科技论文检索与写作实践

    论文介绍了基于Internet和CAN总线的一个远程数据监控系统的设计方案,具体讨论了系统的功能结构、工作原理,并对软件的组成模块和人机交互界面进行了介绍。该系统不仅实现了对作物生长的温室气候环境的现场综合监测...

    办公自动化系统集成方案

    档案管理实现对机构或系统的各种档案和资料进行分类管理、归档保存,完成档案的组卷、拆卷、移卷、封卷、注销、借阅、全文检索、统计等管理功能,可以大大减轻档案室、档案馆的工作量。 7 电子文件柜 系统...

    企业文档知识管理平台项目方案建议书.docx

    同时,该功能还提供了知识的分类、检索和评估功能,以确保知识的可靠性和安全性。 3. 协同业务 协同业务是企业文档知识管理平台的第三个核心功能。该功能允许企业用户之间进行实时的协同工作,包括文档的共同编辑...

    校园网设计方案(4).doc

    (C)提供图书,文献查询与检索服务,增强校图书馆信息自动化能力。 (D)全校共享软件库服务,避免重复投资,发挥最大效益。 (E)提供CAI教学和科研的便利条件。 (F)经广域网接口,提供国内外计算机系统的互连...

    毕业设计--影视影讯检索工作的设计与实现.zip

    通过完成毕业设计,学生能够将所学的专业知识转化为实际的解决方案,加深对专业领域的理解。 综合性: 毕业设计往往要求学生运用多个学科的知识,综合各种技能。这有助于培养学生的综合素养,提高他们的综合能力。 ...

    论文研究 - 新的RN和急诊病人护理方案:模拟如何提供帮助

    本文将讨论护理学校毕业后需要进行额外培训以解决此问题并协助新毕业的护士过渡到实践的问题。 该项目的主要重点是为利特尔顿地区医疗保健公司及其联盟医院开发新的研究生护士模拟教育计划。 PICOT:将模拟的紧急...

    notes办公自动化网络方案

    档案管理实现对机构或系统的各种档案和资料进行分类管理、归档保存,完成档案的组卷、拆卷、移卷、封卷、注销、借阅、全文检索、统计等管理功能,可以大大减轻档案室、档案馆的工作量。 7 电子文件柜 系统...

    武汉网站设计方案.doc

    论坛可以 向网友提供开放性的分类专题讨论区服务,网友们可以在此发表自己的某些观感、交流 某些技术、经验乃至人生的感悟与忧欢,亦可以做为用户与商家交流的渠道,商家亦可 在此回答用户提出的问题或发布某些消息...

    组网方案设计.doc

    提供图书,文献查询与检索服务,增强校图书馆信息自动化能力。 c.全校共享软件库服务,避免重复投资,发挥最大效益。 d.提供良好的教学和科研条件。 e.经广域网接口,提供国内外计算机系统的互连,为国际间的信息...

    关于插值的毕业论文相关matlab源码

    本文深入研究了图像颜色特征提取和相似性匹配,通过把彩色图像分块来设置不同区域的权值来突出图像的主体部分,并结合彩色图像的主色调来设置图像颜色权值的方法,提出了一种基于RGB颜色模型的分层彩色图像检索方案,该...

    校园网络系统设计方案.doc

    Internet面 向人类的社会,世界上数以亿计的人们利用它进行通信和信息共享,通过发送和接收电 子邮件,或和其他人的计算机建立连接、参加各种讨论组并免费使用各种信息资源实现 信息共享。 Internet也是一个服务的...

    计算机项目名称大全.docx

    该系统可以实现图书的分类、检索、借阅管理等功能。 10. 网络办公系统:该系统是为企业和组织提供网络办公解决方案,旨在实现办公自动化和信息共享。该系统可以实现文档管理、电子邮件、会议管理等功能。 11. 电子...

    东北大学操作系统课设成组链接法文件系统报告.doc

    在本报告中,我们将从根本原理出发,设计和实现一个简易的文件系统,并探讨文件系统的设计和实现过程中所遇到的挑战和解决方案。同时,我们还将分析文件系统的优缺点、适用场景和发展趋势。 文件系统的设计和实现...

Global site tag (gtag.js) - Google Analytics