一,概述
17173搜索是一套对站内各个系统的信息组织和处理后,为用户提供检索服务,将用户检索的相关信息展示给用户的系统,因为遇到性能问题,故对基于Lucene的搜索框架Solr进行研究,看能否找到相应的解决方案。
二,测试说明
1, BBS总共有七千万条数据(40G左右)。
2, 在对BBS论坛进行搜索查询时,查询时间久,每次搜索都占用较大的CPU与内存,性能比较低。
3, 综之前研究,因业务需求,改为单字切分,使倒排链表算法在搜索时,浪费很多性能。
4, 在对时间进行过滤查询时,查询时间缓慢。
因上述原因,故对Solr进行测试,是否在单字切分时,能否解决这一类型的问题,以便引用
三,性能测试内容
测试分析
1, 在对BBS进行测试一千万条时,查询时间较快,不会发生性能问题,故产生思路对七千万条数据进行切分成六个索引,进行搜索。
2, Solr中提供了切分索引的分布式搜索,对其性能进行测试,如图:
测试结论
1, 搭建三台(solr1,solr2,solr3)服务器,solr1用于对其他两台solr2,solr3进行分发请求及计算。
2, 在发出请求时,查询单字切分的两千万条数据时,使用时间过滤时,查询性能也比较慢。
3, 查看其源码实现方式,solr1会第一次发出请求到solr2,solr3中获取符合条件的文档数,并返回其id与相应的得分数。第二次根据得分数向各服务器发出请求,得到得分较高的文档数后返回,请求查询数为(2*n+1),使性能更低于我们本身的17173站内搜索。
查询性能(17173,solr)比较:
框架
|
查询数据
|
时间(ms)
|
数据量
|
17173(Lucimint)
|
“魔”(半年)
|
63
|
一千万条
|
Solr
|
“魔”(半年)
|
1847
|
一千万条
|
17173(Lucimint)
|
“剑灵”(半年)
|
1023
|
三千万条
|
Solr
|
“剑灵”(半年)
|
3000
|
三千万条
|
17173(Lucimint)
|
侠骨柔情剑气扬,唯我枫月武林狂(半年)
|
1937
|
三千万条
|
Solr
|
侠骨柔情剑气扬,唯我枫月武林狂(半年)
|
24115
|
三千万条
|
故这种查询分发,对于我们这种类型的查询并没有相应的性能提高。
四,遗留问题分析
Solr还提供了复制模式,用于满足高并发时架构集群,高并发时分发到不同的服务器,达到负载均衡。但是这并不符合,我们少数请求时引起的性能问题。
可对于在用户搜索时,对搜索字进行切分,没有语义的予以去掉,来提高一部分性能。
- 大小: 8.9 KB
分享到:
相关推荐
基于Solr的搜索引擎研究与实现,讲述了solr技术的原理及其应用等等
本书作者是国内较早接触Solr的技术专家之一,多年一直在Solr的研究、实践和布道的路上不遗余力、乐此不彼。本书立足全球视野,综合Solr技术的发展和应用、从业人员的学习曲线,以及中英文资料的供给情况,给自己设定...
基于Solr的分布式实时搜索模型研究与实现
国内较早接触Solr的技术专家之一,长期致力于Solr的技术研究、实践和生产环境部署,是Solr社区的积极参与者和实践者,以让Solr技术能够在中国得到广泛应用不遗余力并乐此不疲。现就职于国美金融,曾就职于各种大大...
本书作者是国内较早接触Solr的技术专家之一,多年一直在Solr的研究、实践和布道的路上不遗余力、乐此不彼。本书立足全球视野,综合Solr技术的发展和应用、从业人员的学习曲线,以及中英文资料的供给情况,给自己设定...
基于知识图谱与Solr的问答系统研究与实现,邢世样,张闯,本文针对传统搜索引擎信息过载,用户无法获取精确信息等问题,提出了基于知识图谱与搜索引擎框架Solr的智能问答系统。针对用户输��
Solr在音乐搜索中的运用,林祖新,王洪波,在线音乐现在已经成为互联网热门应用,对音乐搜索的需求越来越强烈。Solr是开放源代码的企业级搜索引擎,由Apache软件基金会研发。��
solr需要的IK分词jar包,研究使用solr版本为solr6.0
solr1.4源码(欢迎喜欢研究solr的人下载)
solr-8.5.0-src.tgz源代码,SOLR最新版本源代码,需要的可以下载进行研究学习大神代码逻辑。
随着传统互联网和移动互联网的持续发展,网络带给我们的...目前一些搜索公司在公共互联网领域提供了很好的解决方案,但是企业或者政府机关内部相关信息往往需要应用独立的搜索系统,Solr Cloud则是很好的一个平台选择。
使用Solr为大数据库搭建搜索引擎,霍庆,刘培植,如今信息快速发展,数据库信息不断增多,尤其是对于中文信息,传统的数据库搜索方式(like%%)不仅效率低下,而且搜索速度极慢,此
大部分都是英文的,而且相关的书上架很慢,本书绝对是solr在2013年所出的最经典的图书,虽然是英文原版,但是并不妨碍阅读,相信你对 in action并不陌生,in action的图书大部分都被奉为经典,想研究和学习solr的...
solr4.5版本里面 有下载的jar包 zip包 文档 和源码 有兴趣的可以 下去 研究下
#资源达人分享计划#
本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码,主要使用Java进行开发。...项目结构清晰,代码注释详尽,适合用于学习和研究Apache Nutch和Solr在AJAX页面内容爬取与处理中的应用。
#资源达人分享计划#