`
wbj0110
  • 浏览: 1563830 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

一次搜索服务优化笔记

阅读更多

测试环境

CentOS release 5.5系统,内核版本:Linux version 2.6.18-194.el5

Intel(R) Xeon(R) CPU E5640 @ 2.67GHz 16CPU64G内存;千兆网卡

300w用户数据,大概1G的索引文件。lucene 3.6.1

基于lucene实现的搜索服务,索引文件是文件类型的,DirectoryMMapDirectory.

 

目的

只对搜索的rpc接口进行压力测试

 

条件

100个搜索任务(搜索参数随机组合)同时进行压力测试,发现tps大概是400/s左右,从编码上优化,将索引文件拆解为10sub index,使用MultiReader,然后由10 sub IndexReader对应每个sub index,通过多线程完成每次搜索,结果发现搜索效率提升不大。

通过 sar -n / iostats 监控发现磁盘读写利用率为0%,也就说瓶颈不在磁盘io上。

同时cpu利用率/jvm垃圾回收都正常,搜索服务器的工作线程从1k提升到1.5ktps有些许提升,效果不大,而且cpu load大概在7-10左右。

将压力测试请求任务提升到3001000之后,请求响应的平均时间、最大时间逐渐增大至不可接受的时间。而磁盘iocpu load基本没有变化,jvm gc频率增大。也就是说每次搜索需要大量的cpu运算,在资源足够的情况下,cpu运算和线程竞争的瓶颈是无法避免的。

根据网上提供的解决方案:

1.通过FieldFilterCache的方式来缓存某个字段的搜索结果,然后通过子搜索条件来从cache中查找数据,但实际中发现lucene是将FieldFilterCache和子搜索结果做交集,效率更差,而且FieldFilterCache的数据是放在WeakedHashMap,数据如果被gc回收了,效率就更慢了。放弃此种方案

2.减少Collector返回的totalHit数据,lucene很实诚,每次搜索都会返回符合搜索条件的精准数据,这导致全索引扫描,而实际业务中只需要100条数据,不需要太精确的totalHit。故考虑自定义Collector实现,后来发现时间、精力、能力已经不允许在lucene3.6中自定义Collector实现了---项目要上线了。放弃此种方案

 

 

调整

根据实际业务情况调整:

用户的搜索条件基本固定,而且产品人员要求在翻页的情况下要保证数据的顺序是不变的,即从第二页到第N页然后在回退到第二页,第二页的数据不能因为索引的更新导致展现的数据不一致,考虑的解决方案:加缓存。因为搜索结果是按照时间排序,使用redis SortedSet来存储搜索结果。缓存架构如下:

优化

用户级别缓存:搜索条件+用户个性设置的结果。数据是从 搜索条件缓存中计算出来的。而且这2级缓存过期时间不同,用户级缓存可以被用户的特定请求主动穿透,过期时间设置比较久,搜索级缓存时间比较短,是为了避免用户级缓存被穿透后,对造成请求风暴,压力过大。

300线程,1000个搜索条件随机请求,tps大概在4k-8k/s。压力线程增加到1ktps依然在4k-8k/s。通过 sar命令监控网卡流量,大概在20m-30m之前浮动,未达到千兆网卡的实际极限传输速度( 125MB/s).在测试工程中,通过java方法级别的监控工具发现rpc调用的网络io没有write block,这也情况也证明网络并非瓶颈。

关于JVM参数,因为使用的是jdk6最新的版本,新加了2个参数: -XX:+UseCompressedOops,来减少64位机中新增对象句柄占用的空间。-XX:+UseNuma,根据Numa架构分配eden区空间,据Oracle官方文档介绍,能够提升gc并行回收的效率(32位机:30%提升,64位机:40%提升)。参考:http://docs.oracle.com/javase/7/docs/technotes/guides/vm/performance-enhancements-7.html

 

总结

性能测试要关注测试环境的网络IO、磁盘IOCPU利用率、内存利用率。如果这些硬件环境没有达到极限,就是代码存在瓶颈,在我开始做压力测试的时候,将搜索服务工作线程默认设置为5个,导致tps极低,后来经过分析发现工作线程数量限制导致的。。。而且做优化需要根据实际的业务情况来进行才能事半功倍,pscache真是web应用在高并发情况下保证响应的利器。

 

不足

没有通过java profile详细监控每个线程的响应时间(jprofile/yourKit)、竞争的原因

 

摘自互联网

分享到:
评论

相关推荐

    优化笔记 v1.0

    优化笔记为一款小型绿色软件,可以自由拷贝到任何机器上使用,所用数据库为Access,您可以通过按装微软Office办公软件里的Aceess自由打开查看修改复制里面的数据,无需担心你的日记被破坏或丢失。数据库存放在软件根...

    淘宝搜索优化(SEO)珍贵笔记

    大家都有目共睹淘宝七月八号改变规则后引发了不少争议,后面所引起的众多卖家“围攻”淘宝之事也不仅发生过一次了,还有的要求恢复时间排名机制。而淘宝却 给出此次规则调整,旨在提升消费者体验,提高搜索精准度。...

    曾鸣智能商业20讲笔记.docx

    则利用大互联网公司提供的算法工具,得到一个可以收敛的结果——如谷歌的搜索引擎 3、产品化——通过算法发生作用,建立产品跟客户的直接连接,产品化提供了一个反馈闭环——如谷歌的搜索结果页 数据智能的落地:...

    淘宝SEO珍贵笔记

    大家都有目共睹淘宝七月八号改变规则后引发了不少争议,后面所引起的众多卖家“围攻”淘宝之事也不仅发生过一次了,还有的要求恢复时间排名机制。而淘宝却 给出此次规则调整,旨在提升消费者体验,提高搜索精准度。...

    机器学习共11课课程资料学习笔记

    交叉验证是一种评估模型性能的方法,它通过将数据集划分为多个子集,然后多次训练模型并在不同的子集上进行评估,从而得到更准确的模型性能评估结果。我们学习了常见的交叉验证方法,如K折交叉验证和留一交叉验证,...

    note:笔记

    个人笔记记录有趣小知识美好的生活从记录开始节流:当持续触发事件时,一定时间段内没有再触发事件,事件处理函数才会执行一次。防抖:设置固定的周期,让连续触发的函数按照固定周期执行。区别:防抖是连续触发如果...

    《SEO每日一贴笔记》完整版

    Google 来说,每一次都有效,而且对所有的关键词都有效。这个系统 是我给客 户做网站时所应用的,而且百试不爽。成功的程度当然也取决于网站所在的行业, 潜在市场和竞争水平。下面的要点可以让你仅仅依靠Google,在...

    同时传热搜索:单目标传热搜索(终止标准:迭代次数)-matlab开发

    同时传热搜索是一种针对无约束问题的单目标优化技术。 与在单次迭代中仅使用一种传热模式的传热搜索不同,SHTS 划分总体并利用所有三种模式的同时传热。 可以从以下参考资料中获得与 HTS 的其他主要区别。 [1] 用于...

    基于ssm框架实现的java手机销售网站jsp项目,可二次修改为图书商城、服装商城、宠物商城等多种电商主题商城管理系统。

    笔记资料:整理了Java毕业设计中常见的问题和解决方案,包括数据库设计、界面美化、性能优化等方面的技巧。这些笔记资料均由经验丰富的程序员撰写,可为您提供宝贵的经验分享和指导。 视频教程:为了帮助您更好地...

    leetcode中国-SudokuSolve:用于解决数独谜题的Java实现

    的每个数字在每一行中都必须恰好出现一次。 1-9 的每个数字必须在每列中恰好出现一次。 每个数字 1-9 必须在网格的 9 个 3x3 子框中的每个子框中恰好出现一次。 空单元格由字符“.”表示。 笔记: 给定的棋盘只包含...

    PinPKM-V201525(官网发布的最后一个免费无使用限制版本)

    间隔1天后才会在“第一次复习”中看到! 2.改为”复习1次“,间隔3天后才会在“第二次复习”中看到 版本V2013[4] 更新时间:2013-05-20 1.知识点列表直接显示附件,可设置双击打开文档--在视图-->选项-->02知识库...

    雨林木风 OneKey Ghost Y6.3 四周年纪念版(解决时间显示问题)

    (附“时间显示错乱补丁.reg”,系统已经有问题的导入一次后即可恢复正常) OneKey Ghost Y6.3 四周年纪念版(版本号:6.3.5.4) ======================= 1、增加 F9 热键启动功能 2、增加对部分畸形目录的支持 3...

    针式PinPKM-V201506(免费无使用限制)

    间隔1天后才会在“第一次复习”中看到! 2.改为”复习1次“,间隔3天后才会在“第二次复习”中看到 版本V2013[4] 更新时间:2013-05-20 1.知识点列表直接显示附件,可设置双击打开文档--在视图-->选项-->02知识库...

    dda

    停止使用易碎的样板触发器,当您对它们进行编码时,它们会使您的眼球流血-并且需要在每次更改其中一个审核表时一次更新。 DDA动态跟踪INSERT,UPDATE,DELETE操作-因此,它不必关心模式更改。 集中审核存储。 将...

    营销数据分析报告.docx

    运营基本概况 我的店铺换过两次产品,第一次我在阿里巴巴上选择的产品是笔记本,一直没有销量,于是就更换了产品,现在选用的是深圳市娇源生活用品有限公司,它是一家从事保健用品、化妆品、日用百货、电子产品的...

    营销数据分析报告(1).docx

    运营基本概况 我的店铺换过两次产品,第一次我在阿里巴巴上选择的产品是笔记本,一直没有销量,于是就更换了产品,现在选用的是深圳市娇源生活用品有限公司,它是一家从事保健用品、化妆品、日用百货、电子产品的...

    Maurice Wright - Note and Bookmarking App-crx插件

    用它来-记住很酷的域名-醒来写下您的梦想(记录和手写会使您产生难以理解的废话-相信我们)-从一个浏览器快速获取文本信息到另一个浏览器-从一台计算机快速获取文本信息到另一个-列出您可以搜索的列表-与团队成员...

    asp.net知识库

    .NET 2.0 泛型在实际开发中的一次小应用 C#2.0 Singleton 的实现 .Net Framwork 强类型设计实践 通过反射调用類的方法,屬性,字段,索引器(2種方法) ASP.NET: State Server Gems 完整的动态加载/卸载程序集的解决方案 ...

Global site tag (gtag.js) - Google Analytics