服务器大范围报读超时,排查记录:
8月13日:
1 周一晚上根据op jmap的内存,发现老年代和年轻代都是百分之九十九。因为老年代满后会引起fullgc,检查gc日志证实频繁fullgc,但是fullgc几乎没有效果,导致jvm连续fullgc,所有线程等待,引起读超时现象。
2 op给出的jmap histo里面有大量keywordtype对象,怀疑有大量这种对象被引用没有释放
3 根据事故点的dump日志发现有大量log4j在争夺root时被blocked,同事给出优化建议,将lo4j的子日记不打到catalina.out里面。
8月14日:
3 同事排查代码未发现keywordtype有被map、list引用的情况
4 替换log4j,子log不打到catalina.out里面,并且将earth日志隔离出去,business层增加buffer,上线。解决log4j瓶颈问题,但是仍然大量读超时,并且发现dump出来的线程快照里面基本上都是runnable的线程,此时仍然频繁fullgc,且fullgc未果,大家怀疑heap里面到底有什么东西。另外发现了使用log4j的buffer的一个问题,发生业务日志丢失的情况,具体问题还没有排查出来结果。
5 要求op准备jmap事故现场的heap.bin来排查
8月15日:
6 早上有两台服务器重启后丢失业务日志,有一台服务器重启失败,十个小时左右无流量。
7 检查事故现场的heap.bin,这东西很大时,别直接jhat,开一个两倍或者三倍的内存在jhat -J-mx14g heap.bin。
8 检查heap.bin,同事发现大量的keywordtype最终没有被引用,而且这些keywordtype里面的内容大致相同。排查出这些keywordtype属于同一用户。检查访问日志,发现这个用户发送了一些大批量的查询请求,发送内容又大部分重复,发送的时间点和fullgc开始的时间点吻合。怀疑受到恶意攻击或者客户程序bug引起。
9 根据以上排查,让pm联系这个客户,得知这个客户在进行线上试验。
10 和qa、op协作,紧急上线。完成修复
分享到:
相关推荐
酒店生产安全事故隐患排查治理制度
为贯彻“安全第一,预防为主”的方针,为了及时、有效地排查治理重大、特大生产安全事故隐患,防范重特大事故发生,保障人民群众生命、财产安全,确保我公司产品生产在劳动安全方面符合国家的有关法律、法规、标准和...
加油站安全生产事故隐患排查治理制度.pdf
安全生产事故隐患排查检查表(宾馆、酒店).docx
生产安全事故隐患排查治理体系建设通则.pdf
目 次 目次 1 说 明 3 企业生产安全事故隐患排查治理体系细则 3 1 范围 3 2 规范性引用文件 3 3 职责分工 3 3.1 领导机构 3 3.2 职责 3 3.2.1主要负责人职责 3 3.2.2生产安全部职责 3 3.2.3各专业管理部门职责 3 ...
事故隐患排查治理工作责任体系.pdf
侯昭敏-事故隐患排查治理.pptx
一般事故隐患排查治理台账模板.pdf
安全生产事故隐患排查检查表(轮渡码头).docx
XX公司事故隐患排查治理情况分析报告.pdf
事故隐患排查试卷及答案.pdf
保证煤矿安全生产,通过研究煤矿企业在风险分级管控和隐患排查治理方面存在的问题,基于互联网+、云平台、智慧矿山、物联网、WebGIS等技术,研究设计了煤矿安全风险分级管控和事故隐患排查治理管理平台,包括双重预防...
电梯使用安全风险分级管控和事故隐患排查治理体系建设实施指南.pdf
DB37T 3513-2019 水利工程运行管理单位生产安全事故隐患排查治理体系细则
这是一个简陋的“首钢公司双控系统(隐患排查)自动排查程序源代码”框架,分享给同样被这个每天点勾系统折磨的同事们。2019-1-30日测试代码从打开到关闭浏览器整体可用。 整体思路就是使用webdriver与pyautogui...
危化品企业事故隐患排查治理实施导则.doc
安全生产检查及事故隐患排查、整改制度.doc
7、隐患排查是指企业组织( )人员、( )人员和其他相关人员对本单位的事故隐患进行排查,并对排查出的事故隐患,按照事故隐患的等级进行登记,建立事故隐患信息档案的工作过程。 8、工作危害分析法(JHA)是一种...
安全风险管控和事故隐患排查治理管理制度.pdf