`
mikixiyou
  • 浏览: 1087217 次
  • 性别: Icon_minigender_1
  • 来自: 南京
博客专栏
C3c8d188-c0ab-3396-821d-b68331e21226
Oracle管理和开发
浏览量:349674
社区版块
存档分类
最新评论

Oracle监听器crash问题

阅读更多

数据库Oracle 10.2.0.4 for linux x86 64bit,正常运行430天。在今天早上10点钟,Oracle监听器进程突然宕机。

在操作系统的message中显示错误信息为tnslsnr segfault error 4”,监听器日志文件因为体积达到4GB,没有记录下这次出错日志。

根据错误关键字“tnslsnr segfault error 4”,搜索发现该问题是在负载比较大时,物理内存不足出现页面换入换出触发了bug  6139856 ,从而导致了监听器进程宕机。

说明一点,监听器进程宕机,不会影响已有的连接,只是新建连接不可以了。对于使用连接池的WEB应用影响不大。只要监控机制及时发现该问题,及时重启监听器,就不会带来多大危害。如果内存页面换入换出频繁发生,则需要想办法解决这个问题。

Oracle提供了三种解决方法。第一个方法是增加服务器的物理内存;第二个方法是下载补丁包修复该bug;第三个方式是采用hugepage内存管理机制,替代目前的内存管理机制。

我们去metalink上下载补丁包”p6139856_10204_Linux-x86-64.zip”,安装一下即可。

 

(miki西游 @mikixiyou 原文链接: http://mikixiyou.iteye.com/blog/1596293)

 

1. 问题

在操作系统日志文件( (/var/log/messages)中错误提示如下:

Jul 17 10:08:44 db200 kernel:tnslsnr[29794]: segfault at 0000000000000018 rip 0000003eab66854d rsp 0000007fbfff9230 error 4 

listener.log中没有记录了,因为该日志文件大小已经4GB,不再有新日志记录进来。

在网上查到的类似日志是这样:

19-NOV-2007 13:40:49 * (CONNECT_DATA=(SID=ORAC)(CID=(PROGRAM=C:\pegasos\te\usys\bin\uniface.exe)(HOST=TERVI-NB179)(USER=kjokioja))) * (ADDRESS= (PROTOCOL=tcp)(HOST=10.12.152.5)(PORT=1670)) * establish * ORAC * 12518 
TNS-12518: TNS:listener could not hand off client connection 
TNS-12571: TNS:packet writer failure 
TNS-12560: TNS:protocol adapter error 
TNS-00530: Protocol adapter error 
Linux Error: 104: Connection reset by peer 
19-NOV-2007 13:40:49 * (CONNECT_DATA=(SID=ORAC)(CID=(PROGRAM=C:\pegaos\te\usys\bin\uniface.exe)(HOST=TERVI-0184A)(USER=paitasal))) * (ADDRESS=(PROTO COL=tcp)(HOST=10.12.176.136)(PORT=1574)) * establish * ORAC * 12518 
TNS-12518: TNS:listener could not hand off client connection 
TNS-12547: TNS:lost contact 
TNS-12560: TNS:protocol adapter error 
TNS-00517: Lost contact 
Linux Error: 32: Broken pipe 

 

2. 分析

因为这个错误可能是bug,所以官方对这个bug的现象列出了下列特征信息。

        nCPU的使用率直达100%

  n数据库的会话数接近于初始化参数的会话数配置

        nCPU使用率负载下监听器突然宕机生成core文件

        n监听器配置文件有这个配置,SUBSCRIBE_FOR_NODE_DOWN_EVENT_LISTENER=OFF


该数据库系统没有配置OSW的性能监控,只有一个CACTI的监控,看到的CPU负载情况如下所示:

 

从时间上看,在1008分时,系统的CPU使用率确实快到100%,系统负载也很高。

该信息符合bug描述的特征点。

但是,因为没有详细的vmstat的数据,所以也看不到真实的swap in swap out的大小。

3. 解决

本着解决问题的思路,我们下载补丁,安装后继续观察。增加OSW的性能监控配置,实时记录系统的性能数据,便于诊断类似问题。

0
0
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics