mikixiyou

浏览: 1087217 次
性别:
来自: 南京

最近访客更多访客>>

ringphone

seahb

my_xinwen

stevenyj

博主相关

博客

微博

相册

留言

关于我

博客专栏

: Oracle管理和开发
浏览量：349674

文章分类

社区版块

存档分类

Oracle监听器crash问题

博客分类：

Oracle

oracle listener tnslsnr crash segfault error 4

数据库Oracle 10.2.0.4 for linux x86 64bit，正常运行430天。在今天早上10点钟，Oracle监听器进程突然宕机。

在操作系统的message中显示错误信息为”tnslsnr segfault error 4”，监听器日志文件因为体积达到4GB，没有记录下这次出错日志。

根据错误关键字“tnslsnr segfault error 4”，搜索发现该问题是在负载比较大时，物理内存不足出现页面换入换出触发了bug 6139856 ，从而导致了监听器进程宕机。

说明一点，监听器进程宕机，不会影响已有的连接，只是新建连接不可以了。对于使用连接池的WEB应用影响不大。只要监控机制及时发现该问题，及时重启监听器，就不会带来多大危害。如果内存页面换入换出频繁发生，则需要想办法解决这个问题。

Oracle提供了三种解决方法。第一个方法是增加服务器的物理内存；第二个方法是下载补丁包修复该bug；第三个方式是采用hugepage内存管理机制，替代目前的内存管理机制。

我们去metalink上下载补丁包”p6139856_10204_Linux-x86-64.zip”,安装一下即可。

(miki西游 @mikixiyou 原文链接: http://mikixiyou.iteye.com/blog/1596293)

1. 问题

在操作系统日志文件（ (/var/log/messages）中错误提示如下：

Jul 17 10:08:44 db200 kernel:tnslsnr[29794]: segfault at 0000000000000018 rip 0000003eab66854d rsp 0000007fbfff9230 error 4

在listener.log中没有记录了，因为该日志文件大小已经4GB，不再有新日志记录进来。

在网上查到的类似日志是这样：

19-NOV-2007 13:40:49 * (CONNECT_DATA=(SID=ORAC)(CID=(PROGRAM=C:\pegasos\te\usys\bin\uniface.exe)(HOST=TERVI-NB179)(USER=kjokioja))) * (ADDRESS= (PROTOCOL=tcp)(HOST=10.12.152.5)(PORT=1670)) * establish * ORAC * 12518
TNS-12518: TNS:listener could not hand off client connection
TNS-12571: TNS:packet writer failure
TNS-12560: TNS:protocol adapter error
TNS-00530: Protocol adapter error
Linux Error: 104: Connection reset by peer
19-NOV-2007 13:40:49 * (CONNECT_DATA=(SID=ORAC)(CID=(PROGRAM=C:\pegaos\te\usys\bin\uniface.exe)(HOST=TERVI-0184A)(USER=paitasal))) * (ADDRESS=(PROTO COL=tcp)(HOST=10.12.176.136)(PORT=1574)) * establish * ORAC * 12518
TNS-12518: TNS:listener could not hand off client connection
TNS-12547: TNS:lost contact
TNS-12560: TNS:protocol adapter error
TNS-00517: Lost contact
Linux Error: 32: Broken pipe

2. 分析

因为这个错误可能是bug，所以官方对这个bug的现象列出了下列特征信息。

nCPU的使用率直达100%

n数据库的会话数接近于初始化参数的会话数配置

n高CPU使用率负载下监听器突然宕机生成core文件

n监听器配置文件有这个配置，SUBSCRIBE_FOR_NODE_DOWN_EVENT_LISTENER=OFF

该数据库系统没有配置OSW的性能监控，只有一个CACTI的监控，看到的CPU负载情况如下所示：

从时间上看，在10点08分时，系统的CPU使用率确实快到100%，系统负载也很高。

该信息符合bug描述的特征点。

但是，因为没有详细的vmstat的数据，所以也看不到真实的swap in 和swap out的大小。

3. 解决

本着解决问题的思路，我们下载补丁，安装后继续观察。增加OSW的性能监控配置，实时记录系统的性能数据，便于诊断类似问题。

0
顶

0
踩

分享到：

Oracle表的压缩特性 | iOS中的堆(heap)和栈(stack)的理解

2012-07-17 13:36
浏览 4150
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Oracle监听器crash问题

1. 问题

2. 分析

3. 解决

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Oracle监听器crash问题

1. 问题

2. 分析

3. 解决

评论

发表评论

相关推荐

Oracle分区表的分区交互技术实现数据快速转移

等待事件enq TX row lock contention分析

Oracle的UNDO表空间管理总结

Oracle在不同windows系统中的迁移

Oracle 10.2.0.1在windows 2008上安装失败经历

所有的物化视图刷新脚本

Oracle数据库的SQL性能问题分析

db block gets和consistent gets的分析

创建增量同步Oracle物化视图问题

查归档日志文件每小时生成量

如何删掉临时表空间的文件

Oracle sql性能诊断暨event 10046和10053使用

查LOB字段占用的空间大小

Oracle Data Guard的重做日志传输和应用状况监控

Oracle sql loader使用速成

Oracle 11g2的监听器配置

Deleting archivelog on physical standby with RMAN in Oracle 10g

to_char将number转成string的小技巧

to_date转成字符串时ORA-01843 not a valid month 问题分析

Data Guard 10g 的保护级别为RESYNCHRONIZATION问题

最近访客更多访客>>