`

oracle uptime的bug

 
阅读更多

症状:oracle sqlplus没反应

oracle10g的有十几个机器客户端10.2.0.1.0,执行sqlplus这个命令没反映。此时cpu使用为99.9%,观察了一会,不释放。
oracle其他命令都好使。
环境变量、ping tnsname等都没问题。。且这些机器都是至少运行了200多天左右,
但一旦重启OS就好使了。。
或者不重启OS,换成9i的客户端,sqlplus命令也好使。
alert日志没有什么明显的报警信息,客户端的sqlnet.log为空。
用strace跟踪了一下客户端10的sqlplus命令,出现:
--- SIGSTOP (Stopped (signal)) @ 0 (0) ---
--- SIGSTOP (Stopped (signal)) @ 0 (0) ---
times(NULL) = -2064519321
times(NULL) = -2064519321
times(NULL) = -2064519321
……
所有客户端配置一样,系统信息:
Red Hat Enterprise Linux AS release 4 (Nahant Update 2)
2.6.9-22.ELsmp #1 SMP
客户端硬件要么联想同一型号机器,要么就是HP同以型号机器。

是不是有什么补丁没打,或者和OS什么配置有关?
系统信息类似一下:
sar -u 后%idle为0,
但sar -A 查看%idle为99.70等百分之九十多左右,
然后是%user%system %iowait之间互相变化。

solution:

因为oracle有bug,系统开机太长,系统会hang
所以要查看os命令uptime来看系统启动多长时间了,
一般重启会解决问题,通过升级也可以解决

问题基本定位为ORACLE客户端软件的BUG,
涉及的版本:ORACLE 10.2.0.1.0
现象就是UPTIME>50天,即有可能出现运行SQLPLUS后无反应的现象,主要原因是时间溢出错误
解决办法:升级ORACLE客户端到10.2.0.2.0,官网已经公布在这个版本解决了此问题
(或降级到9I,9I绝对不会出现这个问题;或降级到10.1.0.4版本,这个没有经过全面测试)
接下来就是升级试试看了。

有几种情况,基本是oracle内部定时器计算有误,还有days>24,或者days>240+的情况

以前有Oracle hang after 240+ days的bug, 好象是8i on solaris

现在有client side的错误, 有点烂啊

p4612267_10201_linux.zip

我不知道版本号对不对,但补丁号是确定的 : 4612267

refer:http://bbs.chinaunix.net/thread-942488-1-1.html

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics