将数据库集群升级到10.2.0.5之后,双节点服务器不断重启,查询oracle oprocd进程日志,信息如下:
Jul 03 08:16:34.702 | INF | monitoring started with timeout(1000), margin(500), skewTimeout(125) Jul 03 08:16:34.704 | INF | fatal mode startup, setting process to fatal mode
可以看到看到oprocd进程的时间间隔设置为
timeout(1000), margin(500), skewTimeout(125)
查看其它的日志信息,没有发现明显的错误信息,因此怀疑是oprocd的时间参数设置不当。
修改参数如下:
#crsctl set css diagwait 13 -force
当我们设置diagwait参数时,需要停止所有rac节点的集群活动,停止顺序如下(如果集群式活动的,修改diagwait有可能会损害ocr):
1,以root用户在所有节点执行
#crsctl stop crs #<CRS_HOME>/bin/oprocd stop
#ps -ef |egrep "crsd.bin|ocssd.bin|evmd.bin|oprocd"
#crsctl set css diagwait 13 -force4,查看参数修改情况
#crsctl get css diagwait
#crsctl start crs #crsctl check crs
ORACLE 10G RAC 节点自动重启故障处理,布布扣,bubuko.com
原文:http://blog.csdn.net/yidian815/article/details/34883561