Oracle 隐含参数_asm_hbeatiowait引起的ASM磁盘组DISMOUNT
?
(1)恒生电子资管云HOMS系统B区2015年3月6日上午故障现象:【数据库服务器无法连接】
(2)恒生电子资管云HOMS系统B区2015年3月9日下午故障现象:【数据库服务器无法连接】
图1-1 事故现场截图
图 1-2 应用层返回错误原因
?
图 1-3 ?0309下午库监听初次失败时间
诊断:存储OCR和voting DISK的ASM 磁盘组DATA 发生故障,导致DATA磁盘组OFFLINE,由此引发监听无法工作,因为RAC监听作为资源注册到了OCR,此时OCR不可访问。
图 1-5 错误后RAC系统行为
诊断:Oracle 集群件不断尝试重新mount DATA,但是可能因为文件句柄等内部错误而失败。DATA磁盘组内磁盘文件头可能发生逻辑损坏。没有理由冗余的2个镜像都发生读取失败(两个磁盘都坏掉的几率还是比较小的),如下图由ASM日志发现DATA两个镜像MIRROR都发生了读取失败:仔细查看ASM日志,发现该问题在2014年就已经出现过DATA磁盘组的dismount问题,具体截图如下所示:(其实该问题的征兆早就已经出现)
图 1-7 查看ASM历史日志
这是什么情况???貌似这个时间就已经有ASM磁盘组DATA的问题了。
图 1-8 DATA错误一例
图 1-10 ASM磁盘组历史故障记录一例
图 1-11 ASM磁盘组历史故障记录一例
?【故障】Oracle 隐含参数_asm_hbeatiowait设置不当引起的ASM磁盘组DISMOUNT
原文:http://askerain.iteye.com/blog/2294530