昨天,有人加我,说遇到了RAC问题。 
	
		环境是oracle 11.0.2.4,2节点。
	
	
		情况如下,CRSD宕了,集群不会自动切换。并且出现了好几次了。
	
	
		
	
	
		我让这哥们儿提供了日志。
	
	
		
	
	
	
	
	
		
	
	
		通过日志,可以看到1、2节点CRSD服务REBOOT只差1秒钟;Voting file /dev/raw/raw1不能提供服务只差2秒钟。 
	
	
		两节点CRSD同时重启,几乎已经可以断定不是RAC自身问题。 
	
	
		
	
	
		节点1:
	
	
		
			2016-03-18 23:25:38.643: 
		
		
			[cssd(6930)]CRS-1615:No I/O has completed after 50% of the maximum interval. Voting file /dev/raw/raw1 will be considered not functional in 99220 milliseconds
		
	 
	
		
	
	
		
			2016-03-18 23:26:58  
		
		
			CRSD REBOOT
		
		
			CRSD exiting: Could not init OCR, code: 26
		
	 
	
		
	
	
		节点2:
	
	
		
			2016-03-18 23:25:36.834: 
		
		
			[cssd(6590)]CRS-1615:No I/O has completed after 50% of the maximum interval. Voting file /dev/raw/raw1 will be considered not functional in 99760 milliseconds
		
	 
	
		
	
	
		
			2016-03-18 23:26:59  
		
		
			CRSD REBOOT
		
		
			CRSD exiting: Could not init OCR, code: 26
		
	 
	
		
	
	
		再看OS日志,远程光纤口(WWN = 50:0b:34:20:0f:f4:f8:08)连通性丢失。 
	
	
		到这里肯定是存储链路出现问题了。 
	
	
		节点1
	
	
		
			Mar 18 23:26:38 xxxxr01 kernel: bfa 0000:81:00.0: Remote port (WWN = 50:0b:34:20:0f:f4:f8:08) connectivity lost for logical port (WWN = 21:00:00:24:ff:09:a5:8a)
		
		
			Mar 18 23:26:38 xxxxr01 kernel: bfa 0000:81:00.0: Target (WWN = 50:0b:34:20:0f:f4:f8:08) connectivity lost for initiator (WWN = 21:00:00:24:ff:09:a5:8a) 
		
	 
	
		
	
	
		节点2
	
	
		
			Mar 18 23:26:48 xxxx02 kernel: bfa 0000:81:00.0: Remote port (WWN = 50:0b:34:20:0f:f4:f8:08) connectivity lost for logical port (WWN = 21:00:00:24:ff:09:a5:a2)
		
		
			Mar 18 23:26:48 xxxr02 kernel: bfa 0000:81:00.0: Target (WWN = 50:0b:34:20:0f:f4:f8:08) connectivity lost for initiator (WWN = 21:00:00:24:ff:09:a5:a2)
		
	 
	
		
	
	
		今天,又和这哥们儿聊了聊,已经联系存储厂商来检查存储链路。存储是宏杉的,我第一次听说有国产存储,也算长见识了。
	
	
		
	
	
		RAC中,出现问题,很多时候并不是RAC自身问题。存储链路出现问题造成RAC无法提供服务的事情我已经遇到好几次了。
	
	
		DBA遇到RAC异常,软件和硬件都要注意排查,这样才能快速定位问题。