暂无图片
rac一个节点hung了30秒,节点2正常
我来答
分享
fitriones
2020-03-26
rac一个节点hung了30秒,节点2正常
暂无图片 10M

1.环境
redhat6.8 + 11.2.0.4 + rac + emc存储 + 光纤交换机
数据库:log buffer 50M,sga 30G,commit频率很高。
2.故障现象
数据库hung住30s。
3.调查现象
lgwr trace : log write elapsed time 30085ms,size 1kb 。
awr : 主要等待事件log file sync , 平均在6ms.
log file parallel sync 平均值很小;
没见其他异常.
dba_hist_active_session_history :
log file parallel write : session id:9401 WAIT_CLASS: System I/O BLOCKING_SESSION_STATUS:NO HOLDER
log file sync : session id:9424 WAIT_CLASS: commit BLOCKING_SESSION_STATUS:9401
节点2:业务正常
lms trace : 无日志信息
message: qla2xxx [0000:41:00.0]-801c:7: Abort command issued nexus=7:1:5 – 1 2002. (数据库恢复的时间点) 无其他信息
asm日志:无
存储、光纤:无告警日志 等有用信息。

我来答
添加附件
收藏
分享
问题补充
14条回答
默认
最新
muggle

可以考虑统计下问题时间段活动会话量,查看多路径软件日志记录,oswbb中的iostat部份内容,看能否有用信息

暂无图片 评论
暂无图片 有用 0
打赏 0
Kun

可以生成对应时间点的AWR,ash报告看看,关注下IO,看看log file parallel write等待事件的分布情况,如果有部署osw的话,看看iostat哦

暂无图片 评论
暂无图片 有用 0
打赏 0
fitriones
暂无图片 评论
暂无图片 有用 0
打赏 0
fitriones
上传附件:ashrpt_1_0311_0952.html
暂无图片 评论
暂无图片 有用 0
打赏 0
fitriones
暂无图片 评论
暂无图片 有用 0
打赏 0
fitriones

首先感谢专家的回复:
1.系统上没有部署osw,不过装了zabbix,监控粒度有点大 1分钟,iowait 很小.
2.活动会话数有150多,确实比平常多, 但是我的分析是因为被阻塞了,所以才有很多的活动会话数等着commit, log file sync 才会很多;
3. 后期对redo 进行了挖掘, hung住着30s没有任何记录数,但是 scn却是和hung前连续(+1),例如故障开始时间9:50:24 scn为125, 故障结束后9:50:54第一条记录scn为126 ,节点2 9:50:24的时候scn是 140 ,所以怀疑会不会是 scn广播问题, 但是lms trace中没有任何日志。

暂无图片 评论
暂无图片 有用 0
打赏 0
沈宏

光交上有没有看过port端口的状态信息

暂无图片 评论
暂无图片 有用 0
打赏 0
左波林

message: qla2xxx [0000:41:00.0]-801c:7: Abort command issued nexus=7:1:5 – 1 2002
这个就是HBA卡显示有问题
lsscsi -l 看看磁盘是不是超时时间30s,很有可能是IO链路抖了一下,去看多路径 powerpath ,找主机、存储、光交的人来搞

暂无图片 评论
暂无图片 有用 0
打赏 0
fitriones

存储、交换机的人看了, 反正没有结果。 但是我有一个疑惑一直想不通,事后我用logminer对redo进行了分析, 发现 9:50:24 - 9:50:53 之间,redo记录里面 竟然没有一条记录, 我想的是即使IO出问题了,新事务可以发起,照样可以记录生成redo,只是commit会卡住。除非 log buffer 写满了? 想不通呀。 这期间没有业务可能性基本不存在,就算没有业务 系统自己也会有操作呢

暂无图片 评论
暂无图片 有用 0
打赏 0
许超

有没有可能和_use_adaptive_log_file_sync有关?

暂无图片 评论
暂无图片 有用 0
打赏 0
fitriones

log file sync 默认是Post/wait ,如果发生切换的话是不是要在lgwr trace 中记录呢, 在trace日志中也没有记录 。 也查过 没见切换为Polling 的记录。

暂无图片 评论
暂无图片 有用 0
打赏 0
许超

磁盘的多路径有切换或者其他异常么?

暂无图片 评论
暂无图片 有用 0
打赏 0
fitriones

@许超 请教,怎么看是否有异常。 @左波林 之前上周说让看下lsscsi -l 磁盘超时时间,对这个命令不熟悉,检查了 确实是 30s 。

暂无图片 评论
暂无图片 有用 0
打赏 0
孙琳

可以通过ASH或者AWR确认下同时间物理读有没有受影响 如果也有变慢或长时间没有响应的情况 基本可以断定为IO相关异常 存储、交换机、HBA等

暂无图片 评论
暂无图片 有用 1
打赏 0
回答交流
Markdown


请输入正文
提交