暂无图片
分享
yg
2019-04-23
oracle11g集群2个节点半夜1点左右均宕掉

4月22日早上8点收到业务人员消息,数据库连不上,查看集群状态,发现2个节点的crs都处于停止状态,采取了重新启动节点2集群crsctl start crs,重启了节点1服务器,之后集群正常,业务恢复


现在的问题是找不到原因,看了日志判断不出是心跳线的问题还是存储的问题,还麻烦大师帮忙分析下,感谢感谢


其中节点2系统时间比节点1系统时间差50s


收藏
分享
4条回答
默认
最新
yg
上传附件:集群日志.zip
暂无图片 评论
暂无图片 有用 0
打赏 0
winkey

从日志上来看应该是IO出了问题

2019-04-22 01:08:45.109: [    CSSD][1744828160](:CSSNM00058:)clssnmvDiskCheck: No I/O completions for 2132880192 ms for voting file /dev/mapper/mpathg)

2019-04-22 01:08:45.109: [    CSSD][2762966784](:CSSNM00005:)clssnmvDiskKillCheck: Aborting, evicted by node hxrac01, number 1, sync 427157773, stamp 2723370914

2019-04-22 01:08:45.109: [    CSSD][1744828160]clssnmvDiskAvailabilityChange: voting file /dev/mapper/mpathg now offline

2019-04-22 01:08:45.109: [    CSSD][2762966784]clssnmRemoveNodeInTerm: node 2, hxrac02 terminated due to Normal Shutdown. Removing from member and connected bitmaps

2019-04-22 01:08:45.109: [    CSSD][1744828160](:CSSNM00018:)clssnmvDiskCheck: Aborting, 0 of 3 configured voting disks available, need 2

2019-04-22 01:08:45.109: [    CSSD][2772481792](:CSSNM00005:)clssnmvDiskKillCheck: Aborting, evicted by node hxrac01, number 1, sync 427157773, stamp 2723370914

2019-04-22 01:08:45.109: [    CSSD][2772481792]clssnmRemoveNodeInTerm: node 2, hxrac02 terminated due to Normal Shutdown. Removing from member and connected bitmaps

2019-04-22 01:08:45.109: [    CSSD][1744828160]clssnmRemoveNodeInTerm: node 2, hxrac02 terminated due to Normal Shutdown. Removing from member and connected bitmaps

2019-04-22 01:08:45.109: [    CSSD][2762966784]clssscExit: abort already set 1

2019-04-22 01:08:45.109: [    CSSD][2772481792]clssscExit: abort already set 1

2019-04-22 01:08:45.109: [   SKGFD][2761389824]Lib :UFS:: closing handle 0x7f135c0406f0 for disk :/dev/mapper/mpathf:


暂无图片 评论
暂无图片 有用 0
打赏 0
yg

winkey大师,您好!

我还有一些疑问想要咨询下:

  1. 您是怎么从众多信息中确认是IO的问题,我想要知道这个思路,因为我自己在分析的时候会被各种信息扰乱,找不到关键问题

  2. 我看到最开始22号晚告警信息最先出现在节点2的数据库日志里

    Mon Apr 22 01:06:17 2019

    IPC Send timeout detected. Sender: ospid 77020 [oracle@hxrac02 (J000)]

    报的是检测超时

    另外,节点1集群日志里有如下信息显示网络故障:

    2019-04-22 01:08:30.150: 

    [cssd(25369)]CRS-1612:Network communication with node hxrac02 (2) missing for 50% of timeout interval.  Removal of this node from cluster in 14.530 seconds

    2019-04-22 01:08:38.151: 

    [cssd(25369)]CRS-1611:Network communication with node hxrac02 (2) missing for 75% of timeout interval.  Removal of this node from cluster in 6.530 seconds

    2019-04-22 01:08:42.152: 

    [cssd(25369)]CRS-1610:Network communication with node hxrac02 (2) missing for 90% of timeout interval.  Removal of this node from cluster in 2.530 seconds

    ocssd1.l01里也有关于网卡的信息

    2019-04-22 01:08:42.152: [    CSSD][4229900032]clssnmvDHBValidateNcopy: node 2, hxrac02, has a disk HB, but no network HB

    所以,这应该是一种什么样的逻辑关系呢?集群宕掉的整个过程是什么样的呢?

  3. 这个IO问题是存储的IO问题吗?今天让同事看了存储上的报错信息,反馈22号没有记录,只有23号的4条记录,该如何确认存储IO问题


暂无图片 评论
暂无图片 有用 0
打赏 0
章芋文
问题已关闭: 问题已经过期
暂无图片 评论
暂无图片 有用 0
打赏 0
回答交流
Markdown


请输入正文
提交
相关推荐
Oracle数据库有漏洞一般都是怎么解决?
回答 5
如果在授权有效期内,可以去官网进行适当的打补丁!如果没授权那只能硬挺不打,或者花钱补上授权!
impdp导入时报序列、存储过程、视图已经存在,怎么直接覆盖导入
回答 2
tableexistsaction是对表进行的冲突检测我们自己在做这类迁移,如果是导入一个已经存在数据的库,则应该生成对应的sql脚本进行替换
AWR分析报告问题求助:CPU爆满,有没有大佬帮忙看看是什么原因导致的,谢谢
回答 3
已采纳
和上述分析的结论差不多,就是这个等待时间;dbcpuhightopsqlevent从这里可以看到cpu有两个方面的问题,一个当然是SQL执行性能导致的,另一个是可能遇到资源管理器导致限制了sql的执行
oracle 19c rac的alert日志显示统计信息任务报错?怪了。
回答 3
已采纳
问题找到,原来用户自己加了全局不可编辑触发器,禁止了drop和truncate操作。把触发器SYSTEM.TRGDDLDENYTRUNCATE禁用后恢复正常。
oracle 19.3升级19.8 grid补丁分析报错
回答 3
可能遇到未知的bug.有时候大页设置也会阻挡补丁,需要先取消大页设置,建议重启一下主机看看。
以下哪些方法,有可能可以改善 log file parallel write的平均时延?
回答 2
已采纳
A.在某些条件下,设置NOLOGGING的工作方式。这个方法可以减少redo日志的生成量,例如在批量导入操作等场景下。不过,这需要满足特定条件,并且不适用于所有情况,因为NOLOGGING模式会牺牲事
一个数据库实例下面有十几个用户,如何实现分用户备份各自的数据,不用一个一个exp?各用户如何实现并发备份?
回答 3
只能写脚本然后定时任务一起备份了。但是备份本来就是高IO操作。一起可能IO用尽还有竞争。没有必要并行。比如ABCDEF几个schema一起,可能不快。但是每个备份开并行能快一些。主要看你磁盘的IO能力
Oracle ASM NORMAL冗余,ocr与voting file磁盘组无法挂载
回答 1
虽然没做个这个试验,我觉得可以按这个思路去尝试一下放数据的磁盘组,应该就可以mount起来,OCR磁盘祖有一个特殊的地方,或者说是放votingfiles的磁盘祖有个特殊的地方,首先votingfil
有大佬帮帮迷途的小学生
回答 8
1.检查一下数据库相关的服务是否正常启动按windows键R键,弹出窗口,输入services.msc找到oracle的相关服务,看看是否正常或者已经启动。2.sqlplus/assysdba是否也是
使用driving_set导致数据查不出来
回答 2
1、看看执行计划差别2、drivingsite,你拼写错了