2019-09-25 19:24:18.420
[cssd(6192)]CRS-1612:Network communication with node racnode02 (2) missing for 50% of timeout interval. Removal of this node from cluster in 14.500 seconds
2019-09-25 19:24:25.422
[cssd(6192)]CRS-1611:Network communication with node racnode02 (2) missing for 75% of timeout interval. Removal of this node from cluster in 7.500 seconds
2019-09-25 19:24:30.424
[cssd(6192)]CRS-1610:Network communication with node racnode02 (2) missing for 90% of timeout interval. Removal of this node from cluster in 2.500 seconds
2019-09-25 19:24:32.925
[cssd(6192)]CRS-1607:Node racnode02 is being evicted in cluster incarnation 179915229; details at (:CSSNM00007:) in u01/app/gridhome/log/racnode01/cssd/ocssd.log.复制
从主机层面/var/log/message上查看没有错误的硬件信息输出。
从OSW上的oswprvtnet中可以看到2节点和4节点在问题时间段有很大的延迟出现
在1和3节点手动ping 2和4节点的priv IP,都没有问题,time都在1ms以下,属于正常的现象。
找网络工程师查看私有网络是否有延迟问题,经过排除没有任何问题。
由于4台数据库服务器采用的时间同步方式是ntp服务,检查ntp服务状态都是actived的,没有问题,但是使用date命令检查主机时间时,却发现2节点和4节点都比正确的时间慢了将近20分钟,这就有问题了。
# systemctl status ntpd
ntpd.service - Network Time Service
Loaded: loaded (/usr/lib/systemd/system/ntpd.service; enabled; vendor preset: disabled)
Active: active (running) since 二 2019-11-05 19:46:11 CST; 3 weeks 1 days ago
Main PID: 6944 (ntpd)
CGroup: system.slice/ntpd.service
└─6944 usr/sbin/ntpd -g -x
11月 05 19:46:11 nanhudb04.db.xjmc ntpd[6944]: Listen normally on 14 enp130s0f1 fe80::6701:8e10:1e45:5c26 UDP 123
11月 05 19:46:11 nanhudb04.db.xjmc ntpd[6944]: Listen normally on 15 bond0 fe80::aaf1:a837:9bd1:634e UDP 123
11月 05 19:46:11 nanhudb04.db.xjmc ntpd[6944]: Listen normally on 16 enp2s0f0 fe80::1882:9b39:f851:6db4 UDP 123
11月 05 19:46:11 nanhudb04.db.xjmc ntpd[6944]: Listening on routing socket on fd #33 for interface updates
11月 05 19:46:11 nanhudb04.db.xjmc ntpd[6944]: 0.0.0.0 c016 06 restart
11月 05 19:46:11 nanhudb04.db.xjmc ntpd[6944]: 0.0.0.0 c012 02 freq_set ntpd 7.473 PPM
11月 05 19:49:29 nanhudb04.db.xjmc ntpd[6944]: 0.0.0.0 c615 05 clock_sync
11月 05 20:12:23 nanhudb04.db.xjmc ntpd[6944]: Listen normally on 17 bond0:2 10.238.11.68 UDP 123
11月 05 20:12:23 nanhudb04.db.xjmc ntpd[6944]: new interface(s) found: waking up resolver
11月 06 17:10:55 nanhudb04.db.xjmc ntpd[6944]: Deleting interface #17 bond0:2, 10.238.11.68#123, interface stats: received=0, sent=...12 secs
Hint: Some lines were ellipsized, use -l to show in full.复制
$ cluvfy comp clocksync -n all -verbose
验证 各集群节点上的时钟同步
正在检查是否在所有节点上安装了集群件…
集群件的安装检查通过
正在检查 CTSS 资源是否在所有节点上运行…
检查: CTSS 资源是否正在所有节点上运行
节点名 状态
------------------------------------ ------------------------
racnode01 通过
racnode04 通过
racnode03 通过
racnode02 通过
结果:CTSS 资源检查通过
正在查询所有节点上时间偏移量的 CTSS…
结果:时间偏移量的 CTSS 查询通过
检查 CTSS 状态已启动…
检查: CTSS 状态
节点名 状态
------------------------------------ ------------------------
racnode01 观察程序
racnode04 观察程序
racnode03 观察程序
racnode02 观察程序
CTSS 处于观察程序状态。使用 NTP 切换到时钟同步检查
正在使用网络时间协议 (NTP) 启动时钟同步检查…
NTP 配置文件检查开始…
NTP 配置文件 “/etc/ntp.conf” 在所有节点上可用
NTP 配置文件检查通过
正在检查守护程序的活动性…
检查: “ntpd” 的活动性
节点名 正在运行?
------------------------------------ ------------------------
racnode01 否
racnode04 否
racnode03 否
racnode02 否
结果:”ntpd” 的活动性检查失败
PRVF-5494 : NTP 守护程序或服务并非在所有节点上均处于活动状态
PRVF-5415 : 检查以确定 NTP 守护程序或服务是否运行失败
结果:使用网络时间协议 (NTP) 进行时钟同步检查失败
PRVF-9652 : 集群时间同步服务检查失败
在所有指定节点上验证 各集群节点上的时钟同步 失败。复制
Configure CTSSD to start master mode so that ntp is no longer used.
[root_user@<hostname> ~]# crsctl stop crs
[root_user@<hostname> ~]# systemctl stop ntpd
[root_user@<hostname> ~]# systemctl disable ntpd
[root_user@<hostname> ~]# rm var/run/ntpd.pid
[root_user@<hostname> ~]# crsctl start crs复制
Configure NTPD service to start with a pidfile so that CVU properly detects NTP service to be running. To do so, edit/etc/sysconfig/ntpd and modify the below line
OPTIONS="-g"
复制
OPTIONS="-g -p var/run/ntpd.pid"
复制
# systemctl status ntpd
ntpd.service - Network Time Service
Loaded: loaded (/usr/lib/systemd/system/ntpd.service; enabled; vendor preset: disabled)
Active: active (running) since 二 2019-11-05 19:46:11 CST; 3 weeks 1 days ago
Main PID: 6944 (ntpd)
CGroup: system.slice/ntpd.service
└─6944 usr/sbin/ntpd -u ntp:ntp -x -p var/run/ntpd.pid
11月 05 19:46:11 nanhudb04.db.xjmc ntpd[6944]: Listen normally on 14 enp130s0f1 fe80::6701:8e10:1e45:5c26 UDP 123
11月 05 19:46:11 nanhudb04.db.xjmc ntpd[6944]: Listen normally on 15 bond0 fe80::aaf1:a837:9bd1:634e UDP 123
11月 05 19:46:11 nanhudb04.db.xjmc ntpd[6944]: Listen normally on 16 enp2s0f0 fe80::1882:9b39:f851:6db4 UDP 123
11月 05 19:46:11 nanhudb04.db.xjmc ntpd[6944]: Listening on routing socket on fd #33 for interface updates
11月 05 19:46:11 nanhudb04.db.xjmc ntpd[6944]: 0.0.0.0 c016 06 restart
11月 05 19:46:11 nanhudb04.db.xjmc ntpd[6944]: 0.0.0.0 c012 02 freq_set ntpd 7.473 PPM
11月 05 19:49:29 nanhudb04.db.xjmc ntpd[6944]: 0.0.0.0 c615 05 clock_sync
11月 05 20:12:23 nanhudb04.db.xjmc ntpd[6944]: Listen normally on 17 bond0:2 10.238.11.68 UDP 123
11月 05 20:12:23 nanhudb04.db.xjmc ntpd[6944]: new interface(s) found: waking up resolver
11月 06 17:10:55 nanhudb04.db.xjmc ntpd[6944]: Deleting interface #17 bond0:2, 10.238.11.68#123, interface stats: received=0, sent=...12 secs
Hint: Some lines were ellipsized, use -l to show in full.复制
总结
在Red Hat 6上配置NTP时,配置文件/etc/sysconfig/ntpd的默认值就是:OPTIONS="-untp:ntp -p /var/run/ntpd.pid -g",我们只需要再加上一个"-X"就行,所以不会出现配置了NTP而没有进行时间同步的问题。
到了Red Hat 7时,配置文件/etc/sysconfig/ntpd的默认值变成了OPTIONS="-g",我们就习惯性的添加一个"-x",以为这样就没有问题了,其实不然,反而因为没有使用pidfile文件配置NTP来启动,触发了未发布的bug 19427746,导致NTP假同步。
原创文章,版权归本文作者所有,如需转载请注明出处
喜欢本文请长按下方的二维码订阅Oracle一体机用户组