记一次zdata掉盘处理思路以及对failgroup的理解

原创 lvzhengwei 2022-04-21

979

首先asm磁盘掉的话,在兼容性10g以上的版本是不会马上被踢出磁盘的,需要经过disk_repair_time时间之后才会drop磁盘.

磁盘兼容性看通用sql 默认是3.6小时

fail group的含义就是一份数据存储在1个fail group上他的备份就不会再在这个failgroup了,就算一整个failgroup都挂了之后也不会影响正常使用,如果重平衡完事之后,asm空间还有的话,那数据也是正常冗余的,默认情况下一个磁盘就是failgroup组,这是默认的,不过如果在部署的时候,还是按照实际情况来分配fail group,如果一个failgroup坏了,正在重平衡期间另一个也坏了,那就gg了,所以一个磁盘一个failgroup组这样的风险就会加大,像zdata如果两个failgroup组在同一个存储节点,这个存储节点直接挂了,那数据就有可能丢失.

zdata会在所有的存储节点随机挑选3台机器作为zdata的etcd集群,有这个集群,存储节点在重启之后才能正常的加入到zdata存储池,3台机器有2台才能正常使用,如果低于两台在存储节点重启之后就没法正常加入zdata集群

重平衡会比较智能的分配重平衡任务在两个节点,检查重平衡的时候两个节点都要检查.

0420操作命令记录:

ethtool -i em3 查看网卡信息,当时主要看的是网卡固件

asmcmd --nocp --privilege sysasm online -a -G hdatadg 针对上面offline的磁盘恢复之后如何让这些盘online

--privilege sysasm 使用sysasm权限

-a 让所有offline磁盘 online

墨力计划

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

记一次zdata掉盘处理思路以及对failgroup的理解

评论

相关阅读