问题来源:这两天,香港上市公司微盟(HK2013)因"删库"事件停运,已经过了36小时还在努力抢修数据的工作中。作为一位老DBA,我们一起来回顾和尝试反思下这个事件。
https://mp.weixin.qq.com/s/zAcAcLF3NFTj5F81zWbGOg

总的来说是三分技术,七分管理吧。做好数据备份策略,做好精细化权限管理,做好数据库审计。


事实上运维体系中最大的隐患就是人,无论技术和管理上防范措施多么周密,仍然不能保证绝对的安全,特别是针对有意为之的报复行为,更是防不甚防。任何系统都不可能做到百分之百的可靠性,对于恶意的操作,总能找到缺口。因此,对运维人员而言,尤其具有较高操作权限的人员,不但要在权限上进行限制及保障,更要在日常的工作中使其提升安全意识,树立正确的职业道德及价值观。


三分技术,七分管理确实也是这个道理。对运维人员来说职业道德也很重要,但对于公司来说,架构选择,数据备份、数据安全也是相当重要。
业务做得再好,数据保障做不好,那就是灭顶之灾。所以备份则就首当其冲了,两地三中心架构,数据多份备份才是最后的救命稻草。最后盖老师的《(Oracle DBA 手记4 - 数据安全警示录)》值得一看。https://www.modb.pro/download?type=1


写的很好,共勉~!


说下俺的观点:
正如叶老师在文章《又见删库》中所说,对于内部人员蓄意破坏来说是最难防范的,但是即便如此我们依然需要使用特定的手段来尽可能防止相同事件再次发生
1、首先我认为运维人员应该树立正确的价值观,对于数据,对于生产环境需要有敬畏之心
2、操作权限需要根据角色等级进行权限分级,对于操作人员尽量给与最小操作权限
3、操作人员需要登录服务器操作通过堡垒机登录,也能够在一定程度上限制用户行为
4、数据库不仅要做高可用,同样需要做容灾甚至两地三中心等容灾措施
5、合理的备份策略,并且做好备份验证工作,确保备份可靠性
6、恢复演练,定期做好恢复演练以应对此类事情,并且需要制定合理的恢复策略尽可能减少恢复时间
7、对于各种场景下的应急措施及应对方法形成书面的应急预案,这样值班人员对照应急预案也知道如何处理,最大程度减少处理沟通时间
8、最后的最后,想对各位老板们说一句:对运维兄弟们好一点~~~~
《又见删库》:https://zhishutang.com/mfl


