暂无图片
暂无图片
7
暂无图片
暂无图片
14
暂无图片

不忘初心,恪守信条:微盟经历的从删库到跑路的数据灾难

原创 eygle 2020-02-25
11293

作为运维人员,一定要恪守信条,不可触犯法律法规,这些信条一定包括:

  1. 安全为王,保护数据、保护系统,不碰触敏感数据,不损坏用户数据;
  2. 备份为王,任何系统,都应该设置备份策略,做到有备无患;
  3. 数据为王,任何系统的核心都是数据,对数据加强保护、多重保护;

而作为企业的技术负责人,则是需要不断思考,如何从技术、制度上,根本杜绝灾难性的数据损失,负责人,就是要肩负这样的职责和使命。

微盟集团在2月25日发布系统故障的通告,称和大家一起度过了煎熬的 36 小时,这是又一次人为制造的运维灾难。
image.png

微盟集团就此次系统故障作如下通告:2 月 23 日 19 点,公司收到系统监控报警,服务出现故障,随后立刻召集相关技术人员进行定位,发现大面积服务集群无法响应,生产环境及数据遭受严重破坏。微盟立刻启动紧急响应机制,并与腾讯云技术团队一起研究制定生产环境和数据修复方案。

截止到 2 月 25 日 7 点,微盟集团的生产环境和数据修复都在有序的进行,预计 2 月 25 日晚上 24 点前微盟集团的生产环境将修复完成,微盟所有新用户将可恢复服务,老用户由于数据修复时间问题,微盟集团将提供临时过渡方案,预计老用户数据修复将可在 2 月 28 日晚上 24 点前完成。

作恶之后,随之而至的肯定是后果担当,所以我曾经在 DBA的生存守则里写下『三思而后行』这一条,同志们一定要抗住一时冲动:

“我们事后对恶意破坏生产环境的犯罪嫌疑人进行追踪分析,成功定位到犯罪嫌疑人登录账号及 IP 地址,并于 2 月 24 日向宝山区公安局报案,目前犯罪嫌疑人已经被宝山区公安局进行刑事拘留,犯罪嫌疑人承认了犯罪的事实。”

或许是长期疫情的困守导致,或者是个人生活问题导致,但是企业组织应该加强对于员工的关心疏导:

微盟集团称,犯罪嫌疑人是微盟研发中心运维部核心运维人员贺某,贺某于 2 月 23 日晚 18 点 56 分通过个人 VPN 登入公司内网跳板机,因个人精神、生活等原因对微盟线上生产环境进行了恶意的破坏。

微盟集团表示,“针对此次事故微盟深表歉意,我们正在拟定相关赔付方案来补偿因此次事故而遭受损失的商家,我们对此次因人为造成的事故灾难无比愧疚,我们今后将一定吸取这个惨痛的教训,加强对线上运维的治理,同时我们也对因远程办公而疏忽对员工的精神状态的关注而深表痛惜!”

事发之后,围绕微盟构建服务的用户系统全部失联:
image.png

以下是微盟用户收到的故障通告:
image.png

image.png

祝所有运维兄弟们,保持身心健康,度过疫情的关键期,各企业也应当关注长期疫情之下的员工身心健康!

最后修改时间:2020-02-25 17:25:33
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

Brent
暂无图片
5年前
评论
暂无图片 0
没有用的,如果核心维护人员就是想要搞破坏,再怎么防也防不住,最多只能事后补救
5年前
暂无图片 点赞
评论
董小姐
暂无图片 暂无图片
5年前
评论
暂无图片 0
感觉像是出现操作失误,怎么会是故意破坏呢?
5年前
暂无图片 点赞
评论
董小姐
暂无图片 暂无图片
5年前
评论
暂无图片 0
看了之后吓出一身冷汗,我也曾出现过严重差错,现在执行语句都还有心理阴影
5年前
暂无图片 点赞
评论
外包DBA
暂无图片
5年前
评论
暂无图片 0
再怎么自动化也是人开发出来的吧~还是要找根本原因哦
5年前
暂无图片 点赞
1
盖国强
暂无图片
5年前
回复
暂无图片 0
自动化能解决一定的问题,但是高度自动化,会有高度的风险,Matrix 就是例子。
5年前
暂无图片 点赞
回复
BimmerDBA
暂无图片
5年前
评论
暂无图片 1
估计是伤心了要不就是伤薪了😄
5年前
暂无图片 1
1
盖国强
暂无图片
5年前
回复
暂无图片 1
所以,一定要找个女朋友!
5年前
暂无图片 1
回复
someone
暂无图片
5年前
评论
暂无图片 0
盖总,恕我直言,我有不一样的观点,我觉得既然是人的问题,就得从人的角度解决人的问题,比如可能是制度或社会问题导致,自动化智能化抖得有人参与,但愿我可能想错了
5年前
暂无图片 点赞
1
盖国强
暂无图片
5年前
回复
暂无图片 0
自动化和智能化,可以减少误操作,减少人的参与,就降低了遭遇破坏的风险。但是人的因素还是首要的,Matrix 虽然智能,但是就是无法稳定运行,所以需要一个Oracle,引导系统去自我进化。
5年前
暂无图片 点赞
回复
查看更多 >