阿里新加坡数据中心火灾启示录：如何确保您的数据永不丢失？

中启乘数 2024-09-24

116

近期阿里云新加坡的数据中心遭遇了火灾事故，很多朋友都在关注这个事情，火灾影响了该数据中心的正常运作，对依赖其服务的企业和个人造成了不同程度的影响。

距离发生火灾的时间已经过去了10天的时间，从阿里云的健康看板上可以看到，云服务器至今没有恢复，存储数据的块存储、文件存储等花了9天的时间才恢复。（比较有意思的是，虽然下面云服务器ECS和日志服务状态还是故障，但上面的总异常却变成了0，不知道是不是看板的bug）

现在的应用基本都是无状态的，服务器挂了大不了换个服务器重新部署即可，但数据库的数据，如果没有设计容灾的机制，就会出大问题。

假设数据库都放在这次火灾发生的阿里云新加坡机房，火灾发生后，很可能还没来及将数据迁移出来，就已经和服务器失联了。这个时候，如果在其他地方有备份，还可以抢救一下，丢一些数据，但数据库拉起来还是可以继续提供服务的。如果没有备份，其他机房也没有备库，可能就得祈祷阿里云的硬盘烘干后还是正常的了。

所以设计并维护一套数据库的容灾架构就尤为重要，可以保证在极端事件发生时，公司的核心业务资产也不会受损。中启乘数科技推出了一套底层自研的PostgreSQL/PolarDB数据库管理平台CLup，在页面上点点鼠标，就可以快速的搭建和管理跨机房容灾的高可用数据库集群，使您的业务数据高枕无忧。

CLup数据库管理平台

CLup软件是专为PostgreSQL、PolarDB等数据库实现了高可用(包括读写分离)集群功能和基础监控管理以及对数据库进行定时或立即备份，恢复的平台软件。

基于流复制的高可用功能

在流复制的一主多备集群中，CLup安装在一台独立的机器上，CLup去探测各个数据库是否正常，如果不正常，则会进行相应的切换工作。当主库坏的时候，clup会自动把其中一台延迟最低的Standby库提升为主库，同时把vip也飘到新主库上。也可以手工在管理界面一键完成主备库的角色互换（switchover）。

基于共享存储的高可用功能

类似原先小型机HACMP的高可用方案，把共享存储挂载到两台机器上，数据库运行在其中的一台机器上，这台机器称为主用机，另一台机器称为备用机。当主用机出现问题时，CLup会自动把数据库切换到备用机上运行，同时也会把vip漂移过来，从而实现高可用。

基于流复制多个只读备库上的负载均衡功能

可以把一些可以承受少量延迟的只读请求负载到多个只读备库上。对外提供了一个只读vip，应用连接到这个只读vip时，会负载均衡到多台只读备库上。只读vip是在一台只读备库上，当这台只读备库出现问题时，只读vip会切换到其它的备库上。当一台只读备库出现问题后，这台只读备库会从负载均衡器中移除出去，这样请求就不会在发到这台坏的备库上了。

数据库监控报警功能

监控指标包括数据库连接数、WAL日志吞吐量、备库延迟、每秒操作的行数、TopSQL等指标的监控。可以对事务ID回卷、备库延迟、总连接数、活动连接数、磁盘使用率等指标进行报警。

CLup为什么好用？

集中管理： 可以对几十套至上百套PostgreSQL/PolarDB等高可用集群进行集中管理。通过一个统一的管理界面可以方便的看到所有数据库的运行状态。
功能全面： 可以对主机坏、硬盘坏、网络故障、网络孤岛、数据库故障等各种故障进行完善的高可用切换。可以同时支持对流复制和共享存储的高可用方案的支持。
负载均衡： 负载均衡和高可用机制紧密结合在一起。发生各种故障后无需任何人为干预，负载均衡可以不受影响的工作。
配置简单： 提供图形化的配置界面。内置了各种故障切换机制，无需写自定义的脚本来实现高可用功能，避免人为配置失误导致的系统不稳定。
监控简约实用： 数据库监控的最佳实践，监控项既不显得杂乱，有非常实用。

点击关注乘数科技

扫码添加乘数小助手微信号

邀您进入《PostgreSQL修炼之道：从小工到专家》

读者技术交流群

大数据 postgresql 高可用数据中心负载均衡

文章转载自中启乘数，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。