哈喽小伙伴们,技术人生系列文章又和大家见面啦。今天我们要介绍的是一个大家都很关注的问题——灾备切换。
金融科技关系到国家安全,金融灾备体系建设是保障金融机构业务连续性的重要防线,是防范和化解金融风险的有效措施。特别是在金融科技已经成为金融行业核心竞争力的今天,金融灾备体系无疑受到了更多的关注。
在对金融行业实施了众多成功案例后,我们重新复盘了一家具有典型特征的商业银行灾备自动化切换平台的建设过程,希望从中总结出一些经验,与小伙伴们分享。
/ /
该行平台基于中亦科技灾备自动化管理系统(EVO-DR)打造。EVO-DR内涵中亦科技多年灾备建设运维的经验,结合灾备体系的监管要求,实现灾备演练切换过程的标准化、流程化、可控化、自动化和可视化,形成的统一的灾备管理工作支撑平台。该平台可以结合业务视角定期评估,持续改进灾备管理工作,进一步提升数据中心灾备管理的整体水平,充分提升IT价值和业务连续性。
核心功能:
1、灾备切换可视化:向各层级人员提供切换过程及系统运行情况的分类展示,实现跨团队协作、信息同步、进度实时查看、切换过程动态实时展现等要求。
2、灾备切换可控化:流程管理、场景管理、预案管理、演练管理。
3、灾备切换自动化:切换前检查、一致性检查、切换自动化、切换报告自动生成。
产品优势:
1、大屏展现:切换过程动态大屏展现,为决策层、指挥层、操作层提供全方位动态视图展现,主要包括切换过程以及相关业务指标的动态展现。
2、内置大量最佳实践:基于中亦科技多年大型数据中心运维经验,平台内置大量运维最佳实践,脚本3000+、组件1000+,涉及主流的操作系统、数据库、中间件、网络、负载均衡等。
3、预案管理:应急预案和切换预案定制,实现切换决策有据可依、指挥快捷高效、操作自动安全可靠
4、自动生成报告:容灾切换演练、真实切换报告自动生成,可根据报告及演练评估结果进行有针对性的改进
某商业银行与我们在运维等方面已经合作多年,包括两地三中心灾备体系建设我们都有深度参与,该行现有核心业务系统100多套,涉及主机、网络、存储2000多台,按照监管要求该行每年进行两次切换演练。虽然在基础架构投入力度很大,但该行的灾备切换方式还是以人工为主,所以尽管每次演练参与人数多,动员力度大,但效果依然不理想,参与人员耗力耗时,加班加点,但各种意外情况频发,最重要的是难以达到预期RTO (Recovery Time Objective,复原时间目标) 和RPO (Recovery Point Objective,复原点目标)目标。
确定目标
今年,该行下决心要做好灾备切换工作,并将其列为该行信息科技工作的重要内容,从人工切换转变为自动化切换,切实提升切换的效率,实现RTO、RPO双达标。
为此我们与客户共同制定了灾备自动化切换平台的建设目标:
◆实现灾备切换预案中技术切换、回切部分的标准化、流程化和自动化,包括系统、网络设备及应用切换,切换系统包括AIX、Linux、windows平台、DB2、Oracle、各种中间件、各类网络设备、安全设备和负载均衡;同时满足切换步骤转人工处理(包括步骤报错转人工、直接转人工等场景);
◆完成ECC大屏展示内容的设计、实施工作,实现灾备系统切换过程中的ECC大屏全屏展现,直观显示切换进度、各系统状态及其他相关信息,包括但不限于切换过程的状态变化、关键业务指标、性能指标、针对不同角色展现不同的示图内容等;
◆实现核心业务系统的灾备自动化切换,切换过程动态展现;
◆实现灾难切换预案管理和灾难切换报告的自动生成及导出;
◆实现切换流程的可视化托拉拽定义,支持串行、并行、分支、跳转、断点续做和人工干预等;
◆实现多切换场景的流程配置;
◆实现生产与灾备配置的一致性检查并能够自动同步。
实施难点
由于对客户基础架构比较熟悉,加之之前项目的经验,项目组成员迅速确定了本项目实施的四大难点,作为重点突破口:
◆灾备切换预案不完整,切换流程、步骤、命令没有及时更新,无法直接使用;
◆客户技术人员配合不到位,严重影响项目进度;
◆缺乏必要的测试环境,无法提前进行有效的技术验证;
◆生产和灾备环境不一致,影响实际切换无法顺利进行。
实施过程
从复盘梳理的角度来看,实施过程可以归结为一些关键工作和重要节点,但在实际实施过程中,参与项目的小伙伴们付出了巨大的努力。本项目实施开发的基础是我们自主研发的灾备自动化管理平台(EVO-DR),该平台基于我们多年大型数据中心运维经验,平台内置大量运维最佳实践,脚本3000+、组件1000+,涉及主流的操作系统、数据库、中间件、网络、负载均衡等,但对于该行的一些个性化需求还是进行了大量的定制化开发工作,以保证自动化切换的效果。
重点工作可以概况为:
◆安排运维经验丰富的实施工程师,详细梳理每套业务系统的切换流程、步骤、命令和脚本,形成完善的切换操作手册,提交客户审批确认;
◆跟客户技术人员梳理完善灾备切换场景预案;
◆搭建必要的测试环境,对于核心步骤和脚本进行充分测试,对于核心系统进行主备切换测试;
◆部署灾备自动化平台,按照梳理好的切换步骤和灾备预案,定义每套业务系统的切换流程和切换场景;
◆根据客户不同角色设计大屏展示内容。

某行灾备自动化切换核心功能架构图
经过近3个月的共同配合,我们成功为客户搭建了基于EVO-DR定制化开发的专属灾备自动化切换平台,实现了前述任务目标的所有功能。
特别是依据客户角色设计的灾备自动化切换可视大屏,得到了从行级领导到操作工程师的一致好评,不仅保障了灾备自动化系统在管理、协作、切换、运维等不同场景下进行跨团队协作、信息同步、进度实时查看、切换过程动态实时展现等要求,也让各项操作更加直观和便捷。
▷行级领导示图

▷科技部领导示图

▷工程师操作示图

通过本项目的实施,客户彻底实现了灾备切换的自动化,不仅将切换流程依赖关系固化在平台中,一键式自动化执行,实现了自动化和管理流程的结合,打造了统一的灾备切换管理指挥平台,更实现了灾备切换过程动态可视化展现。最为重要的是简化了切换的操作过程,降低了人员依赖度和人工操作失误的概率,提升工作效率,完全实现了RTO和RPO的既定目标。通过对比以前人工切换和自动化切换的各项指标,自动化切换的优势显而易见:

当前,金融科技已经不同于以往对其业务效率提升工具的认知,金融科技已经成为业务创新和行业发展的引擎,金融行业对金融科技的依赖度将会不断提升,作为金融科技运行的基础保障,其灾备系统的重要性也将被提升到前所未有的高度,以保证其业务稳定性和连续性,降低由于系统故障带来的业务风险。就我们以往实施的案例来看,大多数金融机构已经按照监管要求建立了完备的灾备软硬件体系,但往往被忽视灾备系统实际运行的最后一公里——灾备切换工具,这也直接导致了灾备切换整体效率的低下。
灾备自动化切换平台虽然建设过程复杂,建设难度大,专业性强,但通过对比我们不难发现,其对灾备切换的整体效率会带来质的提升。早启动灾备自动化切换的建设,就会早日享受到自动化带来的安全和便捷。
/ /
好啦,本期技术人生系列文章就到这里啦,我们下期再见。
- end -
关注 “中亦科技” 公众号
查看更多精彩文章

