
引言
模型运行管理平台是中国光大银行新一期科技战略规划“十四五工程”的重点项目。根据监管的指引和要求,结合中国光大银行数字化转型需要与模型部署管理痛点,开展企业级模型运行管理平台建设工作。作为企业级平台,模型运行管理平台以提供模型敏捷部署及全生命周期管理能力为目标,承载营销、风控、运营等领域的模型运行功能,服务于业务高质量发展。
进入数智化时代,随着各类模型在银行业务中更加广泛和深入的应用,对模型风险的识别和模型的有效管理变得更加迫切。同时,监管部门近年发布的政策和指导,将模型管理的重要性提到了一个新的高度。比如,2021年底中国人民银行发布的《金融科技发展规划(2022-2025)》强调“健全智能算法管理规则制度,建立模型安全评估和合规审计体系”;2022年银保监会发布的《关于银行业保险业数字化转型的指导意见》中,曾明确提出“实现模型算法集中统一管理,对模型开发、验证、部署、评价、退出进行全流程管理”、“防范模型和算法风险,模型管理核心环节要自主掌控”。我行也面临着模型资产分散管理维护、缺少统一管理,模型管理数字化水平不高,模型部署应用效率偏低等痛点。
为了落实监管要求,全面响应数字化时代的模型敏捷服务能力需要,经过对金融同业和互联网行业模型管理相关平台解决方案的细致调研,中国光大银行将“提升数字化经营能力”作为目标,以模型管理为着力点,从2022年开始建设企业级模型运行管理平台。该平台已于2022年12月完成首次投产,并完成多次迭代功能投产,目前处于系统试运行阶段。
为深化“123+N”数字银行发展体系建设,并持续提升科技自主可控能力,模型运行管理平台坚持使用行内POIN平台自主研发,在敏捷部署、统一管理、集中监控等领域实现突破,将支持全行范围内包括营销、风控、运营等各类业务场景的模型部署需求。

建立标准模型作业模式
在模型管理相关功能设计中,以MLOps理念为指导,建立了集中统一标准的模型管理作业模式,涵盖了模型工程化改造、测试、部署及投产验证全部流程。平台还建设了模型版本管理功能,支持分版本记录和查看模型信息、模型报告文件、工程代码;支持切换部署指定版本进行模型更新。通过打造模型生命周期闭环模式,提高赋能业务的效率,降低模型资产管理成本,守住模型风险管理第一道防线。

创新租户化运营体系
模型运行管理平台整体采用云化部署方案,利用云原生技术能力,创新性建立租户化运营体系,支持按租户进行CPU、内存、硬盘的分级管理和分配,可以做到各使用方相互间模型资产隔离、数据隔离、物理资源隔离。同时,配合使用模型资产清单管理、监控大盘等功能,实现对模型集中统一管理和资产预览,有效沉淀和维护了全行级模型资产。

优化模型部署管理流程
模型运行管理平台在模型部署流程设计中,充分结合现有银行科技运维规范和模型研发部署流程。模型推理工作流在测试环境完成功能测试和性能测试后,生成模型报告,进入线下评审。评审通过后,推理工作流、模型包和模型镜像等将被打包导入生产环境,在保证测试环境和生产环境隔离的同时,最大程度减少重复步骤,降低操作风险,提高部署效率和容错率。部署流程中还嵌入了线上审批流程,可以根据模型风险等级差异设置不同的审批层级和审批人员,灵活实现模型的分级管理。


敏捷化部署及监控体系
为了更好地支持模型服务敏捷部署,模型运行管理平台引入开源模型部署组件(Seldon-core),支持模型包在线制作模型服务镜像。同时对接服务网格,提供灰度发布、A/B测试等流量配置方案,支持模型镜像快速发布,以接口形式对外提供模型推理服务。此外,平台还接入了分布式监控平台,配合批量任务回流的推理结果真实值,对模型表现性、特征稳定性、物理资源占用、服务调用等指标进行监控和结果展示,减少模型需求方对上线后模型的监控管理负担并缩短异常信息捕获时间。
模型运行管理平台创新性的功能设计以及对光大银行基础技术资源的充分利用,降低了模型管理的人力和时间成本,提升了模型管理的数字化水平。
未来,我们将在数智化模型管理领域继续深耕,探索营销、风控类型模型的差异性管理,完善模型迭代更新的敏捷化部署方案等。随着大模型的逐步应用,如何对大模型有效管理也是我们必须面对的课题。模型运行管理平台将继续完善和优化平台的基础能力,助力中国光大银行高质量发展。

作者 | 侯云飞 查睿嘉
视觉 | 王朋玉
统筹 | 郑 洁

