证券行业数据资源较丰富,并且业务发展中对数据的依赖程度也较高。随着业务发展,证券公司逐步意识到大数据在企业战略中的作用和地位,并在大数据应用领域快速布局。作为未来业务发展的重要技术支撑手段,大数据技术、各应用分析模型和算法等将逐渐走进证券公司各项日常运营活动中,凸显“数据驱动业务”的重要地位。
广发证券成立于1991年,是国内首批综合类证券公司,自1994年开始一直稳居全国十大券商行列,是市场上具有较高影响力的证券公司之一。而随着公司业务发展,各部门对实时数据访问及计算的需求日渐增长,如日间客户资产实时查询、客户交易实时提醒、开户流失挽回、反洗钱及异常交易监控等业务场景,均需实时计算能力支持。因此,急需借助实时数据分析技术,及时洞察用户旅程,获取业务经营动态与全貌。
解决方案
针对广发证券当前现状需求,睿帆科技拟通过建设实时数据平台,引入数据实时访问及计算的能力,更好地支持业务发展。实时数据平台建设,以实时数据作业为核心,体系化覆盖数据作业的配置、开发、管控等全流程功能。系统初步分为四个模块,分别是数据实时数据采集模块、实时数仓元数据管理模块、实时作业开发模块、实时作业运维管理模块。
实时数据采集模块
支持上游数据库实时数据采集,满足对接异构数据源,包括且不限于 Oracle、 MySQL、PostgreSQL等数据库。支持以非侵入方式对接上游数据库,如对接数据库日志等方式。
对数据变化捕获并生成 CDC(Change Data Capture)类型消息格式作为实时计算事件流。支持生成 Canal 或 Debezium 等 Flink 实时计算引擎已适配的CDC类型格式。
输出消息写入流式数据源,支持写入兼容不同版本 Kafka 作为实时数据,支持以 PLAINTEXT 或 SSL 方式连接 Kafka,支持 Kafka的不同鉴权机制,包括且不限于 SASL/PLAIN, SASL/SCRAM 等鉴权机制。
支持异构数据源的数据同步功能。可从源端数据库对数据进行实时采集数据变化并同步写入到异构数据库。支持存量数据加增量数据的数据同步。支持数据校验满足数据一致性要求。支持适配 DDL,适配新增字段及字段变化等。
有效的实时同步作业管控功能,包括作业调度、作业启动停止、作业日志查看、错误排查,支持对指定范围数据进行重新采集。
实时数仓元数据管理模块
支持配置并管理流式数据源及流式表。支持调整 Kafka 数据源配置、连接串信息、Topic 信息,适配 Kafka的SASL/PLAIN, SASL/SCRAM 等鉴权机制等。支持兼容不同版本 Kafka,允许 Flink Kafka连接器的特性参数配置。
支持指定流式数据源不同消息格式,支持JSON 格式、CSV格式、CDC类格式(Canal 格式等)等 Flink引擎原生支持的数据格式。必须支持自定义 CDC 类格式和配套的Flink连接器实现。
流式数据源满足字段映射配置,支持复杂多层嵌套关系的消息字段映射,包括且不限于MAP/ARRAY等复杂结构嵌套。
支持配置数据库类型数据源及数据表。支持JDBC类型数据源,支持字段映射及类型配置。
支持基于角色的实时数仓元数据权限控制,授权和控制不同角色、不同用户对不同数据源及数据表的权限,包括查看、使用、修改等权限。
提供元数据管理Restful API接口,供数据资产元数据管理系统等第三方应用读取或导入对接实时数仓或批处理数仓的元数据信息。
实时作业开发模块
支持提交和部署Flink Jar方式打包的实时数据作业,支持配置作业启动参数包括Flink参数及业务参数。
支持使用原生Flink SQL编写和部署实时作业,包括支持原生Flink SQL的 DD和DML。支持使用原生Flink SQL的所有特性、自带函数、UDF函数及SQL Hints。
支持在Flink SQL类实时作业中选择和使用在实时数仓中已配置的数据源和数据表,包括流式数据表、维表、目标表等。
支持Flink引擎的Hive特性,包括在SQL以DDL或数仓元数据方式注册 Hive Catalog、以SQL方式写入Hive数仓、支持写入并提交Hive分区表。支持 Iceberg等数据湖格式及ORC等多种文件格式方式写入数据。
支持实时作业调试功能。支持使用模拟数据作为输入事件流调试验证业务结果,分步分阶段调试数据操作。支持模拟加载上游数据源数据并展示到操作台。
支持使用实时数仓已配置的元数据,包括数据源、数据表和字段映射等内容。
须支持CDC类型格式消息,包括Flink内置支持的Canal等CDC格式,以及其他的自定义CDC类型格式及配套使用的自定义格式连接器依赖。
支持基于角色的实时作业权限控制,授权和控制不同角色、不同用户对不同作业的操作权限,包括查看、修改、启动停止等作业权限。
支持按实时作业选择不同版本的Flink依赖包,包括不同的Flink引擎版本以及不同的第三方基础依赖包组合(如连接器、UDF、自定义格式等依赖包)。
提供作业管理Restful API接口,包括作业提交、作业启动停止、作业基本管理运维,以供其他系统对接实时作业能力。
实时作业运维管理模块
使用Apache Flink作为实时计算引擎,支持 Flink v1.12 或以上版本,并同时兼容多个Flink版本,可按作业选择指定具体运行的Flink版本。
支持将Flink作业部署并运行在Hadoop YARN集群上,支持以YARN Per Job 模式部署。支持Flink在YARN上以高可用方式(HA)启动。
支持对接和配置多个YARN集群,支持配置所用YARN集群资源队列,按实时作业配置所用YARN集群和资源队列。
支持查看原生Flink Web UI,查看作业拓补、节点状态、内存详情、背压 (Backpresure)状态及数值、检查点(Checkpoint)详情等。支持查看展示作业内自定义指标(Metrics)。
支持查看和搜索日志,包括作业提交日志、TaskManager日志等。
支持Checkpoint及Savepoint作业恢复机制。支持使用不同状态后端支持Checkpoint,包括且不限于HDFS及RocksDB等。管理和搜索选择作业可用的Checkpoint/Savepoint作为作业重启的进度恢复点。
支持配置作业的链路一致性级别,支持 Exactly-Once一致性提供全链路仅一次的实时作业一致性保障能力。
支持对接流程审批功能,对接广发流程系统等。
支持测试生产分离,可通过导出、导入的方式进行生产程序的升级。
睿帆科技基于自主研发Baymax大数据科学平台为其搭建了实时数据采集模块。围绕多源异构的海量数据入、存、管、出四个核心场景,集数据集成、数据治理、数据分析、数据监控及系统配置等功能,有效地支撑数据治理过程中的各个环节需求。
应用效果
此次通过搭建实时数据平台,帮助广发证券全面提高数据敏捷应用开发能力,快速满足对海量数据的实时统计分析需求,使其在数据资产管理、运营管理、客户服务等方面的效率得到快速提升。
此项目是睿帆科技开拓金融行业应用的重要一步。未来睿帆科技还将持续加强在金融科技领域的技术创新与应用实践,充分利用大数据和人工智能算法,打造专业智能的客户投资工具,为客户赋能,通过大数据平台建设,实现业务、客户、管理方面的智能化、数字化,提升业务价值。
往期推荐

喜报!睿帆科技成为国家级信创工委会会员单位,助力国产软件创新

睿帆科技荣登猎云网2021「年度最具投资价值创新企业TOP20」

睿帆科技入选2021粤港澳大湾区新经济先锋企业50强