


一
背景
近年来随着科技金融新生态、新模式的发展,银行业已迈入科技金融改革转型时代,我行也坚定了以“技术+数据”双轮驱动支持全行改革转型的目标。随着科技创新业务快速发展和新技术的应用,大数据的深入挖掘、精准分析,深度整合数据源,集中分析展示,结合运维应用场景,成为推动业务发展的主力,也是助力智能化AIOps(人工智能运维)演进的利器。
Gartner发布的2020年数据与分析领域的十大技术,文中的几个关键技术方向总结如下:
趋势一:更智能、更高速、更负责的AI
到2024年底,75%的企业机构将从人工智能试点转为人工智能运营,基于流数据的分析基础架构的数量将因此增加5倍。
趋势二:仪表板的衰落
具备更多自动化和消费化体验的动态数据应用将取代视觉化、点击式的数据创建和探索,这意味着:最相关的洞察将基于用户的场景、角色或用途,流式的方式传输给每个用户。
趋势三:关系奠定了数据和分析价值的基础
到2023年,图谱技术将促进全球30%的企业机构决策过程的快速情景化。图谱分析帮助数据和分析领导者找到数据中未知的关系,并查看传统分析技术不易分析的数据。
本文从网络流量采集、可视化到智能分析几个维度分享民生银行数据中心网络流量可视化及智能运维实践。
二
流量数据采集
网络借助其承载着所有业务流量的先天优势,通过建立统一的流量采集分发平台对网络中业务流量进行全面采集并输出至BPC交易分析平台、NPM网络监控平台、安全态势分析平台、大数据平台、审计平台等各大运维平台,成为运维智能化、数据分析的基础。
近几年,随着业务流量的增长,虚拟化、容器的逐步推广,云及SDN环境中服务器10G/25G高密接入、网络设备间40G/100G互联普及,传统的旁路镜像、Netflow方式已无法满足流量采集的需求,流量采集面临诸多挑战:
1. 镜像目的单端口已不能满足业务增长的需求,在镜像端即可能出现丢包、背压等现象,同时汇聚平台大量多对一引流需求同样面临大流量及微暴流量导致出现丢包现象
2. 大量的虚机、容器、云环境的部署背景下,虚拟化环境东西向流量采集通过传统镜像无法实现
3. 服务器10G/25G高密接入场景下的镜像需求对交换机稳定性带来影响
4. 云及SDN环境网络设备间大量40G/100G互联已无法通过镜像、Netflow方案解决流量采集需求
面对以上问题的挑战,我行通过近几年的探索和架构优化,逐步形成了数据中心统一、高效的流量采集分发平台,同时满足传统环境和大规模云环境各种场景下的流量采集和分发需求。主要优化内容说明如下:

图: 数据中心统一的流量采集分发架构
· 旁路端口镜像及引流优化
首先制定全网流量采集方案,针对不同的场景进行差异化采集并进行优化,如传统环境具备条件扩容网络设备通过端口捆绑方式,具备端口升级的环境镜像端口带宽由10G提升为40G,将镜像端口带宽扩容,从源端解决背压问题;SDN和云环境中镜像端口根据需求全面采用40G;汇聚平台针对从镜像目的端口接收的流量启用分布式过滤功能,实现按需过滤配,如针对数据备份、监控等非必须通讯对基于四元组进行过滤;从源端全面优化采集的流量,缓解流量采集分发平台压力
· 流量采集虚拟化部署
针对容器、虚拟化环境将流量采集探针直接部署在虚机、容器、云服务器等计算节点里,通过采集点的下沉实现虚拟环境的东西向流量采集。同时虚拟采集控制器与云平台、容器平台接口对接,可动态感知虚机、容器POD迁移及扩缩容,动态更新流量采集及监控策略,解决虚拟化平台流量采集盲区的同时全面解决容器、虚拟化环境流量采集问题

图:容器、虚拟化环境流量采集示例
· 增加分光器部署
引入HD(高密度)无源光纤TAP设备,根据具体需求分别部署在10G、40G、100G链路网络互连设备中,通过分离光信号,实现监控数据捕获的同时不损坏原有网络数据的传输,监控分离的光信号对源输入信号不产生任何影响情况下,实现大流量的采集
· 引入其它技术
在原有Netflow采集的基础上,引入Fabric Insight、Rspan、隧道等技术做作为流量采集的补充,针对大流量区域通过采样比、芯片切包等技术监控手段获取全网流量和性能数据,作为监控的补充
三
流量分析可视化
近年来我行各类业务量增长迅速,IT架构全面向IAAS、PAAS、SDN转型,数量繁多、关联性复杂的业务系统陆续上线及云环境的推广,对运维人员的业务连续性管理水平带来了较高挑战。如何对业务系统有效监控和风险防范,保障关键业务的高性能和高可用性,以及如何对现有的运维流程进行优化,不断提升人效和运维管理水平成为运维部门急需解决的重要问题。
流量分析工具对接收到的网络流量进行统计分析,以业务为视角,针对网络性能、应用性能进行可视化和精细化监控与分析,实现了端到端的全业务流量和应用性能监控。网络运维人员利用流量分析工具快速、直接定位各类流量和性能问题,运维模式由“被动”变“主动”的同时为开发和业务发展提供支撑。
3.1
负载均衡高速日志分析可视化
负载均衡、域名解析设备作为数据中心最重要的业务交付节点,可以统一获取所有应用的请求元数据。通过高速日志分析工具实现应用的性能可视化管理;实时监控网络设备上应用的响应性能、访问量、成功率等关键参数指标。通过数据报告统计慢页面、错误页面、重载页面等信息,对应用交付进行持续优化。
通过特殊的分析工具,定期输出互联网区业务系统日常运维报表,预判及评估业务发展趋势,提前进行及时有效的应对措施,保障业务平稳运行。通过实时监控,将监控情况定期反馈给开发及应用人员,指导功能优化,如CDN托管、前端资源加载方式优化等手段,在降低互联网带宽需求的同时,有效提升业务系统的用户体验,实现降本增效的双赢效果。

图:基于负载均衡的高速日志分析可视化
3.2
流量和应用性能分析可视化
拓宽流量分析工具监控参数指标,在网络流量、网络连接、网络性能、应用性能、主机性能、区间性能各指标再进一步细化参数选择;添加分析维度,将具有共同特性的对象形成合集,按不同维度进行自定义组合筛选;通过添加AI模块实现智能基线、智能分析、智能告警等各项功能,提升分析能力,降低运维人员技术依赖度。

图:关键业务端到端监控视图
针对网络环境复杂、业务系统多层级架构部署等情况下,通过采集网络中各关键节点的业务流量,以应用、系统、网络所关注的TCP连接、应用响应、网络吞吐、数据包传输等各维度,监控各项指标参数,对关键业务系统进行业务流的端到端可视化监控、对网络路径进行全流量跟踪监控,实现故障快速定位、疑难杂症解决、趋势提前预警。

图:基于网络区域的全局监控
3.3
容器及虚拟环境可视化
随着IT基础设施、业务应用逐渐向容器、云、虚拟化迈进,上云业务规模逐渐增加,混合云中网络架构变的更为复杂,云环境下的KVM、ESXI、容器等各类动态资源池内网络和应用性能同样需要实现可视化的监控。我行也一直致力于研究VMware、Openstack、容器云环境下的流量采集,最终通过轻量级部署虚拟采集器,实现云网络环境流量采集、分发和可视化功能。通过统一的管理平台可动态展现云环境资源情况,同时支持流量统计、性能监控等各项指标监控功能,形成关联IaaS资源、PaaS资源、服务应用等全面可视化的监控图谱。

图:容器及虚拟环境可视化监控
四
流量分析助力智能运维
随着业务系统架构越来越复杂,一次用户的业务请求可能要经过网络节点、安全节点及应用节点等多个环节才能完成。当业务出现不可用、性能下降时,运维人员往往难以准确定位故障域是由哪个节点异常导致的业务系统受到影响
基于网络流量、日志、配置、CMDB资产等信息作为数据源,网络流量可视化运营平台通过采集各类基础信息,根据需求定制化各类场景

通过将智能分析进行需求场景化,结合不同的用户对象建立不同的分析场景,满足各项需求输出。我行数据中心在积累和整合多种数据,集中分析展示,深入挖掘数据价值
4.1
深度结合CMDB信息
智能化分析工具在接收网络流量的同时,结合CMDB提供的IP关联信息,可动态展现资产活跃度,并及时关注异常及僵尸资产,保障生产系统安全平稳运行。
在与CMDB结合方面,重点实现不同CMDB数据源的关联功能;支持用户灵活定制和选择需要关联的字段,满足不同场景差异化需求;针对对接数据提供客户自管理功能。另外,基于获取的数据源同时基于流量分析平台分析功能提供CMDB数据比对和反向校准功能,不断完善和优化CMDB信息,提升CMDB数据的准确性。

4.2
互访关系可视化
基于网络流量、日志、配置、CMDB资产等信息作为数据源,可视化工具通过收集这些基础信息,在内部进行集中分析并通过统一平台实现结果展示。根据需求定制化各类场景,如:网络区域互访视图、业务系统互访视图、防火墙异常流量视图、安全监控分析视图等,满足不同运维人员的需求。
业务系统互访视图可动态展现业务系统模块部署间互相调用情况,服务于前端哪个模块,后端调用哪个模块,除可详细展现访问的源/目的IP及端口外,还可关联CMDB资产信息,具备TCP链接、网络吞吐、应用及主机性能等各项指标监控功能;网络系统互访视图可重点关注区域之间互访情况,及时关注异常跨区访问。实时监控区域网络流量模型,增加基线学习能力,预测网络增长趋势;安全监控视图可结合协议特征设定预判规则,根据机器学习动态形成白名单机制,专注于发现新增的异常访问,作为安全溯源的有力输出。

图:基于业务的互访关系可视化
4.3
自动化运维
一个友好的分析工具不仅需要具备强大的功能,同时应具备较强的可维护性、实用性。网络流量分析探针设备在其发挥监控功能前提,不仅需要接受全网流量,还需要提前完成监控元素(站点IP、应用服务端口)的配置工作。然而在数据中心规模不断壮大情况下,尤其是虚拟资源动态迁移后IP随时变化,传统的人力运维难以维系。我行将流量分析探针设备以API接口方式与CMDB平台对接,可及时捕捉监控元素的变化,自动更新监控配置信息。同时增加AI算法库、专家知识图谱、智能巡检等智能算法,自动输出智能分析结果,直接展示问题根因。
例如,借助网络流量可视化运营平台的自动化巡检能力,基于采集的数据,定期对数据中心进行全方位的巡检服务可主动发现数据中心的异常流量及隐患问题。运维人员通过事前的定期巡检,发现隐患并及时处理。此外,通过定期任务的方式,自动分析系统所采集相关数据,主动找出其中的异常事件,发现数据中心即将发生的故障或者潜在隐患点,如异常跨区访问、高危端口(用户提前定义)触发流量、恶意扫描行为、异常 DNS 请求等行为。实现主动发现,及时解决。针对系统巡检检测出的隐患数据,系统可提供数据回溯及智能分析,协助运维人员快速定性隐患问题。

网络流量可视化运营平台辅助运维从工具化向自动化、智能化方向的演进。从以数据作为切入点进行面向业务的数据可视化分析,解决目前运维管理中面临的实际问题。达到提升业务连续性管理水平,提升运维管理水平和运营效率,减轻对运营人员经验和技能的依赖,降低维护成本,从而整体提升IT 服务质量及用户满意度。
五
展望
随着云计算、微服务在企业信息化建设中的大量应用,IT运维正从运维保障向业务运营、从低价值劳动向高附加值服务转型发展。而在这个过程中,运维平台化和运维智能化建设至关重要。网络流量可视化运营平台通过多源数据的采集、对接、运维管理数据的整合,并依托于内置的智能算法、专家知识库以及多平台联动能力,实现从设备级运维,到基于用户体验、基于业务交易的场景化运维,为生产运营提供支撑。
数字化经济、互联网金融的发展对金融领域带来的是挑战,也是机遇。在可视化和智能运维方面还需加大探索的脚步,不断提升金融科技创新的能力,助力科技金融银行战略转型。

冯晶晶: 任职民生银行总行网络管理中心,负责数据中心网络规划、建设、运维等工作。重点研究数据中心虚拟化、容器环境流量采集及监控部署、智能化分析工作,协助推动数据中心网络新技术研究及技术落地。配合安全推动并落实数据中心信息安全治理工作。
王全: 任职民生银行网络管理中心,负责数据中心网络规划、建设、运维等工作,在应用交付/负载均衡技术领域具有多年的研究及实践经验。目前专注于云计算、SDN网络技术,并在网络流量数据智能分析方面进行积极探索和实践。
兰庆白: 任职于民生银行网络管理中心。高级网络架构师,负责数据中心网络规划、建设及相关运维工作,目前专注于云计算、SDN网络技术,研究探索数据中心虚拟化、容器环境流量采集及数据分析等工作。

编辑:民生运维文化建设小组







