暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

D-SMART技术白皮书V2.2

白鳝的洞穴 2022-11-25
3408
 D-SMART V2.2是2022年最后一个升级版本。明年D-SMART将启动V3版本,V3版本的重点会放在信创数据库的支持上。而V2.2是对V2版本的一个全面的提升。对故障诊断能力,故障模型,健康模型,巡检报告等都进行了较大的改进。并正式发布了基于异常检测算法的智能基线。
D-SMART的技术白皮书一直是老白我亲自写的,希望能够体现出我对运维自动化的一些看法,以及D-SMART在运维工作中的位置。本文有点长,大家可以根据自己的喜好,挑选一些自己感兴趣的章节去阅读。当然,如果你觉得这只是一个广告,那么你可以放弃后面的阅读了。
本文包含三部分内容:1)产品简介 2)架构原理 3)应用场景




D-SMART运维知识自动化系统

大师问诊V2.2.0


技术白皮书



DBAIOPS社区

202211


1产品简介

1.1 产品背景

信息系统的运维面临数字化转型的压力,因为随着信息系统的高速发展,系统规模与复杂度都已经达到了前所未有的高度,传统的依靠专家与大量人力的模式将无以为继,数字化转型势在必行。

目前企业的信息系统运维数字化转型面临几大难点,首先系统组件越来越多,越来越复杂,其指标体系过于庞杂,极难理解,更不容易准确采集;其次是大量的运维经验和运维知识很难数字化,更难自动化,单一企业来完成此项工作技术难度大,成本过高;第三方面是研发队伍中缺乏真正的运维专家,很难开发出能够替代人的运维自动化产品。

基于“运维知识自动化”的理念,基石数据的一群运维专家在数年前萌生了以专家知识为基础能力的运维自动化系统的研发念头。想利用现有的知识图谱、人工智能、大数据分析等技术对信息系统的监控数据进行加工分析,结合运维专家的运维知识以及实际故障案例,形成一套以运维知识为核心能力的深度运维工具,用以辅助人工运维,逐渐实现工具替代人工的目的,助力信息系统运维的数字化转型。D-SMART大师问诊系统也应运而生了。

D-SMART大师问诊以知识自动化为核心构建智能化运维能力。与目前主流的AIOPS理念不同的是,大师问诊的理论基础不是数据分析算法,而是运维大师们多年沉淀下来的运维经验。基于知识图谱和知识推理,我们构建了大师问诊系统的基础框架。而大量的自动化分析工具与智能化算法的引入,让大师的经验有了更大的用武之地。运维知识图谱、机器学习、深度学习的算法构成的算法智能,形成了D-SMART大师问诊的双引擎。

充分利用专家经验,建立专家模型,并通过机器学习,人工智能构建运维自动化评估与预测能力,可以借助专家经验训练出媲美专家的智能分析模型,大大减少运维工作对专家的依赖,提高运维的效率。采用传统的运维方法,一个专家采集、分析一套系统的数据往往需要花费数个小时,才能完成数据分析,并得出相关结论。

1.2 技术特点

自动化:数据分析完全自动化,直接给出结论,不需要运维人员有太强的技术能力,就可以轻松使用本系统。为了实现自动化,D-SMART中积累了运维专家编写的2000多个工具。

场景化:D-SMART通过大量场景化的模型来帮助运维人员发现问题,分析问题,解决问题。让运维人员面对的不是一些复杂的数据,而是各种已经面对国或者正在面对而手足无措的场景。

智能化:通过专家模型和人工智能模型分析数据库状态,直接给出专家级建议。通过运维经验、健康模型等的的积累,以及知识图谱的应用,建立运维知识图谱,存储于图数据库中。通过图数据库不断积累各种运维经验,并用于智能化的分析中。

专业化:和普通的运维自动化产品不同的是,D-SMART是一大批具有20多年系统运维经验的专家的经验结晶,系统提供的智能模型和运维经验、运维知识点工具都是专家级的,在使用习惯上,也比较迎合运维人员的思维习惯。

自成长:D-SMART系统不仅仅是一个普通的运维工具,同时具有运维知识库的功能,运维人员可以把自己的运维经验和运维知识点积累到系统中,随着系统使用的时间推移,系统可以积累大量的经验。同时机器学习引擎可以采集的用户数据不断纠正系统异常的判断条件。

无代理:D-SMART通过数据库只读权限账号采集数据库的指标,通过ssh命令方式采集UNIX/LINUX系统的指标,只有WINDOWS系统需要安装代理来采集IO/CPU/内存/网络的指标。

知识积累:D-SMART是一个知识自动化系统,其核心不是如何监控,而是对系统进行健康管理,其核心价值不是平台本身,而是平台中积累的知识,这些知识部分由D-SMART的开发者提供,部分来自于越来越多的用户的知识积累。随着D-SMART的应用越来越广泛,知识积累会越来越丰富,系统提供的能力也会越来越强。

生态化:任何一个运维自动化工具都不能解决运维工作中的所有问题,只有工具+运维人员+远程专家的生态才能建立一个可确保系统长期安全的生态体系,因此D-SMART的销售与运行模式采用工具+智能分析+远程辅助的模式,我们称之为健康管理模式。这种生态为我们的客户提供了更好的保障。

1.3核心功能

D-SMART运维知识自动化系统是基于数十年运维经验的专家经验建立的专家模型和基于大数据分析,机器学习的人工智能模型双模型引擎作为核心研发的运维自动化工具,其目的是减少运维人员分析数据的工作量,降低复杂数据分析的难度,通过直观的自动化分析,将结论和建议直接提供给运维人员。

D-SMART的核心功能包括基线监控、智能模型,运维经验预警,日志深度诊断,自动化巡检等方面。在D-SMART系统中,一般情况下,运维人员不需要去关注某些基线指标的阈值和实际变化,可以通过运维经验去监控相关的基线指标或者指标组的变化,一旦触发了某个运维经验报警,再去进行相关的分析。通过运维经验,可以让运维人员不需要去关注数百个比较陌生的指标,而只需要去关注几十个已知问题。

信创产品支持:目前,D-SMART正在全力支持信创IT基础设施,目前已经支持大量的信创数据库、集中式存储等产品,并会在后续版本中对更多信创产品提供支持。

智能模型:D-SMART提供三个智能模型:健康模型、性能模型和负载模型。通过智能模型可以随时了解数据库的运行状态和系统的当前负载及性能情况。D-SMART还可以通过AI模型预测未来3个时间区间的模型指标,从而为运维人员提供提前状态预警。

故障模型:通过预置的专家经验和用户自定义运维经验去监控系统的状态,并及时发起报警。当报警发生时,可以通过系统预置的知识点工具,去分析问题的原因,为运维人员提供一份分析报告。D-SMART 2.0出厂内置运维经验近500条,运维知识工具2000多个。用户还可以根据自己的运维经验不断的扩充运维知识点与运维经验。基石数据也会定期向所有用户更新新的知识点工具和运维经验。

日志深度诊断:与传统的日志分析工具不同的是,D-SMART不仅仅能够从日志中过滤出存在问题和疑点的日志信息,展现给运维人员,而且能够通过积累在系统中的日志分析知识点工具自动的对日志进行深层次分析,从中发现可能存在的系统故障和隐患,同时产生系统报警。

自动化巡检:D-SMART可以自动进行巡检工作,并自动产生日检报告、月检报告、容量预测报告、SQL审计报告等各种专业报告。D-SMART自动生成的各种巡检报告都是专家级的,可以大大节约系统巡检的人力资源。

关键SQL跟踪:关键SQL是影响企业核心系统健康运行的重要SQL,传统的运维工具对这些SQL缺乏全面跟踪与预警能力。D-SMART中提供了对这些SQL的实时监控、风险预警、审计分析等功能。

性能优化:性能优化中心提供了根据系统当期状态推荐优化分析工具的功能,可以利用系统提供的优化分析工具以及系统智能化评估的结果,针对性的进行诊断分析,发现系统存在的各种性能隐患。

集群拓扑:不仅仅是运维某个数据库或者中间件,可以把数据库集群(含主备)、中间件、存储形成一个完整拓扑,进行统一分析。

运维知识图谱:D-SMART的运维知识图谱是所有智能诊断工具、泛路由知识点、等待事件分析、日志深度分析的基础支撑工具,在系统中并没有提供界面来显示图谱的内容,所有的图谱都是直接用于自动化诊断、自动化推理的。

智能诊断工具可以和专家指定的诊断路径相配合使用,智能诊断工具可以从较为复杂的故障场景中分析出其中存在问题的关键点,根据诊断结论以及诊断工具推荐的诊断路径,可能可以发现专家经验未能覆盖的分析场景。智能这段的结论以下面的形式呈现:

智能诊断是依赖于系统中的“运维知识图谱”的,这个图谱每半年升级一次,可以确保最新的运维知识能够及时到达客户手中。根据发现的问题,智能诊断工具还会自动推荐工具。

1.4 D-SMART与传统运维自动化系统的区别

传统运维自动化系统

D-SMART

运维自动化系统

运维知识自动化系统

指标、工具为核心的系统

运维知识、专家经验与智能模型为核心的系统

比较容易解决已知的,简单的问题

更适合处理未知的,复杂的问题

通过提高使用者的熟练度与能力提高运维能力,人员变动后能力流失严重

通过积累知识提高企业的整体运维能力,人员变动后能力保留在系统中

只提供孤立的指标与基线,运维人员很难直接从中获得运维能力

提供专家模型与智能模型,针对指标与基线提供相关的运维知识,通过运维知识去使用指标与基线

系统只能通过版本升级提高系统自身的能力

通过知识积累,导入专家模型包,导入别人的经验以及机器学习,可以提升系统的运维能力

系统采集的指标数据只能针对特别确定的问题进行告警,缺乏深度分析能力

使用优化后的指标采集手段,消耗极小的开销基础上,采集足以进行深入分析的大量指标

运维人员需要较高的能力才能用好运维自动化系统

通过远程服务的运维生态,远程的专家可以根据全面的运维监控数据与自动化分析的报告提供更高质量的远程服务

1.5 D-SMART功能说明

功能项

功能说明

健康模型

百分制的健康模型,通过健康模型可以了解运维对象的总体健康状况

性能模型

百分制的性能模型,反映出运维对象的运行性能

负载模型

百分制的负载模型,反映出运维对象的工作负载

等待事件

针对某些支持等待事件的数据库,通过等待事件智能分析,从另外一个维度对数据库状态进行分析。等待事件分析对于性能优化,故障定位也具有十分重要的辅助作用

基线预警

D-SMART的基线预警不作为日常报警使用,主要用于发现一些异常的关键指标。基线预警的数据会在月检、巡检中被自动使用,平时运维人员不用过于关注基线预警产生的告警信息

问题分析

综合性问题诊断分析工具,当运维对象出现问题又无法精确定位时,问题分析工具可以进行综合分析,找出一些发现。不过这些发现和某一个运维经验高级并不一定有直接关系。

运维经验

通过专家经验来监控系统中存在的风险。通过运维经验告警可以对某些问题进行预先发现,通过运维人员处置,实现防患于未然。运维经验告警带有智能化诊断工具推荐和专家诊断路径推荐。利用专家推荐的工具或者智能化诊断工具(基于知识图谱),可以下钻定位。

日检

每天半夜(默认为3点,可以通过系统配置调整),系统自动对一天的运维数据进行分析,找出系统中可能存在的隐患,生成日检报告。同时,在“工具”中,还有专门针对日检数据进行汇总的报告模板,不想一个个查看日检报警的用户可以选择启用该报告。

月检

通过定期任务每月自动生成巡检报告,针对运维对象一个月内的采集数据进行自动分析。其质量完全超越人类专家手工采集分析数据形成的巡检报告。

状态巡检

当系统存在隐患时,自动启动的数据分析任务,会针对最近一段时间的系统指标进行全面分析,定位存在的问题。

状态详情

针对每个运维对象,通过状态详情汇总监控数据,用户如果要对某个运维对象进行监控,可以通过这个页面了解主要信息。

个性化基线

针对某些关键系统,可以通过设定个性化基线的方式来建立自己的运行基线

智能基线

不需要再去设置基线模板了,可以利用系统的智能化分析能力,实现对基线的自动动态生成。

TOP SQL

自动采集TOP SQL,并可通过TOP SQL工具进行SQL分析与优化

关键SQL跟踪

对影响系统安全的关键SQL可以通过提前预定义或者自动发现等方式进行提前定义。对已经定义好的关键SQL,可以通过监控台实时监控,也可以通过智能预警自动发现风险并告警。同时也提供了SQL审计报告,SQL分析工具等对其进行分析。

SQL审计

可以针对性的定期对运维对象采集到的TOP SQL进行审计分析,通过静态语法分析发现语法中存在的问题,表中缺少索引,表中存在碎片等情况。也可以通过执行计划发现SQL中存在的问题。

容量管理

针对运维对象的存储容量等进行自动化分析,发现其中的隐患。

今日看板

具有监控需求的用户的简单工作界面,监控人员可以通过该看板了解运维对象的运行状态。并通过快捷链接下钻分析。

日志深度分析

针对运维对象的日志通过专家经验提供自动分析,从而定位出该日志属于哪种问题导致,是否存在风险

运行周报

每周自动生成运行报告。

集群拓扑

集群拓扑可以把一组运维对象作为一个整体来查看。比如说一个Oracle RAC,mysql Mgr集群可以作为一个整体来看待,在一个拓扑图里看到这些运维对象的健康状态以及关键指标。

并可以把这些运维对象的上下游关系对象放在一个视图里查看。比如可以把一套Oracle数据库与访问它的中间件、数据库RAC的多个实例,ADG备库,SAN交换机、集中式存储放在一个集群拓扑里。

漏洞管理

通过定义漏洞模板,D-SMART可以对被纳管的运维对象进行自动漏洞分析,形成分析报告。

大屏监控

提供多种风格的监控大屏,可以把系统的监控信息投送到监控大屏上。

双活切换工具

针对客户基于数据库复制的双活运行环境,提供监控与自动化切换的工具(仅限于企业版)

SQL执行代理工具

支持通过本工具连接到目标数据库上,执行某些特定查询(部分运维对象支持)

运维知识图谱

作为本工具智能化运维的核心支持组件

离线数据仓库

将客户的监控数据离线转储到离线仓库后,运维专家可以离线对数据进行分析,帮助用户发现运维对象存在的问题(仅限于企业版)


1.6 D-SMART支持列表

D-SMART支持的运维对象种类十分丰富,已经从数据库产品逐步往全栈支持做扩充,不过因为D-SMART是深度运维工具,因此其支持的对象以及提供的功能与分析能力会有差别。D-SMART研发团队会不断的扩展各种运维对象的能力。

1.6.1数据库产品:

功能项

Oracle

Mysql

Postgres兼容

Mongodb

达梦

Oceanbase

MS Sqlserver

Redis

健康模型

性能模型

负载模型

等待事件







基线预警

问题分析

运维经验

日检

月检

状态巡检





√*


状态详情

个性化基线

TOP SQL



SQL审计


容量管理


今日看板

运行周报

集群拓扑


漏洞管理







日志深度分析

可支持

可支持






双活切换工具








支持版本

10g以上

5.5以上

9.0以上

2.0以上

7.0以上

V2.0以上

2005以上

2.x以上

针对PostgreSQL兼容类的国产数据库和开源数据库,D-SMART都可以使用PostgreSQL类数据库来纳管,不过因为这些数据库之间存在一定的差异,因此D-SMART中采用了子类的方式来精准纳管。

功能项

PostgreSQL

人大金仓

瀚高highgo

OPENGAUSS

海量Vastbase G100

健康模型

性能模型

负载模型

等待事件





基线预警

问题分析

运维经验

日检

月检

状态巡检





状态详情

个性化基线

TOP SQL


SQL审计

容量管理

今日看板

运行周报

支持版本/子类

9.0以上

V7/V8R2/V8R6

5.0以上

2.0以上



1.6.2中间件产品

功能项

Weblogic

Tomcat

BES中间件

KAFKA

健康模型

基线预警

问题分析

运维经验

日检

实例巡检

状态详情

个性化基线

今日看板

运行周报

日志分析

1.6.3存储产品

功能项

SAN交换机

华为存储

HP/H3C

3PAR

EMC

UNITY

EMC

POWERMAX

EMC

POWERSTORE

CEPH

健康模型

基线预警

问题分析



运维经验

日检


实例巡检






状态详情


个性化基线




今日看板




运行周报




日志分析

1.6.4大数据平台产品:

功能项

HDFS

HBASE

HIVE

FLINK

健康模型

基线预警

问题分析

运维经验

日检

实例巡检




状态详情

个性化基线

今日看板

运行周报

日志分析

1.6.5信创平台支持

D-SMART大师问诊系统除了支持大量的新创数据库、中间件平台外,本身也与国产新创生态深度融合。目前D-SMART已经完成了海光、飞腾、鲲鹏三个国产新创平台的兼容性认证。


2系统架构与技术原理

D-SMART大师问诊系统是一个可灵活扩展的弹性智能化运维系统,最小的虚拟机部署环境可以纳管数十个运维对象,而大型的分布式部署环境可以在单一集群内支持数千个运维对象的纳管。

上图的部署架构可以支持1000+以上的运维对象(根据服务器配置不同从1000到数千),如果需要支持更大的集群,可以增加FsTask和Collector的数量。


前端核心是进行前端数据处理,分析诊断的大脑,完成模型计算、运维知识管理、知识发现、诊断处置等工作。

后端的大数据中心负责将离线数据汇总后进行智能化分析。通过全量数据的深层次挖掘发现系统可能存在的深层次隐患。运维大数据平台还可以完成专家协作、一线三线协同等复杂的团队协作。运维大数据中心可以建立在企业内网,也可以建立在公有云上。

3应用模式

3.1 企业用户应用模式

企业用户面临运维环境日益复杂、运维对象数量激增的困境,企业运维人员、原厂服务、第三方服务商、第三方专家之间可以通过D-SMART构建一个共同协作的平台。利用D-SMART采集的数据,生成的分析报告协同工作。并可以通过HolaData工具分享监控数据,完成远程诊断、远程巡检等工作。

3.2 公有云SAAS服务模式

对于部署于公有云的客户,可以通过与公有云运营商合作的模式,企业运维人员或者服务商的运维人员通过远程接入的方式直接进行运维监控。系统告警可以通过微信、钉钉、邮件等方式发送给远程运维人员。


3.3社区版自助服务

对于一些运维经费十分有限的用户,可以从“DBAIOPS社区”下载免费的社区版,部署使用。当遇到问题或者需要做自动化巡检的时候,通过购买临时许可的方式用十分低廉的价格获得收费服务授权,完成所需的工作。

3.4生态合作模式

一些买不起昂贵运维服务的小企业,可能自身的DBA配置也不足,虽然部署了D-SMART社区版,也没有DBA能够处置日常的告警。通过与GEMMB SAAS服务对接,可以利用GNC的监控人员帮助企业进行远程监控。如果遇到需要到现场解决的问题,通过GNC工单可以直接派遣第三方合作伙伴的DBA或者独立数据库专家去为企业提供线下服务。

数据库服第三方服务企业也可以在GEMMB上创建一个租户,利用GEMMB构建自己的GNC,为他们的客户提供线上/线下相结合的服务。从而降低服务成本,提升服务质量。

随着移动通讯技术与互联网技术的发展,成本相对较低的线上服务模式肯定会对传统的线下服务模式产生巨大的冲击。而对于智能化运维来说,告别单打独斗,更广泛的借力生态合作体系,才能用更好的服务质量,更低的服务价格来为客户创造价值,为自己创造利润。

3行业案例


文章转载自白鳝的洞穴,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论