暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片

“端边网云智”构建IT运维新生态

白鳝的洞穴 2020-05-25
2796
随着企业信息化的高速发展,大量传统行业企业的信息系统从以业务管理类为主逐步向业务支撑类为主发展转型。原有的信息系统在升级改造过程中更加注重对一线人员的支撑服务能力,同时大量的边缘侧业务微应用已经投产或者正在建设。以国家电网为例, 能源新基建对源网互动提出了新的要求。信息化如何更加有效的支撑业务发展,如何在能源变革中支撑相关业务是对我们IT人的新挑战。
同时,信息化高速发展对信息系统稳定运行也带来巨大的挑战。 信息系统的数量在爆炸式增长,让信息系统运维面临巨大挑战。企业减员增效的要求,让传统的运维模式难以为继,仅靠大量的人力操作和少量专家支撑这种工作模式无法适应新时代的要求了。一个省级的运维单位,有可能只有3-4个DBA,但是要管理超过500个数据库实例,如果使用传统的方法,每天的巡检就够让他们24小时不停工作了。另外云平台、业务中台、物联网平台带来大量的新技术需要快速消纳,在内部人员无法快速掌握这些新平台的运维技术的同时,外部的支撑力量也十分有限,这个死局是必须解开的,而解开这个死局的方法只有一条路,就是走自动化、智能化的路子。
因此,高质量的运维数据和高效的数据处理成为解决这个矛盾的关键。我们需要采集更为全面与有效的数据,能够覆盖极简运维与深度运维这两种模式,从而支撑自动化与智能化运维。要实现更有效的采集数据,必须统一数据标准,规范采集标准,做到一采多用,避免重复采集。另外,采集回来的数据需要更为有效的使用,通过“健康管理”的方法论对数据进行建模与分析,其分析结果可以为运维场景提供能力支撑。
最后,运维自动化或者说运维智能化系统的建设成本十分高,建设周期也很长。如何快速的构建企业的自动化/智能化运维能力,不能蛮干。充分利用企业已有的自动化运维工具,建立“端边网云智”协同的IT健康管理新生态是最终的解决之道。具体做法是充分利用现有的运维自动化工具,快速完善指标数据的采集,并利用云平台、企业中台、物联网平台的能力构建云边互动的支撑服务体系。另外要注意的是,云边协同不仅仅体现在技术上,更重要的是建立一二三线运维与支撑的生态体系,让数据、算法、专家形成一个高效协作的体系,才能获得最佳的工作效率。

为更好的支撑企业信息化的高速发展,进一步提升运行和安全水平。优化工作应在原有的基础上升级为常态化、全生命周期化模式,从解决问题变成防范问题。实现常态工作、实时响应、闭环管理、全面覆盖的优化工作新模式,构建生态体系,提升系统健康水平和应急处置能力。
以IT健康分析为核心,将日常运维、常态化优化、架构优化、设备维保保险、设备状态评估、企业IT设备采购等企业应用与管理场景整合在一起,打通各专业与部门之间的数据壁垒,使用一套数据,一个处理模型,通过数据中台实现数据共享与数据的有效利用。

IT健康管理的目标是建立健全的“IT健康分析”新模式,构建“IT健康管理”生态体系,形成一套体系、一套标准、一套方法,通过迭代、完善,逐步适用于企业信息化发展需求。一套体系是指构建“IT健康分析”生态体系,形成一套体系、一套标准、一套方法,通过迭代、完善,逐步适用于企业信息化发展需求。
这套工作体系有5个特点,随着运维工作的不断深入,对运维工作的范围、覆盖面、工作难度等都提出了新挑战,向全员参与、全生命周期优化、常态化覆盖、全栈技术覆盖、健康管理方向发展。
从信息系统运行稳定性、性能与可靠性等相关的KPI入手,重点关注信息系统的运行健康状态,当系统出现问题的时候通过状态巡检等技术手段进行深入诊断,并对高风险问题进行及时预警,编制优化方案,进行应急保障处置。核心工作覆盖“指标管理、健康管理、智能预警、深度诊断、状态巡检”这5个技术关键点。同时利用技术关键点,结合专职队伍与虚拟专家团队的技术力量,提供“方案支撑、实施支撑、应急保障和建转运核查”这四项工作。

IT健康管理的工作模式采用云边两级的模式,信息系统的运维指标数据采集后在本地进行模型建模与分析,识别其中的风险与异常,同时将原始数据与分析结果上传到运行数据中台,对发现的问题上报到信息系统健康服务中心,由中心的智能机器人对数据进行进一步的分析,同时将发现的问题推送给健康管理虚拟专家团队。专家团队通过深度分析工具对相关风险进行人工复合,并结合工具产生的分析诊断结论形成消缺优化的方案,下发给一线运维人员。

大家都可以看出,IT健康管理最为关键的技术问题是智能模型的建设,如何实现智能模型的建设呢?首先我们需要从信息系统采集原始的指标数据,经过加工后形成指标集,从指标集中识别出关键指标进行指标维度分解,最终形成运维模型。运维模型包括健康模型、故障模型和容量模型等。模型分专家模型和智能模型,专家模型用于评价打分,智能模型则提供智能评分及趋势预测。

建立模型只是进行IT健康管理的基础,真正要实现IT健康管理的目标,需要通过一系列的微应用。而微应用是直接面对运维场景的,通过对我们运维工作的场景分析,我们将会识别出很多微应用,比如上面这个“信息系统全链路健康分析”微应用就是运维部门用于信息系统整体监控与故障定位的。

企业进行IT健康管理工作能够达到什么样的成效呢?我们来看一个2019年在能源企业的一个实际案例的效果。针对某省公司20多套系统,采用健康管理工作思路,开展“IT健康分析巡检”工作,仅安排一名工程师,使用自动采集的数据与自动化分析工具,在不到1个月时间里,形成信息系统健康”体检报告”。巡检包括操作系统、中间件、数据库、网络、存储、应用。共计发现问题143个,处理142个,解决率99.3%。目前该企业已经将健康管理拓展到200多套在运系统,并已经逐步拓展到在建系统。

上面是某电力企业基于IT健康管理的理论体系建设的一个“基于全链条监控与系统切片诊断的智能化运维系统”的整体架构图,这个总体架构充分体现了“端边网云智”一体化协同的理念。在端侧是我们的各种运维对象,随着企业信息化的发展,这些对象也在不断的增加,包括云平台,物联网平台,数据中台等也将逐步纳入管理。在边缘侧是一些专业的运维自动化工具与监控采集工具。在云平台和业务中台一侧,则完成数据的存储、共享与深度分析。基于这些基础环境,在上面构建智能化运维的系统。

最后修改时间:2020-05-26 09:21:57
文章转载自白鳝的洞穴,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论