1、概述
随着业务对信息化建设越来越高的要求,各企业都面临着信息系统相关的设备和系统应用逐年增加,设备越来越多,应用部署相对复杂、动态,故障排查、定位管理较难的问题。日常信息系统运维管理难题主要表现在以下方面:
1、IT环境越来越复杂,多个厂商的设备、操作系统、后台数据库、存储系统、应用软件、业务系统交错并行,维护人员有限,人员日常工作的专业技术各有侧重,全靠人工,已无法全面、准确、及时了解所管理系统的运行状态和潜在运行风险。
2、设备、应用部署逐年增多,需投入大量人力和时间进行巡检、管理。由于系统众多,无有效集中管理手段,每天人工进行巡检,将所有设备、应用的运行情况、资源、日志等进行巡视,进行故障的预防性检查,将发现告警信息反馈给相应系统管理员处理,但时常是收效仍不大,由于实时性不够,使得信息人员往往将大量人力和精力消耗在被动应对故障处理和重复性的巡检排除中,无精力也无法有效投入更多信息化建设管理工作中。
3、单靠人工巡检,时效性、全面性差,隐患性故障发现不及时,往往问题触发后,被动应对处理,使得用户体验较差。被动式的巡查,也使得我们对于故障的发现完全依赖于问题出现之后的处理响应,故障排查慢,处理不及时。
综上,在有限的系统运维人力资源情况下,为保证对信息系统及应用与基础设施设备进行积极、有效、主动地监控和管理,提升系统及应用服务自动化运维水平,使信息系统运维成本降低的同时,提高故障解决率和时效性。我公司推出了信息系统运维监控平台。
2、系统架构
东方宏达信息系统运维监控平台结合开源监控软件ZABBIX和应用程序性能监控APM为客户信息系统提供一体化多维度监控。
Ø 用户端:运营商质量、前端渲染
Ø 业务:交易量、访问量
Ø 组件:Oracle/Mysql数据库(连接数、命中率等)、Weblogic/Nginx/Apache中间件(进程、连接事务数等)
Ø 操作系统:Linux、Windows、AIX 、HPUX(CPU、内存、负载、网卡、硬盘等)
Ø 基础设施:机房、网络、硬件
同时,通过对收集的数据进行分析,能够提供:
Ø 异常检测
Ø 故障预测
Ø 数据报表
系统架构如下:
3、功能简介
信息系统运维监控平台是一个可高自由度定制,可视化的网管报警监控系统。功能十分的强大,通过Agent Client或SNMP可跨平台监控。监控项既可以使用预定义项,也可根据不同系统的需求进行自定义,方便灵活。
3.1 监控
监控类型主要是网络、主机操作系统、数据库和中间件方面的监控,根据不同的监控项划分为不同的监控类别。操作系统监控项合计大于17项,数据库监控项为54项,基本能够满足日常运维工作。另外,监控项也可以根据不同的需求自定制。
监控类型 | 监控类别 | 监控项 |
操作系统 | 文件系统 | 视系统环境而定 |
日志检查 | 视系统环境而定 | |
网卡流量 | 视系统环境而定 | |
内存 | 5 | |
系统信息 | 8 | |
进程信息 | 2 | |
安全信息 | 2 | |
数据库 | 基础信息 | 9 |
性能相关 | 17 | |
内存情况 | 8 | |
会话情况 | 8 | |
事务情况 | 12 | |
中间件 | 集中化实时监控 | 7 |
实时事务深度分析 | 4 | |
线程积压的智能控制 | 3 | |
性能故障诊断 | 3 | |
响应时间分布图表化 | 4 | |
网络设备 | 流量情况 | 视系统环境而定 |
基础信息 | 5 | |
数据同步复制软件 | OGG进程是否运行正常 | |
OGG是否同步 | ||
ADG进程是否运行正常 | ||
ADG是否同步 |
3.2 预警
通过监控网络、主机操作系统、数据库和中间件的一些指标,可达到预警的效果,以便第一时间处理问题。信息系统运维监控平台实现的告警方式主要有如下三种:
◆短信告警
◆邮件告警
◆微信平台(需要企业微信公众号)
3.3 监控内容展示
监控内容展示功能根据客户的要求进行定制化开发,包括但不限于以下功能:
ü 告警展示
实现实时告警,并能提示当前告警情况,告警管理,汇总,综合展现等功能
告警列表:列表形式展现当前告警
综合告警:按照分组实现告警情况
ü 资产管理
设备资产登记,实现资产的添删改查等功能。
ü 系统与配置管理
实现用户账户、授权管理等功能
实现用户的添加删除修改。
实现监控组的分组添加删除修改。
ü 监控图表展示
实现监控主机的监控参数的基本图表展示
4、 监控详情
4.1 操作系统
主要分为7类监控项,以下介绍为主要监控项。
(1) Cpu:监控cpu的使用情况及单位分钟内的内核负载情况。
(2)Disk:监控文件系统的剩余空间及利用率。(3) Memory:监控内存的剩余空间及利用率。
(4) Process:监测指定进程的实例总数、线程总数及内存总占用量。
(5) Network:监测网卡的流量,包括流入、流出量和错误的数据包数。
4.2 数据库
主要监控项分为6大类,以下介绍为主要监控项介绍。
(1) Tablespace :监控表空间的使用情况,并实时发送告警。
(2)Wait class:监控数据库wait class,有助分析数据库的性能情况。
(3)SGA:监控数据库SGA中各缓冲池的使用情况。
(4) IO:监控数据库的io情况。
4.3 中间件
(1) 中间件性能监控实现实时可视化的集中监控
(2)在事务追踪中能够查看到已经完成和正在处理的每一个阶段的响应时间。
(3) 能够实时监控应用程序当前正在处理的活动请求事务,能够从请求事务到达服务器即开始追踪,支持将事务执行的轨迹全部都在系统上呈现出来,并可进行深度剖析。
(4) 线程监控
(5) SQL响应时间、执行次数统计
4.4 网络设备
主要监控项分2大类,包括基础信息、交换机进出流量统计信息。
(1) 监控交换机进出流量情况,细化到对每个interface的监控。
(2)监控交换机端口坏包情况
(3)网络设备的基础信息,包括设备名称、型号、工作时间等信息。
4.5 趋势分析
信息系统运维监控平台能够保留1年的历史数据,通过分析历史数据,可对操作系统及数据库做趋势分析。