需求背景:
随着业务的增长、对运维效率和质量的要求不断提高,对自动化运维体系的需求也不断增强。
目前笔者服务的很多中大型企业客户,运维其实还停留在“刀耕火种”的原始状态。
这里所说的“刀”和“火”就是运维人员的远程客户端,例如 xshell 和Windows 远程桌面。
这种工作模式有很多局限性,
比如服务器、数据库、中间件等的安装、初始化,应用软件部署、服务发布和监控都是通过手动方式来完成的。
这就需要运维人员登录到服务器上,一台一台去管理和维护。
如果有个几十上百台,累就累死人了。
笔者曾运维过超过4000千台服务器,团队二十多个人,仔细想想这活靠人力能干吗?
另外人工操作方式过于依赖运维人员的执行顺序和操作步骤,稍有不慎即可能导致生产事故,即便是变更前double check也很难保证不出事故。
常在河边走哪有不湿鞋。
这时候运维人员开始探索使用使用脚本和批量管理工具。
这种方式确实提升了效率和质量,但是不具有普适性。
第一是脚本的非标准化的问题。
第二是脚本的交接问题,公司人员的架构不是一成不变的,有人来就有人离开。离职和工作交接,都会导致脚本无法很好地在运维人员之间传承和再利用。
那么如何建设自动化运维体系呢?
第一个是为什么要建设自动化运维体系? 第二个是根据笔者经验介绍运维系统是怎样设计、运行和处理问题的。 第三个是笔者在自动化运维过程中遇到的一些问题的思考,做一个总结。
本文针对数据库自动化运维系统
核心内容如下:
一、建设自动化运维体系的原因
肯定是运维过程中遇到的一些挑战。
它表现为三个方面:
一是变更数量多,目前我们服务的客户达到3万家企业,这个体量是很大的。 二是变更种类多,不同的客户需求是不一样的,包含但不限于扩容、性能优化、故障处理、DG切换迁移、RAC搭建等。 三是变更风险大,有些变更都是一些高危操作,自动化处理更安全等。
第二个是运维环境方面,主要表现为服务器数量多、数据库类型多。
第三是人的因素。
在建设自动化运维体系过程中,有一个比较重要的考虑点是人的因素。
导致我们必须要创建一套规范的自动化运维体系,来提升工作效率。
二、如何搭建自动化运维体系
1、自动化安装系统
操作系统多,但是人少,可用时间也比较少,自动化安装省时省力。
交付用户之前,会进行基本的安全设置,这在一定程度上提高了安全性,也减少了需要人工做的一些操作。
2、自动化运维平台
自动化运维平台是运维人员的操作平台,它主要解决安全、高效、快速等因数量特别多而带来的管理问题。
在设计的过程中要考虑了以下几个因素:
运维工程师无论何时何地都可以登录管理系统进行运维操作,这样的话就比较方便,由SecureCRT对被操作的机器发布指令。
3、自动化巡检系统
我们采用了两种方式:自我开发的中控系统和第三方管理平台
单独使用一台服务器巡检其他的数据库节点,脚本可以选用shell或者Python。
设定遍历时间间隔,遇到故障情况可以采用打电话或者发短信的方式及时通知运维人员。
第二是把所有的数据库节点纳管到第三方监控平台。
4、自动化性能分析系统
这里笔者单独再写一篇文章。
5、自动化监控预警系统
预警监控系统+值班人员是标准配置。
预警监控系统的搭建方式参考巡检系统,只不过采集的指标不一样。
6、自动化备份系统
三、建设自动化运维体系的思考
第一个是完备,这个系统要能涵盖所有的运维需求。 第二个是简洁,简单好用。运维人员的学习成本不要高,越复杂难用的系统越不容易发挥系统本身的能力和效率。 第三个是高效,特别是在批量处理或者执行特定任务时要高效。 第四个是安全,如果一个运维系统不安全,可能导致很快就被黑客接管了。
笔者目前也在从数据库的架构、优化和故障处理慢慢转型做自动化运维体系。
对过去进行总结,我觉得有3个方面可以供大家参考。
聚焦当前的问题,把当前的问题处理好,后面的问题也就迎刃而解。
如果一开始设计的系统很庞大、功能特别丰富,会导致一些无法控制的局面。
再依据运维的需求丰富这个操作平台的功能和提升效率,最后把周边的系统打通,相互对接,形成完整的自动化运维体系。
设计系统的时候,功能或者设计方面可能不用考虑那么多,但是要考虑当服务器数量发生比较大的扩张时,系统是否还能支撑。
使用不方便,运维人员第一个就放弃了,何谈推广?
文章转载自数据与人,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
相关阅读
数据库国产化替代深化:DBA的机遇与挑战
代晓磊
1249次阅读
2025-04-27 16:53:22
2025年4月国产数据库中标情况一览:4个千万元级项目,GaussDB与OceanBase大放异彩!
通讯员
729次阅读
2025-04-30 15:24:06
国产数据库需要扩大场景覆盖面才能在竞争中更有优势
白鳝的洞穴
591次阅读
2025-04-14 09:40:20
【活动】分享你的压箱底干货文档,三篇解锁进阶奖励!
墨天轮编辑部
506次阅读
2025-04-17 17:02:24
一页概览:Oracle GoldenGate
甲骨文云技术
477次阅读
2025-04-30 12:17:56
GoldenDB数据库v7.2焕新发布,助力全行业数据库平滑替代
GoldenDB分布式数据库
470次阅读
2025-04-30 12:17:50
优炫数据库成功入围新疆维吾尔自治区行政事业单位数据库2025年框架协议采购!
优炫软件
360次阅读
2025-04-18 10:01:22
给准备学习国产数据库的朋友几点建议
白鳝的洞穴
282次阅读
2025-05-07 10:06:14
XCOPS广州站:从开源自研之争到AI驱动的下一代数据库架构探索
韩锋频道
275次阅读
2025-04-29 10:35:54
国产数据库图谱又上新|82篇精选内容全览达梦数据库
墨天轮编辑部
275次阅读
2025-04-23 12:04:21