随着阿里云腾讯云华为云这些云平台的兴起,越来越多的中小企业开始拥抱"云",把线上业务运行在云平台。这种依托于云平台提供的基础设施资源和增值化运维工具,专注于业务系统的日常维护,保障业务系统稳定性和可用性的运维方式,就是云运维。
现如今的云平台,其实技术已经相当成熟了,比如阿里云,最早是2010年5月份开始对外公测,发展到现在已经11个年头了,这些年里,数以万计的工程师每天在为这个平台添砖加瓦,到2019年底,阿里云已经成为整个集团业务的底层支撑。阿里云之所以会成功,也是由于当时的系统架构(IOE——IBM 小型机、Oracle 商业数据库以及 EMC 集中式存储)已经无法承载淘宝快速发展的业务,据说当时每天早上八点到九点半之间,服务器的处理器使用率都会飙升到98%,离爆棚就差两个百分点,就像赛道上的跑车:速度飞快,但引擎已经发红。在这样的背景下,阿里云第一代掌门人王坚开启了自研之路,原则就是便宜,好用,零故障。王坚后来这样回忆这段创业史:"阿里云是拿命换来的"。所以中小企业在阿里云平台上进行业务系统的运维就好比站在巨人的肩膀上做运维。
关于传统运维与云运维的区别,我罗列了如下几点:
区别一 成本
传统运维时代,企业想要开展线上业务,必需从机房建设开始,网络布线、设备采购、服务器调试等IT基础设施建设会花费企业大量人力物力和财力。随着业务不断扩大,需要采购更多的服务器,异地机房灾备等工作更会使得基础设施维护工作困难重重,因为运维10台机器和运维100台机器的方式是不同的,机器扩展到一定数量后,再通过人力运维就不现实了,一方面这种人力成本就很高,另一方面人工操作很可能造成人为操作上的一些疏忽和遗漏,所以这种场景下只能依靠智能化运维来管理服务器。智能化运维是一个庞大的系统,都是需要自研的,研发成本基本上只有大型企业能够承受。
云运维时代,云平台最重要的贡献就是已经建设完成了一个强大的物理硬件环境,为中小企业节约了由硬件维护引发的一系列成本,由于不要接触到任何物理设备,所以中小企业甚至可以不需要硬件运维人员,使得中小企业IT人员可以自开发,自运维,只需要专注于云平台的相关告警处理以及业务系统的日常维护,告警的相关处理方案正常情况下云平台也会给出提示,有时候点点同意就行了,由于云平台智能化运维的能力太强大,所以中小企业的成本可以大大降低。
区别二 关注点
传统运维时代,主要关注点是硬件设备,包括网络维护,服务器的维护,存储的维护,数据库和中间件的安装,各项硬件指标的监控、告警以及问题的处理。这里比较困难的其实是监控和告警,目前主要依托于开源软件,有些个性化的需求可能无法满足,如果想要做的更细致,就需要投入人力进行自研,自研监控中间件的难度还是相当大的。而这些监控和告警功能阿里云其实已经做的很细致了,中小企业再进行自研好比重复造轮子,这些中间件的完善周期很长,尤其多线程下导致的并发问题,难重现,难修复,还是需要量力而行。
云运维时代,主要关注点是业务系统,因为需要用更少的人去维护更多的业务系统,其实对运维人员提出更高要求,包括网络,服务器,中间件,监控,告警,业务系统的快速部署和快速更新等相关基础知识还是都需要掌握,有了这些基础,才有可能把云运维做好,否则文档可能都看不懂。此外还需要学习的就是云平台上的各种资源和相关运维工具的使用方法,了解它们的功能和使用场景,因为云平台上有平台特定的规则,这些规则可能并不通用,需要单独学习。比如阿里云的网络结构会分经典网络和专有网络,两种网络有各自的使用限制,正常情况不能互通,如果需要互通,对两种网络中的私网网段配置是有一点限制的,如果IP地址有重复,那么就不能相互通信。这些规则在初期划分网段的时候如果没有全面了解,后期维护可能就会遇到麻烦。
区别三 工单协助
传统运维时代,如果遇到某些疑难杂症,只能靠自己去找资料解决,或者与周边同事探讨解决,耗时可能都比较长,如果遇到紧急情况,可能导致系统长时间不可用,就会对公司造成巨大损失。
云运维时代,云平台后有许多资深工程师在帮助你,你并不是一个人,有任何问题,都可以咨询解决。当然,前提是要熟读文档,了解各功能特性,很多问题其实文档里已经归纳总结了,如果读了文档还没有得到解决的,可以提交工单,这样才能更准确的与工程师沟通,更快的得到帮助,解决问题。
区别四 监控和故障处理
传统运维时代,缺乏有效的监控告警机制,很多时候都是后于用户知道系统故障,就会很被动,长时间都会充当救火队友的角色,终日处于惶惶不安的状态之中,工作其实很忙,但总被人诟病。
云运维时代,云平台都已经集成了高效的监控告警机制,先于客户发现问题,让运维人员及时通过短信或邮件知悉系统故障,有足够的时间可以处理故障问题,从而保障系统的稳定性和可用性。
区别五 弹性伸缩
传统运维时代,如果出现请求流量洪峰导致服务器吞吐量不足时,一般只能通过购买机器来应对请求流量洪峰,但是流量洪峰一般持续时间比较短,比如秒杀场景,一旦结束,流量就会趋于平稳,增加的机器就可能导致浪费。
云运维时代,弹性伸缩是一个重要优势,由于云的本质是租用,而云平台上的租用和退租成本又很低,所以这可以是一个很高频的操作,弹性伸缩可以通过临时租用机器来提高系统请求洪峰时的吞吐量,提高业务的稳定性,又可以在业务低谷期退租云资源,这种按需租用的操作,可以帮助我们节约很多成本。
区别六 数据安全性
传统运维时代,属于"集中式+封闭"式架构,数据都在本地,由用户自己掌控,确实能保证安全性,但基本也是信息孤岛,后期如果业务继续发展,一种方法就是继续扩展机房和服务器,这种成本就比较高,另一种方法就是把一部分数据放到云平台上,形成私有云和公有云相结合的运维模式。
云运维时代,属于"分布式+开放"式架构,虽然数据都在云平台上,确实存在数据被平台分析的可能,但是云平台强大的运维能力确实让人难以割舍,对于中小企业而言,个人觉得这种担心有点多余,把业务流量做起来才是生存的根基,在如今这样一个开放的环境中,借助外力才能事半功倍。作为国内知名的云平台,相信也不会随便使用客户的敏感信息去做数据分析,因为这样得不偿失。
写在最后
云平台的出现,助力了许多的中小企业,云平台的发展也从未停歇,源源不断的提供着最新的运维能力,让中小企业能够专注于自身业务的发展。这是一个生机勃勃的良性生态,承载着中小企业的未来。
- END -