暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

2021 DevOps 报告(上篇) :调查新发现

持续交付2.0 2021-09-29
438

本文选自 《DORA DevOps 报告 2021》第 1 章 到 第 3 章。

第 1 章 调查总述

谷歌云的DevOps研究与评估( DORA )团队今年发布的 DevOps 加速状态报告代表了来自全球 32000 多名专业人士的七年研究和数据。

我们的研究考察了推动软件交付、技术运营和组织绩效的能力和实践。通过利用严格的统计技术,我们试图了解能够带来卓越技术交付和强大业务成果的实践。为此,我们提供了数据驱动的见解,以了解开发和交付技术的最有效和最高效的方法。

我们的研究继续表明,卓越的软件交付和技术运营绩效推动了技术变革中的组织绩效。为了使团队能够根据行业对自己进行基准测试,我们使用聚类分析来形成有意义的绩效类别(如低、中、高或精英绩效)。

当你的团队了解到当前相对于行业的绩效后,你可以使用我们的预测分析结果来针对实践和能力,以改进关键成果,并最终改善您的相对位置。

一、今年的重点

今年,我们强调了满足可靠性目标整合整个软件供应链的安全性创建高质量的内部文档,以及充分利用云的潜力的重要性

我们还探讨了积极的团队文化是否可以减轻因新冠病毒大流行而产生的远程工作的影响。

为了做出有意义的改进,团队必须采用持续改进的理念。使用基线来衡量您的当前状态,根据本调查中提到的能力,识别出你团队的约束,并尝试改进,以缓解这些约束。这种尝试可能是既有成功的做法,也有失败的做法。但是,无论哪一种情况,团队都要根据经验教训采取有意义的行动。

二、关键发现

1、表现最好的公司正在成长,并继续提高基准

在我们的研究中,精英绩效团队现在占全部团队的26%,而且生产变更的交付周期也缩短了。行业持续加速,团队看到,这么做会得到有益的好处。

2、SRE 和 DevOps 是互补的哲学 ( complementary philosophies )

那些使用我们的(SRE)所概述的现代操作实践的团队说他们自己表现了更高的技术运营绩效。同时优先考虑交付和卓越技术运营的团队报告了最高的组织绩效。

3、更多的团队利用了云技术,并从中看到了很大的收益

团队继续推动将工作搬上云,那些利用云的所有五种能力的团队看到软件交付与运营( SDO )绩效,以及组织绩效的提升。采用多云方案的团队也在增加,因此。团队可以利用每个提供商的独特功能。

4、安全软件供应链既至关重要,又能驱动绩效

鉴于近年来恶意攻击的显著增加,组织必须从被动实践转向主动和诊断措施。在整个软件供应链中,集成安全实践的团队可以快速、可靠、安全地交付软件。

5、好的文档是成功实现 DevOps 能力的基础

我们第一次衡量了内部文档和实践的质量,这些都有助于提高质量。拥有高质量文档的团队能够更好地实施技术实践,并在整体上表现更好。

6、在充满挑战的环境中,积极的团队文化可以缓解工作倦怠

团队文化对“团队交付软件并达到或超过其组织目标”的能力有很大影响。在新冠病毒大流行期间,具有生机性文化的包容性团队较少感到倦怠。

生机性团队文化是指,高度合作性、打破组织筒仓结构、失败会触发反思且分担决策风险的团队。

第 2 章 我们如何做比较

您是否好奇您的团队与业内其他团队相比如何?本节包括 DevOps 绩效的最新基准评估。

我们研究团队如何开发、交付和运营他们的软件系统,然后将受访者分为四个绩效集群:精英、高绩效、中绩效和低绩效。通过将你团队绩效与每个集群的绩效进行对比,可以从本报告中描述的调查结果中了解你自己的情况。

一、软件交付与技术运营绩效

为了满足不断变化的行业的需求,组织必须快速可靠地交付和操作软件。对软件进行变更的速度越快,就可以越快地向客户交付价值、运行实验和接收有价值的反馈。

通过七年的数据收集和研究,我们已经开发并验证了四个度量软件交付性能的指标。

自2018年以来,我们纳入了第五个指标以获取运营能力。

在所有五项指标上都表现出色的团队表现出卓越的组织绩效。

我们称这五种度量指标为软件交付和技术运营( SDO )绩效

请注意,这些指标侧重于整个系统级的结果,这有助于避免软件指标的常见问题,例如功能之间的相互比较,或者以总成本为代价进行局部优化。

1、交付绩效的四个指标

我们可以认为,软件交付性能的四个度量体现了吞吐量稳定性

代码变更前置时间(即从代码提交到生产环境中发布的时间)和部署频率衡量吞吐量

我们使用事件发生后恢复服务的时间变更失败率衡量稳定性

对四个软件交付指标的聚类分析揭示了四种不同的绩效特征的团队,它们分别是精英、高、中、低,而它们之间在吞吐量和稳定性度量方面存在统计上的显著差异。

与前几年一样,我们的精英绩效团队在所有四项指标上都表现出色,而低绩效团队在所有领域都表现糟糕。

2、第五个指标:从可用性到可靠性 from availability to reliability

第五个指标代表技术运营绩效,是现代技术运营实践的衡量标准。运营绩效的主要衡量标准是可靠性,即团队能够在多大程度上对其所运营的软件系统达成承诺和主张。

过去,我们衡量的是可用性,而不是可靠性。但是,由于可用性是可靠性工程的一个特定重点,因此,我们将衡量范围扩展到可靠性,以便更广泛地表示可用性、延迟、性能和可伸缩性。

具体而言,我们要求受访者对其达到或超过可靠性目标的能力进行评分。我们发现,既使具有不同交付绩效的团队,当他们提高运营绩效的优先级时,都会看到更好的结果。

与以前的报告一样,我们将精英员工与低绩效员工进行了比较,以说明特定能力的影响。然而,今年我们试图考虑技术运营绩效的影响。在所有交付绩效类别(从低到精英)中,对于优先满足或超过其可靠性目标的团队,我们看到了多个结果的重大好处。

3、行业在持续加速

每年,我们都会看到行业不断发展,并加快以更快的速度和更好的稳定性交付软件的能力。

我们的高水平和精英团队首次占到了受访者的三分之二。此外,与之前的评估相比,今年的精英团队再次将标准提升了,比如,代码变更前置时间缩短了(例如,从 2019 年的不到一天提高到 2021 年的不到一小时)。此外,与前几年相比,只有精英团队的变更失败率被降至新的最低点,而前几年的高绩效团队也能做到这一点。

4、吞吐量

A)部署频率

与往年一样,精英团队报告称,它定期按需部署,每天执行多次部署。

相比之下,表现不佳的公司报告称,每六个月部署不到一次(每年不到两次),与 2019 年相比,这又是一次性能下降

标准化 ( normalized ) 后的年度部署数量范围从每年 1460 次部署(按每天 4 次部署 x 365 天计算)到每年 1.5 次部署(平均两次部署和一次部署)。此分析近似于,精英团队的部署频率要高出低绩效团队约 973 倍。

B)变更前置时间

变更前置时间是从代码提交到成功部署到生产环境上的时间。精英团队报告,它的变更前置时间不到 1 个小时。与 2019年 相比,这是一个绩效提升。2019年,精英绩效团队的变更前置时间少于一天。与精英团队相比,低绩效团队的需求交付周期超过六个月。

所以, 对于变更前置时间,根据平均每年 8760 小时,即半年为 4380 小时来计算的话,由于精英团队少于 1 小时,而低绩效团队按 6570 小时算,我们可以得出,精英团队的变更前置时间比低绩效团队快 6570 倍。

5、稳定性

A)服务恢复时间

精英团队称,其服务恢复时间不到一个小时,而低绩效团队要超过六个月。

在这一计算中,我们选择了一个保守的时间范围:精英绩效者为一小时,低绩效者为一年(8760小时)和六个月(4380小时)的平均时间。

根据这些数字,精英团队服务恢复速度是低绩效者的 6570 倍。

与2019年相比,精英团队的恢复服务时间保持不变,而低绩效团队的服务恢复时间有所增加。

B)变更失败率

精英团队称,其变更失败率在 0 % ~ 15 % 之间,而低绩效团队的变更失败率为 16 % ~ 30 %。这两个范围之间的平均值显示,精英团队的变更失败率为 7.5 %,而低绩效团队的变更失败率为 23 %。精英团队的变更失败率比低绩效团队要低三倍。今年,与 2019 年相比,精英团队的变更失败率保持不变,低绩效团队的变更失败率有所提高,但中间群体的变更失败率有所下降。

第 3 章 应该如何改进

如何改进 SDO 和组织绩效呢?我们的本次研究提供了基于证据的指导,帮助你关注推动绩效性的能力。

今年的报告考察了云、SRE实践、安全、技术实践和文化的影响。

在本节中,我们将介绍这些能力中的每一项,并关注它们对各种结果的影响。

对于那些熟悉 DORA 的 DevOps 研究模型的人来说,我们已经创建了一个在线资源,用于托管今年的模型和所有以前的模型。

一、云

与 DevOps 2019 的加速状态一致,越来越多的组织正在选择多云和混合云解决方案。在我们的调查中,受访者被问到他们的主要服务或应用程序在哪里,公共云的使用率正在上升。56% 的受访者 表示使用公共云(包括多个公共云),比 2019 年增加 5% 。今年,我们还专门询问了多云的使用情况,21% 的受访者表示部署到多个公共云。21% 的受访者表示不使用云,而是使用数据中心或内部部署解决方案。最后,34% 的受访者报告使用混合云,29% 报告使用私有云。

1、采纳

  • 利用混合云和多云加速业务成果

今年,我们看到混合云和多云的使用在增长,对企业关心的结果产生了重大影响。使用混合云或多云的受访者超过组织绩效目标的可能性是未使用混合云或多云的受访者的 1.6 倍。我们还看到了 SDO 的强大影响,混合云和多云的用户在部署频率、变更前置时间、恢复时间、变更失败率和可靠性方面表现优异的可能性高出 1.4 倍。

  • 为什么使用多云?

与我们 2018 年的评估类似,我们要求受访者报告他们利用多个公共云提供商的理由。

今年,我们要求受访者报告他们使用多家供应商的主要原因,而不是选择所有适用的供应商。

超过四分之一( 26% )的受访者这样做是为了利用每个云提供商的独特优势。这表明,当受访者选择其他供应商时,他们会在当前供应商和备选供应商之间寻找差异。

迁移到多云的第二个最常见原因是可用性( 22% )。毫不奇怪,采用多家云提供商的受访者达到或超过其可靠性目标的可能性是前者的 1.5 倍。

2、基准线的变化

A)使用云基础设施的方式很重要。

在过去,我们发现并非所有受访者都以相同的方式使用云。这导致了云应用在推动业务成果方面的有效性差异。我们通过关注云计算的基本特征(由国家标准与技术研究所( NIST )定义)来解决这一局限性,并以此为指导。使用 NIST 对云计算的定义,我们调查了基本实践对 SDO 绩效的影响,而不是只是调查云应用对 SDO 的影响。

我们发现,真正重要的是团队如何实现他们的云服务,而不仅仅是他们在使用云技术。精英团队符合 NIST 云计算所有基本特征的可能性是优秀员工的 3.5 倍。那些表示正在使用云基础设施的受访者中,只有 32% 同意或强烈同意他们符合 NIST 定义的云计算的所有五个基本特征,比 2019 年增加了 3% 。总体而言,NIST 云计算特性的使用率增加了 14~19% ,其中快速弹性增长幅度最大。

B)按需自助服务

消费者可以根据需要自动提供计算资源,而无需与提供商进行任何人工交互。

73% 的受访者表示使用自助服务,比 2019 年上升了 16%。

C)更多的网络接入形式

功能广泛可用,可通过多个客户端(如移动电话、平板电脑、笔记本电脑和工作站)访问。

74% 的受访者表示使用,比 2019 年上升了 14%。

D)资源池

功能广泛可用,可通过移动电话、平板电脑、笔记本电脑和工作站等多个客户端访问。提供商资源汇集在多租户模型中,物理和虚拟资源可按需动态分配和重新分配。客户通常无法直接控制所提供资源的确切位置,但可以在更高的抽象级别(如国家、州或数据中心)指定位置。

73% 的受访者表示使用,比 2019 年上升了 15%。

E)快速弹性

可以弹性地调配和释放功能,以根据需求快速向外或向内扩展。可用于资源调配的消费者功能似乎是无限的,并且可以在任何时间以任何数量进行分配。

77% 的受访者表示使用。比 2019 年上升了 18%。

F)计量服务

云系统通过在与服务类型(如存储、处理、带宽和活动用户帐户)相适应的抽象级别上利用计量功能,自动控制和优化资源使用。可以监视、控制和报告资源使用情况以提高透明度。

78% 的受访者表示使用。比 2019 年上升了 16%。


关注本公众号,回复“报告”,获取中文全文下载链接。

文章转载自持续交付2.0,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论