暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

解读2021年《数据库发展研究报告》,7000+字干货

架构头条 2021-06-29
1672
2021 年 6 月 24 日,由中国信息通信研究院(以下简称“中国信通院”)主办的“2021 大数据产业峰会·成果发布会”在京召开。会上,中国信通院云计算与大数据研究所副所长魏凯发布了《数据库发展研究报告(2021 年)》(以下简称“报告”)。

当前,新一轮科技革命迅猛发展,数据规模爆炸性增长、数据类型愈发丰富、数据应用快速深化,促使数据库产业再次进入创新周期中的混沌状态。全球范围内创新型数据库产品快速涌现,市场格局剧烈变革,我国数据库产业进入重大发展机遇期。报告显示,2020 年,全球数据库市场规模达到 671 亿美元,中国数据库市场规模约为 241 亿元,占比约 5.2%。预计到 2025 年,全球数据库市场规模将达到 798 亿美元。中国数据库市场总规模将达到 688 亿元,市场年复合增长率(CAGR)为 23.4%。2020 年中国公有云数据库市场规模为 107.68 亿元,未来 5 年,公有云数据库市场年复合增长率将达到 36.1%,预计到 2025 年,中国公有云数据库市场总规模将达到 503.31 亿元


中国信通院云计算与大数据研究所副所长 魏凯

此外,技术方面,报告梳理了数据库发展三个关键阶段,探讨了未来数据库技术演进的主要方向;产业方面,报告对产业主体、研发模式、产品分布、推广策略等方面,分析我国数据库产业的主体特点、市场格局、发展态势等;应用方面,报告以金融、电信、政务、制造业和互联网为代表,研究当前应用现状、问题以及下一步应用趋势;报告还讨论了当前我国数据库行业存在的挑战,并给出相关建议。

1以下为演讲实录:

大家好,我是中国信息通信研究院云计算与大数据研究所魏凯,今天很荣幸由我来为大家解读《数据库发展研究报告》。本报告是由信通院云大所数据库团队与行业专家联合编制完成,涉及数据库技术、产业、应用等多个方面,下面我将为大家解读报告内容。


企业级数据库产品诞生于上世纪 60 年代,六十余年发展过程中,数据库共经历前关系型、关系型和后关系型三大阶段

  • 前关系型阶段数据库的数据模型主要基于网状模型和层次模型,代表产品分别为 IDS 和 IMS,该类产品在当时较好地解决了数据集中存储和共享的问题,但在数据抽象程度和独立性上存在明显不足。

  • 关系型阶段以 IBM 公司研究员埃德加·考特提出关系模型概念,论述范式理论作为开启标志,期间诞生了一批以 DB2、Sybase、Oracle、SQL Server、MySQL、PostgreSQL 等为代表的广泛应用的关系型数据库,该阶段关系理论基础不断夯实、技术脉络逐步清晰、市场格局趋于稳定。

  • 2010 年前后随着大数据时代的到来,正式开启后关系型数据库阶段,该阶段由于数据规模爆炸增长、数据类型不断丰富、数据应用不断深化,技术路线呈现多样化发展,具体表现为数据模型不断拓展、分布式架构逐渐成熟。随着各行业数字化转型不断深入,5G、云计算等新兴技术快速发展,传统数据库的应用系统纷纷优化升级。全球市场格局剧烈变革,我国数据库产业进入重大发展机遇期。


后关系型数据库阶段,数据量不断爆炸式增长,数据存储结构也越来越灵活多样,日益变革的新兴业务需求催生数据库及应用系统的存在形式愈发丰富,这些变化均对数据库各类能力不断提出挑战,推动数据库技术的不断演进,总结起来体现为三个方向:

  • 一是多模数据库实现一库多用、利用统一框架支撑混合负载处理、运用 AI 实现管理自治,提升易用性、降低使用成本;

  • 二是充分利用新兴硬件、与云基础设施深度结合,增强功能、提升性能;

  • 三是利用隐私计算技术助力安全能力提升、区块链数据库辅助数据存证溯源,提升数据可信与安全。


后关系型数据库阶段,数据结构越来越灵活多样,如表格类型的关系数据、半结构化的用户画像数据以及非结构化的图片和视频数据等。面对这些多种结构的数据,应用程序对不同数据提出了不同存储要求,数据的多样性成为数据库平台面临的一大挑战,数据库因此需要适应多类型数据管理的需求。多模数据库支持灵活的数据存储类型,将各种类型的数据进行集中存储、查询和处理,可以同时满足应用程序对于结构化、半结构化和非结构化数据的统一管理需求。

业务系统的数据处理分为联机事务处理(OLTP)与联机分析处理(OLAP)两类。企业通常维护不同数据库以便支持两类不同的任务,管理和维护成本高。因此,能够统一支持 OLTP 和 OLAP 的数据库成为众多企业的需求。产业界当前正基于创新的计算存储框架研发 HTAP 数据库,其能够基于统一套引擎同时支撑业务系统运行和分析决策场景,避免在传统架构中,在线与离线数据库之间大量的数据交互。

目前 HTAP 大致有两种实现方式:

  • 第一种是主备库物理隔离,主库运行 OLTP 负载,备库运行 OLAP 负载,主备之间通过重做日志进行数据同步。

  • 第二种是采用一体化设计,通过同一套引擎实现混合负载,区分 OLTP 与 OLAP 请求所在资源组,对资源组进行逻辑隔离。

HTAP 的价值在于更加简单通用,对于绝大部分中等规模的客户,数据量不会特别大,只需要一套系统即可,但对于超大型互联网企业,HTAP 数据库的分析性能可能不如专用 OLAP 数据库或大数据平台。

目前有研究通过将传统数据库组件用 AI、机器学习算法替代,来实现更高的查询和存储效率,自动化处理各种任务,例如自动管理计算与存储资源、自动防范恶意访问与攻击、主动实现数据库智能调优。机器学习算法可以分析大量数据记录,标记异常值和异常模式,帮助企业提高安全性,防范入侵者破坏,还可以在系统运行时自动、连续、无人工干预地执行修补、调优、备份和升级操作,尽可能减少人为错误或恶意行为,确保数据库高效运行、安全无失。未来 80% 以上的日常运维工作有望借助 AI 完成。


最近十几年,新兴硬件在经历学术研究、工程化和产品化阶段发展,对数据库系统设计提供了广阔思路。期间最主要的硬件技术进步是多处理器、多核、大内存和固态硬盘,多处理器和多核为并行处理提供可能,SSD 大幅提升了数据库系统的 IOPS 和降低延迟,大内存促进了内存数据库引擎的发展。非易失性内存(NVM)具有容量大、低延迟、字节寻址、持久化等特性,能够应用于传统数据库存储引擎各个部分,如索引、事物并发控制、日志、垃圾回收等方面;GPU 适用于特定数据库操作加速,如扫描、谓词过滤、大量数据的排序、大表关联、聚集等操作。随着新型硬件成本逐渐降低,充分利用新兴硬件资源提升数据库性能、降低成本,是未来数据库发展的重要方向之一。

云计算技术的不断发展催生出将数据库部署在云上的需求,通过云服务形式提供数据库功能的云数据库应运而生。云与数据库的融合,减少了数据库参数的重复配置,具有快速部署、高扩展性、高可用性、可迁移性、易运维性和资源隔离等特点,具体有两种形态,一种是基于云资源部署的传统数据库;另一种是基于容器化、微服务、Serverless 等理念设计的存算分离架构的云原生数据库。云原生数据库能够随时随地从多前端访问,提供云服务的计算节点,并且能够灵活及时调动资源进行扩缩容,助力企业降本增效。未来,数据库将深度结合云原生与分布式特点,帮助用户实现最大限度资源池化、弹性变配、超高并发等能力,更加便捷、低成本实现云上数字化转型与升级。


随着数据上云趋势显著,云数据库面临的风险相较于传统数据库更加多样化、复杂化。如何解决第三方可信问题是云数据库面临的首要安全挑战。近年来以同态加密等密码学为代表的软件解决方案和以可信执行环境(TEE)为代表的硬件方案为数据库安全设计提供许多新思路。密码学方案的核心思路是整个运算过程都是在密文状态,通过基于数学理论的算法来直接对密文数据进行检索与计算。硬件方案的核心思路是将存放于普通环境(REE)的加密数据传递给 TEE 侧,并在 TEE 侧完成数据解密和计算任务。未来,此类数据库将围绕算法安全性和性能损耗等问题,逐步突破,进而提供覆盖数据全生命周期的安全保护机制。

数据库管理员或黑客对数据库历史记录的修改是一个经常爆发的问题。区块链具有去中心化、信息不可篡改等特征,区块链数据库能够长期留存有效记录,数据库的所有历史操作均不可更改并能追溯,适用于金融机构、公安等行业的应用场景。区块链数据库由于要容忍节点拜占庭行为而不得不采用代价更高的 PBFT、PoW 等共识算法成为落地应用的一大挑战,此外,由于没有统一的协调者,如何保证区块链网络分片时分布式系统的安全性,高并发下的并行控制如何保证 ACID 也都是设计者不可忽视的问题。未来,提升区块链数据库性能将成为学术界与工业界共同探索的命题。


全球数据库产业生态成熟壮大,在发展过程中,逐渐细分出数据库产品、数据库服务和数据库支撑体系三个细分产业。据中国信通院测算,2020 年全球数据库市场规模为 671 亿美元,其中中国数据库市场规模为 35 亿美元(约合 241 亿元人民币),占全球 5.2%。预计到 2025 年,全球数据库市场规模将达到 798 亿美元。中国的 IT 总支出将占全球 12.3%。我们预计,中国数据库市场在全球的占比将在 2025 年接近中国 IT 总支出在全球的占比,中国数据库市场总规模将达到 688 亿元,市场年复合增长率(CAGR)为 23.4%。


据中国信通院统计分析,截止 2021 年 5 月底,我国数据库产品提供商共计 80 家。从企业成立时间看,我国数据库企业成立时间主要集中在 1999-2000 年和 2013-2017 年两个时间段,数量分别是 12 个和 38 个,依次占比 15% 和 48%。总部分布情况代表企业所在城市对数据库产业的重视与发展程度。从企业总部的数量看,由于人才规模聚集效应,企业总部通常设在超一线城市,数量最多的前五名是北京、杭州、上海、成都和深圳,分别是 43、9、7、3、2 个,占企业总数约为 54%、11%、9%、4% 和 3%,除此之外,济南、南京、天津、武汉、广州、贵阳、福州、合肥和乌鲁木齐等直辖市和省会城市平均孵化出 1-2 个数据库企业。我国数据库企业人员平均人数约为 184 人,最高为 1200 人左右规模,最低为 10 人左右规模。其中 21-50 人左右规模企业占比最高,数量 34 个,比例达到 43%,人数在 51-100 人左右规模次之,数量为 12 个,占比 15%,101-200 人和 201-300 人规模并列第三,均为 10 个,分别占比 13%。我国数据库企业针对数据库领域的平均专利数量(含国内外专利)为 38 个,最高为 500 个左右规模,数量为 0 的企业个数是 19 个,占比 24%。拥有专利数 0-4 个的企业占比最高为 51%,专利数 5-10 个的企业次之,占比 14%,专利数 21-50 个的企业数量排名第三,占比 12%。国内数据库的全部企业技术专利累计千余,仍有较大发展空间。


我国数据库产品数量分布呈现以关系型为主,非关系型及混合型数据库为辅的局面。我国关系型数据库产品多数基于 MySQL 和 PostgreSQL 二次开发而来。据中国信通院统计分析,截止 2021 年 6 月,我国数据库产品共有 135 款。其中关系型数据库 81 个,非关系型数据库有 54 个,占比分别是 60% 和 40%。关系型数据库中基于开源数据库 MySQL 和 PostgreSQL 进行二次开发的个数分别为 23 和 24 个,依次占关系型数据库比例为 28.40% 和 29.63%,总计占 58.03%。此外我国非关系型数据库产品发展势头良好,逐渐受到国际认可。图数据库产品数量为 13 款,自研程度较高,自研产品占总数比例为 69.23%。我国时序数据库、文档数据库和图数据库也不同程度出现在 DB-Engines 流行度排名。


据中国信通院统计分析,2020 年,中国公有云数据库市场规模为 107.68 亿元,未来 5 年,公有云数据库市场年复合增长率将达到 36.1%,预计到 2025 年,中国公有云数据库市场总规模将达到 503.31 亿元。线上市场格局巨头涌现。中国信通院调研显示,阿里云、华为云和腾讯云作为我国头部云服务商,其在云计算基础设施、应用生态、用户渠道等方面处于领先地位。2020 年,上述三家云服务商公有云数据库总营收约占中国公有云数据库市场份额 75.5%。约 83% 的云上客户向选择 MySQL、Redis、MongoDB、InfluxDB 等开源数据库。2020 年数据库传统部署模式市场为 133.22 亿元,随着市场倾向的变化,传统部署市场替换国外数据库空间巨大。据中国信通院大数据产品能力评测十二批结果显示,国产数据库供给能力较几年前得到大幅提升,产品功能逐渐完善,集群规模与日俱增,性能表现不断攀升,市场竞争程度较为激烈。近些年,初创企业和巨头陆续投身开源市场,开源已成为数据库产业的共识。2021 年 1 月,DB-Engines 官网显示,开源许可证流行度首次超过商业许可证,开源数据库迎来新纪元。针对开源,企业纷纷采取不同的商业模式,期望扩大人才规模及上下游生态影响力,通过运营开源社区快速获得反馈并加快产品开发、提升产品质量,反哺生态伙伴,达到多方共赢目的。


数据库服务产业主体主要由多年来在电信、金融、政务等重要行业提供外包 IT 运维服务的企业构成,成立时间普遍十年以上,核心成员多为早期提供 Oracle、DB2 原厂或第三方服务的专家。由于企业数据库技术体系庞杂,需要服务提供商能够提供横向主流数据库产品和纵向多版本技术服务覆盖能力,服务行业技术壁垒较高。此外,由于一般与客户签订一至三年合同,服务提供商对客户系统非常熟悉,容易形成相对稳定的长期合作伙伴关系,市场壁垒较高,新兴初创公司较少,巨头员工数量普遍在千人左右。


数据库服务贯穿企业 IT 系统的整个生命周期。按照信息系统建设的不同阶段,数据库的服务范围主要覆盖规划设计、实施部署、运维运营三个方面,三个方面又细分多个服务工作内容。由于服务过程缺乏行业规范和指引,导致众多数据库应用企业面临各类选型和实施问题。中国信息通信研究院联合国内数据库厂商和服务商,共同编制并发布了《数据库服务能力成熟度模型》团体标准,期望为国内的数据库服务生态体系提出更全面和专业的评估标准,目前已开展两批评估,参评企业、参评项目和评估等级如上图右侧所示。


服务市场主要集中在金融、电信、政府、制造、交通五个行业。根据中国信通院统计分析,各行业的数据库服务市场份额比例分别为金融 22.3%、电信 18.9%、政府 16.4%、制造 13.3%、交通 9.6%,这五个行业合计占比超过 80%。服务企业向产品企业转型。随着云数据库兴起,数据库运维要求不断提升,服务商除了提供传统的驻场与远程运维类服务外,围绕数据库开发、测试、运维等环节也提供多种类型的数据库周边工具。除此之外,服务商为了拓展业务范围,提升企业利润总额,认识到可以利用自身服务能力积累与经验,对数据库产品供应商形成差异化优势,顺势推出自有数据库产品,进一步加剧了数据库产品市场竞争激烈程度。


学术方面,2016 至 2020 年,美国、中国、印度、德国和英国是全球数据库领域论文产出前五的国家,美国发文量最多,占全球总发文量 22.4%,之后依次为中国 19.4%,印度 7.4% 。从高水平论文数量分析,英国高被引论文数占 3.1%,中国占 0.3%。从国际合作论文的角度分析,英国、法国、加拿大、西班牙的国际合作论文较多,均超过 50%。从 VLDB、SIGMOD 和 ICDE 三大顶会的研究方向看,当前以关系型数据库为主,非关系型数据库为辅。我国在全球数据库领域学术影响逐渐提升。高校及企业在 ICDE 论文贡献占比最高,三年依次为 28.19%、37.31% 和 43.15%,三大会议每年贡献占比平均为 22.14%、23.74% 和 23.81%,数量呈逐年上升趋势,我国数据库学术水平国际影响力不断扩大。


围绕支撑体系,各类组织形成,有助于人才培训体系的构建。一类是由具备官方背景的研究组织,例如以中国计算机学会(CCF)数据库专业委员会为代表的学术组织和以通信标准化协会大数据技术标准推进委员会(CCSA TC601)为代表的行业组织,用于汇聚国内数据库理论研究头部力量;第二类是数据库从业人员牵头发起的面向数据库技术爱好者的用户组织,如面向 DBA 的 ACDU、面向 MySQL 用户的 ACMUG、面向 PostgreSQL 用户的中国开源软件推进联盟 PostgreSQL 分会等,用于进行各类专题技术交流和讨论;第三类是由数据库企业组建,针对自身特定产品讨论的官方技术社区,如阿里云开发者社区、华为云 openGauss 社区、PingCAP AskTUG 社区、PostgreSQL 中文社区等;第四类是汇聚数据库整体行业信息的第三方技术社区,如 ITPUB、墨天轮、DBAplus 等,用于搭建领域内线上交流平台。数据库人才培养渠道主要有三个:高校教育、培训机构和企业,各渠道分别具有不同的培训方式和培训目标。


中国信通院统计分析,自 2013 年至今,数据库企业累计完成约 42 次融资,根据披露金额显示,融资额度总计约为 78.6 亿元。自 2014 年成立的以数据库产品供应与服务提供为主营业务的企业为 29 个,其中 24 个企业先后获得单笔数百万元至最高 2.7 亿美元融资,仅 2021 年一、二季度期间,获得最新一轮融资的企业数就达 12 家,2020 全年获得融资的企业数量为 17 家,占比 59%,其中不乏高瓴创投、经纬中国、红点创投、红杉资本等知名投资方。由此可见,近些年数据库领域受到资本高度关注和追捧。


金融、电信、政务、制造、互联网五个行业为数据库产品及服务采购份额前五的行业,采购总和占据全部市场份额的 80% 以上。据中国信通院统计分析,以业务系统数量为计数单位,我国金融行业各类数据库占比为 Oracle 55%、DB2 19%、MySQL 13%、PostgreSQL 6%,其他 7%。金融和电信行业在数据库应用方面正在呈现三大趋势,一是大部分存量数据库将向分布式架构升级;二是应用大量非关系型数据库助力创新业务落地;三是产品选型逐渐倾向国产数据库供应商。政务行业在数据库应用方面正在呈现两大趋势:一是大范围应用空间型、关联型数据库等产品;二是利用各类工具组件,做到数据库应用“平民化”。工业场景中,80% 以上的监测数据都是实时数据,未来工业行业在数据库应用方面将呈现两大趋势,一是应用大量时序数据库,二是逐步向边缘计算发展。未来互联网行业在数据库应用方面将呈现三大趋势,一是利用内存数据库加速业务效率;二是开源数据库应用更加广泛;三是初创公司利用云数据库促进其快速发展。


随着数据跃升为生产要素,数据重要性进一步提高,我国数据库产业也迎来新一轮变局。从产业角度看,宏观政策利好推动了存量数据库市场上行,我国数据库产业进入蓬勃发展的初期,产品供应商、服务提供商、支撑产业从业者均积极行动,各自发挥技术、渠道、运营等优势,寻求对于自身最优的发展路径;另一方面云基础设施的发展成熟将接近一半的传统数据库市场转移到了线上,云计算企业利用既有基础设施优势,成为最大获益者。从技术角度看,一方面数据应用的变化倒逼数据库具备更大数据存储容量、更多数据计算模型、更快数据业务响应能力,整体技术发展进入后关系型阶段,架构设计逐渐分布式化、模型构建逐渐场景化;另一方面,人工智能、新型硬件、区块链、密态计算等关联技术的创新正在催生新型数据库设计模式,传统数据库功能边界正被逐渐突破。

“明者见于无形,智者虑于未萌。”当前我国数据库产业的发展格局,是紧跟时代步伐顺应历史规律、着眼全球提升国际综合竞争力、立足国情推动新旧动能接续转换的外在表现。我们相信,以数据库为代表的新型数据基础设施不断创新发展,对于全面建设社会主义现代化国家的征程,将起到重要的推动作用。

下载地址:

http://www.caict.ac.cn/kxyj/qwfb/ztbg/202106/P020210625629931267505.pdf

 今日文章推荐:
项目延期半年,我被软件外包坑惨了!

在数字化的浪潮下,掌握数字化能力,已经不能算是竞争优势了,而是会逐渐成为起跑线问题

但,到底什么叫数字化?什么是数字化转型?和信息化的关系是什么?技术人要学点什么技能呢?

推荐 IBM 副合伙人付晓岩的《说透数字化转型》专栏,为你梳理一整套数字化人才成长指南,详解 6 大转型关键技术,15+ 经典案例,帮助你建立一套系统的转型知识框架。端午节新用户限时特惠 ¥59.9,即将恢复原价 ¥129,扫描二维码或点击阅读原文免费试读👇



点个在看少个 bug 👇

最后修改时间:2021-06-30 15:31:15
文章转载自架构头条,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论