|
数据库市场有望实现四年近两倍增长 非关系型数据库开始崛起 数据库市场达百亿元量级 数据库国产化进程提速 政策催化,整体进程显著提升 金融数据库信创落地较快,未来有望向其他行业全面铺开 数据库市场格局:国产数据库百花齐放 传统数据库多采用集中式架构,新兴数据库利用分布式“换道超车” 新兴数据库:主要针对非关系型及高并发场景 传统数据库:重点对关系型场景进行替代 投资建议与风险提示 星环科技 创意信息 |
非关系型数据库开始崛起
首先,我们观察数据库行业本身的发展驱动力情况。除了数据量的增长,最主要的驱动因素是新技术的产生。数据库行业近年来出现向非关系型数据库发展的趋势。
数据库是用于组织、存储和管理数据的仓库,通常由数据库管理系统 (DBMS) 来控制。数据库管理系统具有数据定义、操作、存储与管理、维护和通信等功能,且能够允许多用户使用。数据、数据库管理系统及关联应用一起被称为数据库。数据库向下调用底层硬件资源,向上支撑应用业务,是三大基础软件之一。
数据库可按数据模型、部署方式、架构模型和业务负载特征进行分类。按数据模型分类:关系型数据库以二维表形式存储结构化数据,非关系型存储半结构化及非结构化数据。以部署方式分类:数据库可以部署于本地服务器上或云计算资源上。按架构模型分类:集中式不对数据进行分片,数据被集中存储在存储设备中;分布式则将数据分散到不同的计算机上。按业务负载特征分类:交易型数据库(OLTP)又称事务型数据库,主要进行在线实时业务处理,例如银行交易等;分析型数据库(OLAP)擅长于处理离线分析业务,支持复杂的分析操作,侧重决策支持,并提供直观易懂的查询结果;混合负载数据库(HTAP)能够同时完成在线交易和统计分析功能。
非关系型数据库于21世纪初兴起。数据库始于于20世纪60年代,1968年IBM公司开发出世界上第一个层次数据库管理系统IMS,这也是世界上首个大型商用数据库系统。进入70年代,关系型数据库系统开始成为主流。1975年,SQL语言被提出,随后IBM DB2、Oracle等商业关系型数据库陆续诞生。90年代MySQL、PostgreSQL等开源数据库涌现。随着互联网、云计算的发展,影音、文档、流媒体等非结构化数据大幅度增加,非关系型数据库(NoSQL)应运而生。NoSQL多数采用分布式架构,减少了对复杂查询的支持,性能相比关系型数据库大大提升。2009年,文档数据库MongoDB掀起了一场NoSQL潮流,同期,Cassandra、HBase、ElasticSearch、Redis等非关系型数据库纷纷涌现。目前MongoDB数据库已位列DB-Engines排行榜第五名。
数据库市场达百亿元量级
基于技术和产品的趋势理解之上,我们可以对新老市场进行市场规模的测算。
数据库产品市场仍以关系型数据库为主导。关系型数据库以行和列的形式存储数据,其数据具备关联性。常见的关系型数据库包括Oracle、MySQL、Microsoft SQL Server、PostgreSQL等。非关系型数据库常用于存储非结构化的数据,可支持键值(key-value)、文档、图片等数据存储格式,相对关系型数据库使用更加灵活,应用场景广泛,但无法保证数据的完整性和安全性。IDC数据显示,2017-2021年全球关系型数据库占据80%以上市场。
2021年国内关系型数据库市场规模近200亿元,国产替代规模约为56亿元。根据IDC数据,2021年H1、H2国内关系型数据库市场规模分别为11.9、15.8亿美元,总计约合185亿元,其中本地部署关系型数据库份额约为44.4%,公有云关系型数据库约占55.6%。本地部署模式下,Oracle、Microsoft、IBM、SAP等外国厂商份额下降趋势明显。截至2021年H2,四大国外厂商份额之和已由2019年的66.8%下降至43.9%。公有云模式下,阿里、腾讯占据60%以上市场份额,国外厂商份额之和基本保持在20%以下。以2021年数据估算,关系型数据库(包括本地部署和公有云)国产替代规模约为56亿元。
自下而上测算,国内信创数据库潜在替换空间有望超600亿元。
假设1:全国公务员及事业单位人数4000万,国有企业人数4000万,其他企业人数6亿。公务员、事业单位及国有企业人均电脑配比为1:0.6,其他企业配比为1:0.013。所有企业使用计算机数量为5580万台,与2019年国家统计局公布数据基本一致。
假设2:PC:服务器=20:1,服务器:数据库=5:1。
假设3:政府、事业单位、国有企业数据库采购单价为12万元(参照2021年中央国家机关数据库软件中标企业提供的单价),其他企业采购单价为4.5万元。
增量市场:海量数据提供增长动力,重点关注分布式、非关系型等新兴数据库
数据库市场增长主要受以下因素带动:
1.数据量的激增将会带动数据库产品规模增长。数据库是组织、存储和管理数据的仓库,海量数据的爆发将催生数据管理的需求。根据IDC与浪潮联合发布的最新报告显示,2020年全球大数据储量为50ZB,而到2025年将达到175ZB。
2. 分布式、非关系型数据库增长迅猛。在面临海量数据的背景下,传统关系型数据库采用纵向扩展(scale-up)的方法,即通过增加更多的CPU、内存和硬盘来提升数据管理能力;而分布式则采取横向扩展(scale-out)思路,把数据分散到不同的计算机上。位于不同地点的计算机通过网络互相连接,共同组成一个完整的分布式大型数据库,以实现降本增效。根据DB-Engines的排行,传统关系型数据库Oracle、MySQL和 Microsoft SQL Server 依旧保持排行榜前三名,但Snowflake、MongoDB等分布式数据库排名显著提升。根据艾瑞咨询的预测,借助NewSQL、SQL on Hadoop、NoSQL等新技术架构的非关系型数据库将是整个市场中增长最快的细分领域,到2025年可以实现十倍以上的扩张(同2020年相比)。
2025年我国数据库市场规模有望突破500亿元,实现4年近两倍增长。根据IDC数据,2021年中国数据库市场规模约为27.7亿美元(约合185亿人民币)。随着数据量的爆发式增长,IDC预计到2025年76.7亿美元(约合513亿人民币),4年cagr达29%。未来四年内,市场规模有望实现4年近两倍增长。
政策催化,整体进程显著提升
数据库的国产化不仅是信创整体的要求,而且有自身独特的重要性,尤其是考虑供应商的集中度(Oracle等厂商占比极高)、数据安全的紧迫性以及和其他信创产品的联结性。2022年3月,Oracle宣布暂停俄罗斯业务,数据库自主可控重要性凸显。“十四五”规划提出要培育壮大人工智能、大数据、区块链等新兴数字产业。在信息技术、金融科技、交通物流、农业农村对外贸易、公共服务、智能制造等细分领域,国家为各行业在“十四五”期间的数据库应用创新提出政策指导。在不同领域的“十四五”规划中,有数十份涉及数据库相关政策。
国产数据库中标比例显著提升。2020年中国移动进行OLTP 自主可控数据库联合创新项目招标,此次招标首次将数据库相关服务纯国产化列为采购要求,最终南大通用、人大金仓、阿里云、万里开源、中兴通讯中标。在2021年中央国家机关数据库集采中,达梦、人大金仓、阿里、腾讯、新华三等十余个国产数据库品牌入选,而国外品牌则仅有Oracle和微软。相比2019年,国产厂商在事务型数据库及分析型数据库市场中份额均显著提升。
金融数据库信创落地较快,未来有望向其他行业全面铺开
考虑到产品的成熟度需要一个应用、反馈、改善的迭代过程,我们认为国产数据库会经历一个从重点行业先行落地、改善,随后再普遍应用的过程。金融等行业预计会是先行适用的重要领域。
2021年金融IT投入超1800亿元,未来有望向其他行业全面铺开。自2020年完成试点后,2021年金融信创元年开启。根据零壹智库对工信部及下属机构、地方经信委等职能部门公开的优秀信创案例情况的统计,截至2021年12月底,金融在八大行业中进展最快,落地实践率达29.55%。根据头豹研究院的《2021年中国金融级分布式数据库市场报告》,2021年主要商业银行的IT投入高达1898亿元。未来数据库信创将向工业、电信、能源、交通等行业全面推进,演变为带动央企及地方国资企业在信创领域的全面布局,形成最终的“2+8+N”格局。
众多银行已开启数据库国产替换。根据沙利文的测算,银行对于金融级数据库的市场需求占比较高,达78%,而非银金融为22%。同时,银行业数据库投入占比较大,占软件整体投入的60%。工商银行、邮储银行、民生银行、北京银行等纷纷开启国产数据库替换,入选品牌包括华为GaussDB、和openGauss、巨杉数据库的SequoiaDB、PingCAP的TiDB等。
从投资的角度看,既需要考虑相关标的技术性(产品成熟度、生态完备情况和国产替换对客户带来的学习曲线),也需要考虑自身的财务表现。我们大体上还是按照传统和新兴的方式进行划分,但这仅反映相关企业的技术优势,各个企业基本上还是充分竞争的关系。
传统数据库多采用集中式架构,新兴数据库利用分布式“换道超车”
国内数据库厂商大体可分为两类:传统数据库厂商以达梦、人大金仓、南大通用、万里开源、神舟通用为代表;新兴数据库厂商主要以PingCAP、巨杉数据库、星环科技等初创企业为代表;除此之外,腾讯、阿里等云厂商以及中兴、浪潮、新华三等ICT厂商也提供数据库产品及服务。
传统数据库多采用集中式架构,新兴数据库利用分布式“换道超车”。传统数据库以交易为核心,主要针对交易系统的渠道、产品、客户、核算及清算等业务流程,以集中式架构为主。在该赛道,Oracle、IBM等厂商已经领跑近20年,国产厂商追赶存在较大难度。而新兴数据库以数据为核心,依托分布式技术,面向交易过程产生的全量行为数据、流水数据等,解决数据的采集、整理、聚合、运用等问题。在分布式数据库、云数据库、湖仓一体架构等领域,国内外厂商几乎处在相同的起跑线。
新兴数据库在高并发场景表现突出,传统数据库主要针对业务紧耦合场景。相对于传统数据库,新兴数据库具备以下优势:1.能够处理半结构化及非结构化数据,包括文档、图片、时序等。2.能够承载高并发量的业务。分布式数据库具有弹性、业务敏捷的优势,可以支持海量数据的并发处理,更适用于高频发、大吞吐的互联网、金融等场景。而传统集中式数据库面对巨量数据时,往往不具备稳定的高并发能力。但分布式数据库并非通用产品,需要基于客户业务的场景特点进行拆分,因而更适合具有地理分布特性的组织或机构使用。并且在对分布式数据库进行设计时,数据的划分对系统的性能、响应速度、可用性有着极大的影响。因此对于业务紧耦合的场景,更适于使用集中式数据库。
新兴数据库:主要针对非关系型及高并发场景
1.星环科技:对关系型数据库的分析型场景进行替代,金融领域具备较强优势
公司专注于大数据市场,2024年大数据软件市场规模有望达492亿元。星环科技属于企业级大数据基础软件开发商,考虑所处的技术环节,我们也可将其看作数据库厂商。近几年数据量快速增长、非结构化数据类型增加,传统数据库难以解决大数据“4V”问题,即规模性、高速性、多样性和价值性的问题。数据处理需求的变化推动了数据管理软件技术的变革,带动了以分布式技术为主的大数据管理平台软件快速发展。根据沙利文研究报告,大数据软件市场由2015年的52亿元增长至2019年的146亿元,预计2024年将达到492亿元,2019-2024年CAGR为27.5%。
公司在大数据平台软件市场中份额靠前。在大数据领域,以Oracle、IBM和Teradata等为代表的关系数据库的扩展性、容错性、经济性、灵活性存在局限性,因此新兴的分布式数据库在特定领域正逐渐替代传统关系数据库。在国际市场,以Cloudera、MongoDB、Snowflake、Elastic等为代表的公司具备较强的技术积累。在国内市场,以华为云和阿里云代表的云厂商,基于自身在公有云的优势,在市场上具备领先优势;新华三等ICT厂商,也对大数据软件产品进行了布局,2021年上半年浪潮和新华三份额之和达8.5%;星环科技排名第7,市场份额达1.3%。
公司专注于分布式和数据云技术。围绕数据的集成、存储、治理、建模、分析、挖掘和流通,星环科技提供全生命周期的基础软件及服务。其产品包括大数据与云基础平台软件(TDH和TDC)、分布式关系型数据库(ArgoDB和KunDB)、数据开发与智能分析工具(TDS和Sophon)。
公司产品主要面向分析型和高并发型场景。TDH大数据基础平台可以处理包括关系表、文本、时空地理、图数据、文档、时序、图像等在内的多种数据格式,且支持Oracle、IBM DB2和Teradata等数据库SQL方言以及Oracle PL/SQL、IBM DB2 SQL PL等SQL扩展,是目前大数据领域对SQL标准支持较为完善的产品之一。TDC数据云平台是将大数据基础平台、分布式关系型数据库、智能分析工具等大数据软件以PaaS云服务的方式提供给客户。ArgoDB是面向数据分析型业务场景的分布式闪存数据库产品,主要用于构建离线数据仓库、实时数据仓库、数据集市等数据分析系统。KunDB是公司研发的一款面向数据操作场景的分布式交易型数据库,主要用于支持操作型业务场景(如ERP、OA、HIS等)和高并发场景(如消费者的手机APP应用、健康码查询等)的核心数据系统的构建。
公司在金融领域具备较强优势,可对关系型数据库的分析型场景实现替代。公司在金融、能源、制造、交通等多个行业的核心业务系统领域进行国产化替代,其中金融行业占公司收入比重较大,2021年达43%。公司主要替代对象包括传统关系型数据库Oracle、IBM DB2、Teradata等,解决了传统数据库不能处理大量半结构化和非结构化数据等问题。
2. 拓尔思:在党政领域对Elastic Search实现大量替换
搜索引擎技术是处理非结构化数据的关键,对应国内市场规模近30亿元。当前国产化替代主要在关系型数据库领域进行,非关系型数据库领域较少涉及,但根据拓尔思援引数据,非结构化数据(如管理制度、业务报告、研究和法律报告等)占数据总量的80%以上,且很多业务的重要见解都隐藏在非结构化数据中。非结构化数据的处理需要依赖基于全文检索的搜索引擎技术,根据IDC测算,搜索系统、内容分析和认知/AI软件平台的市场规模约80亿美元。参照中国信通院数据,2020年中国数据库市场规模占全球比例约为5.2%,以该比例测算,国内搜索系统、内容分析和认知/AI软件平台的市场规模近30亿元。
在国内搜索引擎数据库市场,ElasticSearch占据主要份额。在搜索引擎领域, ElasticSearch 以其灵活的配置和强大的性能,加上阿里等国内大厂的支持,在市场中占据着主导的地位。ES自发布以来迅速占领了全文搜索引擎市场,目前很多企业已放弃自主研发,逐渐转投ES阵营。根据ES财报显示,公司在2021/2022财年的营业总收入达到8.62亿美金,其市场规模保持30%以上的年均复合增长率。
拓尔思数据库为纯国产自研,已在党政领域对ElasticSearch进行大量替代。TRS海贝大数据管理系统(简称海贝)是拓尔思自主研制的搜索引擎数据库,适用于数字、文本、地理位置、结构化数据、非结构化数据等所有数据类型,能够兼容ES常用接口,可平滑替代ES。目前海贝在电子政务领域装机量已过万套,为“信用中国”提供内容发布和信用数据检索服务,服务了部级、8个省级以及16个市级平台。
3. 海量数据:依托华为openGauss打造核心优势,高并发场景下表现优异
紧抓华为openGauss机遇,坚持“一核两翼”业务布局。海量数据在经历了产品代销阶段后转型自研数据库。在华为开放开源openGauss后,公司推出了基于openGauss的数据库产品Vastbase G100。公司坚持“一核两翼”业务布局,“一核”即数据库核心业务,包括Vastbase海量数据库产品;“两翼”即数据计算与数据存储,包括Vastorage存储产品和Vastcube系列的服务器及数据库一体机产品。
依托华为生态打造核心优势,高并发场景下表现优异。海量数据是openGauss生态贡献仅次于华为的第二大社区贡献者,公司针对openGauss内核进行了创新优化,提升了数据库的并发性。根据中国软件评测中心的测试结果,在两路鲲鹏服务器下,Vastbase2.0版本可以达到139万的tpmC值;Vastbase2.2版本可达到154万tpmC值。目前公司已为2000多家大中型企业客户提供了产品和技术服务。海量数据库在高并发、高性能场景下得到广泛应用,公司客户包括比亚迪、中华联合人寿等。
传统数据库:重点对关系型场景进行替代
传统数据库厂商依然占据主流地位。根据DB-Engines 2022年12月的排名,全球前10款最受欢迎的数据库中有7款是传统关系数据库。据信通院统计,在我国仍有60%的数据库产品属于关系型数据库。
1.达梦:采用全自研路线替换Oracle,党政为公司优势领域
达梦市场份额领先。达梦为中国电子信息产业集团CEC旗下基础软件企业,其大股东为中国软件,持股比例达25.21%。根据IDC数据,2021 H1及2021 H2,达梦在关系型数据库(本地部署模式下)的市场份额分别5.7%和11%,在国内专注于数据库领域的厂商中份额保持第一,且逐步缩小和Oracle之间的差距。
达梦数据库采用全自研路线,可对Oracle数据库实现平滑迁移。达梦产品具有完全自主知识产权,其代码自主原创率达99.9%,并且在安全性方面达到了目前国产数据库最高安全级别。达梦DSC对标Oracle RAC 架构,能够实现柔性替换。在源端是Oracle的情况下,达梦数据库可将多数对象(表、视图、函数、存储过程、触发器、包等)进行平滑迁移,即在业务不中断的情况下实现无感知、平滑切换。
达梦具备全栈数据产品和解决方案。DM8是公司新一代大型通用关系型数据库,在兼顾 OLAP 和 OLTP 的同时,满足 HTAP 混合应用场景。新一代分布式数据库DMDPC是公司推出的分布式数据库产品,主要适用于金融科技、工业互联网、物联网场景。达梦数据交换平台软件DMETL将传统的ETL工具(Extract、Transform、Loading)与分布式消息平台相结合,能够实现构建数据中心、数据仓库等功能,DMETL已被广泛应用于公安、信用、电力等多个行业的数据中心项目中。
达梦在党政领域优势突出。公司党政收入占据大头,根据招股说明书,2019至2021年,党政占公司收入比重分别为48%、63%、59%。党政系统多数使用Oracle数据库,而公司基于自研技术进行研发,满足自主可控需求。达梦数据库与Oracle的兼容程度达95%以上,能够实现平滑迁移,在党政系统具备竞争优势,承接了湖北省应急管理厅、最高人民检察院、海南社保金保信通等多个项目。
2. 人大金仓:份额位列第二,行业覆盖广泛
数据库厂商中公司份额排名第二。人大金仓是中国电子科技集团公司(CETC)成员企业之一,其大股东为太极股份,持股比例达33.28%。根据IDC数据,2021年H1、H2公司在关系型数据库(本地部署模式下)的市场份额均为5%,在数据库厂商中排名第二。
公司主要产品涵盖通用型、分析型及HTAP分布式数据库。KingbaseES面向事务处理,适用于数据仓库、决策支持、高级分析等分析类应用场景并且能够兼顾简单分析应用;金仓分析型数据库系统KingbaseAnalyticsDB(KADB)定位于数据分析类应用市场,适用于数据仓库、决策支持、高级分析等分析类应用场景,可以处理TB-PB级别的数据;KSOne是人大金仓自主研发的分布式关系型数据库系统,具备企业级复杂事务混合负载能力,支持大规模横向扩展以及PB级海量数据存储。
人大金仓覆盖行业广泛。金仓数据库产品广泛服务于电子政务、国防军工、能源、运营商、金融等60余个关键行业。能源领域主要客户包括国家电网、南方电网、中石油、国家管网等;金融客户主要包括人民银行、农业银行、中国银行等;军工领域客户主要为中国船舶、中核集团等。
3.南大通用:金融、运营商领域优势突出
南大通用于2004 年由天津南开创元和北京宏泰安信司联合创立。公司主要数据库产品包括GBase 8a分析型数据库、GBase 8s共享存储的数据库集群和GBase 8c多模多态的分布式数据库等,分别面向商业分析和商业智能市场、OLTP 应用场景以及OLAP等场景。
公司在金融、运营商领域具备领先优势。GBase 8s适用于OLTP 应用场景,包括金融、电信行业的关键核心业务系统,能够提供7*24小时不间断运行处理能力,在80%以上场景中可以替代国际主流数据库。GBase 8a在电信领域取得规模化市场应用,三大运营商均为公司客户,在中国移动集团下一代数据仓库选型测试中,GBase 8a排名前三,是唯一入围的国产产品。
4.神舟通用:具备国资背景,航天、军工及政府领域占优
神舟通用隶属于中国航天科技集团(CASC),是神舟航天软件技术股份有限公司控股子公司,神舟软件持股比例达81.08%。神通数据库套件包括数据采集、数据分析、数据存储和数据展示四部分。其中神通T-Miner用于对文本数据进行分析和挖掘;K-Cuber能够对大型数据库进行在线数据分析,并支持对关键业务指标的快速对比和灵活预警;K-Miner对蕴含在企业运营数据中的各类规律进行深度探索和挖掘,并抽象出对应的数学模型帮助用户进行经营策略的制定或调整。
航天、军工及政府为公司优势领域。在航天领域,公司承担了中国航天科技集团型号设计、测试、运维数据管理系统项目和中国航天科技集团综合管理信息系统项目。在军工行业,公司搭建了全军信息化数据存储平台和基地军事训练管理信息系统。在政府领域,公司完成了公安部首个部一级的国产数据库应用。
5. 万里开源:MySQL高覆盖率及数据库强实时性打造金融行业核心优势
公司主要数据库产品分为分布式和集中式。GreatDB分布式能够实现基于内存计算的TP与AP混合负载支撑,适用于大数据量高并发低延迟的事务型场景及轻量分析型场景和核心业务中对数据一致性要求高的场景。GreatDB集中式提供完备的事务支持,能适用于要求苛刻的在线事务处理(OLTP)应用场景。
公司基于MySQL技术路线研发,MySQL在金融行业广泛应用。公司成立于2000年,原为MySQL中国研发中心,是创意信息的控股子公司。2021年4月,公司创立GreatSQL开源社区,通过对MySQL技术的优化,目前已成为国内最主要的MySQL技术开源分支之一。在开源技术路径中,MySQL占据较大份额,根据中国信通院的数据,在统计的81个关系型数据库中,有28%的数据库是基于MySQL开发的。根据公司调研,90%的金融机构已广泛应用或试用开源软件,其中超9成金融机构应用了MySQL数据库。工商银行、建设银行、招商银行、民生银行、中国银联和泰康保险6家金融企业的MySQL数据库投产节点规模超过1000个,其中,中国银联、工商银行、招商银行超过4000个节点。
投资建议
数据库市场空间达百亿元量级。存量市场主要是进行数据库国产化替换,自下而上测算,替换空间可达600亿元。增量市场主要是受分布式、非关系型等新兴数据库带动。根据IDC预测,2025年我国数据库整体市场规模有望突破500亿元。
数据库国产化替代节奏在加快,细分领域中金融进展较快。受“十四五”等政策带动,数据库信创进程加速推进,国产数据库中标比例显著提升。在八大行业中,金融进展相对较快,落地实践率达29.55%。2021年金融IT投入超1800亿元,银行数据库投入占软件投入比例高达60%。
建议关注数据库信创核心标的:拓尔思、星环科技、创意信息(万里开源)、达梦数据、海量数据。
风险提示
1. 政策推进不及预期。国产化替代受政策直接带动,如果政策推动不及预期,将会影响数据库信创力度。
2. 技术突破不及预期。目前国内数据库产品在性能上仍与国外产品存在差距,如果厂商技术突破不及预期,将会对替代进程产生拖累。
行业|金四催熟中小B税控税筹蓝海,金财互联等厂商角逐 (中银计算机)
行业 | 复制福建模式,一体化大数据彰显政务IT三条主线 (中银计算机)
