充满魔幻色彩的2020年结束了,墨天轮社区也发布了新年第一期的国产数据库排行榜。
新的一年,笔者作为一个数据库的内核开发者的角度,也从这份国产数据库的排行榜聊起,来抛砖引玉,浅谈国产数据库新的一年的发展。
1.格局:三分天下
从墨天轮国产数据库排行榜来看。前三甲依次为 TiDB 、DaMeng、OceanBase。
前三甲的排名恰恰也反应出来当前国产数据库的三股核心力量:
- 以PingCAP,巨杉等为代表的新兴,独立创业公司。
- 达梦,人大金仓,南大通用等结合科研机构与政府的老牌数据库厂商,在传统的RDMS有着浸淫多年的技术积淀。
- 百度,阿里,腾讯,华为等国内互联网大厂,依托于云服务,以云原生为主战场的数据库研发力量。
而新的一年,国产数据库的格局会有什么大的变化趋势吗?
变现的压力
数据库作为软件产品的基础架构,为各大云厂商所重视。数据库研发是一个极为烧钱的行当,而几乎每个厂商都或多或少的面临变现的压力。而正是云给了数据库厂商更多的可能性。而云对于无论是传统的数据库老牌企业,还是新兴的数据库创业公司,都是一种强大的压力。没有云力量的助推,是否能形成规模,成长闭环,目前来看,国内尚没有走出一条认为已然成功的出路。
云的战争
从AWS和Azure的成功可以看到,云的战役对于数据库产品本身也是一场新的战争。面对新兴云厂商的压力,让曾经数据库产业的王者Oracle也倍感压力。
而将目光转回到国内,异军突起的PingCAP真的能杀出一条血路吗?
-
- 中立于云外的力量
笔者见证了从TiDB上腾讯云到下架腾讯云,所以中立于云外的力量能否真正展现力量,目前看来似乎并没有看到什么更新的突破。笔者对于公有云上发展的中立的数据库的态度较为悲观。如果失去了云的加持,TiDB的真正的对手又回到的传统私有化场域的IBM, Oracle。
- 中立于云外的力量
-
- 国际化
由于国外人力成本的因素,导致国外付费进行技术服务购买的环境无疑比国内好很多。我想这也是TiDB发力的重点之一,墙内开花墙外香,看来也不失为一件好事。
- 国际化
从当前的趋势上看,有平台优势的云厂商在国内数据库的无论是在资金,人才,场景上都有着相对的优势。但笔者也同样期待新兴的国产数据库创业公司与老牌的数据库企业能够在市场上破冰。
2.趋势:等待技术的奇点
新兴的数据技术进步也不断的给传统的数据库市场添加无限的可能性,而数据库的形态和变化也在不断的演化之中。而国内外厂商都通过不同方式尝试在给出数据库技术演化的下一个奇点。这也是2021年,我们值得关注的国产数据库技术的一些重点的技术关注点:
HTAP,新的银弹?
无论是新兴厂商的产品TiDB,还是老牌数据库厂商GBase,亦或是作为互联网大厂加入战局的TDSQL,OceanBase。都不约而同的喊出了:HTAP。
同时能够解决OLTP与OLAP的问题,不得不说是一个很吸引人的设想。但是从笔者的角度看。有下面两点的疑问:
- 许多AP场景几乎不需要事务,而事务模型本身又是分析场景的掣肘。许多号称HTAP的解决方案是一套数据模型打天下,看起来并不是解决问题的良方。
- 许多业务场景的AP数据本身来源很宽泛,比如IOT业务生成的大量日志。此时真的需要TP吗?如果摒除了TP之后,是否在架构。比如数据导入与查询,能得到更多优化的可能呢?
HTAP的方案确实值得期待,也已然成为了分布式数据库的发展趋势。新的一年,期待TiFalsh的开源,也期待国产数据库在HTAP上给我们带来更多惊喜。
AI For DataBase
无论是工业界还是学术界,用AI进行数据库调优,是这些年的热点方向。基于AI技术的数据库调优部分涉及的技术也不少。
-
DataBase Cracking
基于数据库查询的数据分布,索引分布调优的DataBase Cracking是笔者觉得值得关注的技术。
-
Auto Tuning
数据库的参数自调优也是当前数据库的一个研究热点。\新晋开源的国产数据openGauss在参数自调优上都做了一定的工作。数据库参数调优一直是DBA头疼已久的问题,希冀在未来在该痛点上能有所突破。
- AI Optimizer
优化器可以比作数据库大脑,Oracle最为被称道的就是其在优化器上所投入的工作。openGauss根据历史的查询信息,通过机器学习的方式来对查询计划进行了裁剪与调优,与原先的代价模型相较,在TPCH的测试场景上有了较为明显的性能提升。
老问题,新解答,通过人工智能的方式解决新的问题,这是当前数据库发展的热点。数据库的问题本质还是数学的问题,数学的问题通过还是需要数学来解决,而AI会是答案吗?期待2021的国产数据库能在上面能有更上一层的突破。
新的硬件,重塑架构
新的硬件演化给了数据库架构更多的可能性,国内外各大厂商都在积极探索新的异构的技术和存储设备赋予数据库发展更新的活力。
- GPU
MapD给出解法是利用GPU来进行OLAP的技术加速。
无论是AI还是币圈挖矿。GPU都证明了自己在计算能力上的挖掘潜力。而伴随着海量数据分析的需求,与内存价格的下跌,不少OLAP数据库早已从传统的IO瓶颈转化为CPU瓶颈了。笔者认为GPU在数据库计算上的发展,值得我们进一步关注。
- FPGA
与MapD的思路类似,阿里的XDB也是通过异构的计算设备来减少CPU的计算压力。而XDB关注的点在于LSM Tree Compation的压力上,通过减少LSM Tree的Compation的压力,来更多的释放存储引擎的吞吐能力。
- PMEM
如果内存不再是易失的?所有数据的都可以直接永久的放在内存里。
听起来是不是很让人兴奋。Linux通过共享内存的方式,一定程度上实现了内存的非进程绑定,但是依然无法解决断电之后数据丢失的问题。
没关系,PMEM让这一切成为了现实。内存数据库本身就是数据库业界研究多年的热点问题,它的侧重点从传统数据库解决硬盘与内存的瓶颈转化为了解决内存与Cache之间瓶颈,无论是索引与数据存储格式,还是查询执行都需要进行重新建构。而新形式的PMEM更是能够进一步的提升内存数据库的普及程度,传统内存数据库如HANA,VoltDB可能有了更值得国产数据库从业人员参考与学习的价值。
GPU,FPGA,PMEM,无数眼花缭乱的新硬件开始从概念成为工业产品,而这些新硬件赋予的能力,可能会重塑数据库的架构的和生态,至少在特定垂类下,有着无限的可能性。而国产数据库在这一方向的动态,值得我们持续关注。
3. 小结
从墨天轮的数据库排行版聊起,笔者浅析了新的一年值得关注的
- 国产数据库的格局变迁
- 值得关注新数据库技术的应用方向
2020过去了,我并不怀念它。2021年要来了,笔者期待和大家一起见证国产数据库的的发展。
4. 参考资料
国产数据库排行版2021年1月
DataBase Cracking
openGuass的AI能力与规划
MapD open sources GPU Database
XDB FPGA
Redis Pmem
评论
