
3月6日,数据库初创公司晨章数据发布了基于数据基层创新架构的三款分布式数据库产品,分别是兼容Redis的分布式KV事务数据库EloqKV,兼容MySQL的分布式关系型数据库EloqSQL,以及兼容MongoDB的分布式文档数据库EloqDoc,并宣布产品全面开源。通过技术创新,打造适用于新一代AI应用的数据底座。
AI时代数据底座迎来新挑战
一直以来,数据库随着IT供给和业务需求不断演进,自互联网、移动互联网浪潮以来,企业业务场景变得更为复杂,多模态数据海量增长,推动数据库架构从单机转向到分布式,数据库模态从SQL到键值、文档、图、时序等NoSQL细分领域。再到NewSQL不断发展。
晨章数据联合创始人&CEO张霖涛介绍,过去20年间海量多样化数据带来的可扩展性需求以及多模态数据处理需求,带来了数据库多样化蓬勃发展。随着大语言模型加速AI应用发展,在AI时代对数据库产生了新的需求,也带来了新的挑战。

(某金融Agent应用基本架构)
如今,AI应用催生出了新的数据库需求,以某金融Agent应用为例,部署多个数据库管理不同模态的数据带来了很多问题。多个数据库需要分别购买安装部署硬件,提升了固定投资成本,且多个数据库造成了系统的复杂性,增加了运营成本。将数据放到不同的数据库中,各个Agent可能看到不同时间的数据状态,数据不一致性会造成应用的复杂性。此外,AI应用尚在快速发展中,需要灵活扩展数据模态,以及快速扩缩容,单独部署多个数据库在灵活性敏捷性方面面临挑战。
总结来看,AI应用需要数据库具备以下能力:
性能、可扩展性和事务能力三者需要兼顾。
AI应用需要对不同数据模态做统一管理,增加新数据模态,不必增加新的数据管线,尽可能把各种数据用统一的管理系统管理,对外暴露标准的API接口,让Agent看到一致的数据。
灵活性与敏捷性,这是AI时代成功的关键。
AI应用快速发展,需要快速扩展以及扩缩容,以应对爆炸式用户增长。此外,也需要云中立来充分发挥云的优势。
张霖涛指出,面对AI应用的需求,传统的SQL、NoSQL数据库以及NewSQL数据库在灵活扩展、多模处理方面仍然面临着挑战。比如,NoSQL数据库虽然获得了扩展性,但是牺牲了事务。NewSQL虽然具有事务和可扩展能力,但是牺牲了性能和效率。
“过去这些年,实际上数据库架构变化很小,AI时代需要新的数据库架构来满足面向未来AI应用的需求。”张霖涛说,晨章数据通过数据基层(Data Substrate)技术创新,为企业打造面向AI时代的数据底座。
“数据基层”架构创新实践
所谓数据基层(Data Substrate),是晨章数据提出的一种模块化数据库新架构,晨章数据将数据库内核解耦,通过对不同数据库共有功能的抽象,以一种模块化的方式,建立标准化API,为不同功能的数据库建立统一的数据基座。降低系统复杂度和开发成本,实现灵活伸缩。
晨章数据联合创始人&首席架构师陈亮指出,数据基层(Data Substrate)理念的好处是,通过对数据库解耦、抽象出通用模块,一方面可以避免重复造轮子,充分利用现有系统。另一方面,每个功能模块可以在更细粒度资源上伸缩,用户可以根据自己的需求用最小化资源动态伸缩满足其性能要求。此外,模块化架构像乐高一样,可以快速拼装构建一个能适应不同场景和应用,更加灵活的数据库,用以满足用户日益复杂的数据处理需求。
像乐高一样可插拔、模块化抽象可重复使用、灵活拼装并不是新的概念,但是在数据库领域的创新实践尚属首次。数据库作为基础软件皇冠上的明珠,系统复杂、工程实现难度较大。
陈亮介绍,数据库想要做得和乐高一样,其中的关键和难题主要有两点,一是找到合适的抽象,如何解耦,模块怎么切分合适都具有挑战。二是保证拼装的系统有好的性能,至少不比原生系统差,甚至比原生系统还要好。这需要研发新的算法和协议,来保证系统性能。
晨章数据基于数据基层(Data Substrate)架构将数据库解耦为计算引擎、缓存和并发管理、日志、数据存储四层,中间的两层“缓存和并发管理、日志”是最为核心的数据基层(Data Substrate)。

(基于数据基层Data Substrate的解耦)
缓存和并发管理是分布式内存层,可以看作一个分布式内存表抽象,抽象成分布式内存表可以实现缓存按需伸缩。由于在分布式内存层不会对数据内容解码,而是通过ID定位数据,也可以实现跨模态数据管理,即无论缓存的是表的行还是JSON文档,都能够统一处理,这样便可以在上面构建不同的计算引擎。此外,在日志层,将日志抽象成分布式日志,也可以弹性伸缩。
数据基层(Data Substrate)部分有两个重要的协议,其一是通过异步checkpoint,并行、异步地将数据更改从缓存或日志写入数据存储(checkpointing),其二是容错时将未checkpoint的数据在缓存或数据存储中恢复,恢复完成前不对外提供服务,这两个协议确保整个系统高效运行,拥有更高的性能、灵活性和高可用容错性。
数据基层(Data Substrate)比传统的存算分离和硬件资源隔离实现了更优的架构,可以根据业务形态、冷\热数据的状态搭配资源,实现更细颗粒度的缓存级按需伸缩,更加敏捷、灵活地应对上层应用的流量,达到更优的性能和性价比。
好的架构还需要良好的工程实现落地,而数据库的工程实现与部署环境和硬件发展趋势息息相关。陈亮指出,目前,存储设备IO实现了快速发展,传统数据库采用多线程模型、同步IO,会遇到并发瓶颈,很难最大化发挥新硬件的高IO优势。晨章数据面向新一代硬件,采用C++开发,在缓存和并发管理模块,通过本地和远程内存访问一体化,简化并发编程复杂度,其中,查询/事务以协程运行,减少物理线程数,异步编程无阻塞IO,实现更高的IO并发度,最大化利用新硬件的性能。
0.1ms跨越SQL/NoSQL
晨章数据并不售卖单独的模块,而是售卖基于数据基层(Data Substrate)+现有存储/计算引擎打造的标准化数据库产品,本次发布会,晨章数据联合创始人&CTO张桓发布了基于数据基层(Data Substrate)创新架构的EloqKV、EloqSQL、EloqDoc三款数据库产品,且三款产品全面开源。
EloqKV是一款分布式事务数据库,具备分层存储持久化、高性能、水平扩展、主库级事务、客户端透明、兼容Redis等特点,既可以作为缓存数据库使用,也可以作为主库事务库使用。
比如,EloqKV支持基于内存、本地SSD和对象存储的自动数据分层存储,热数据缓存在EloqKV集群的分布式缓存池,可以实现0.1ms查询响应延时,冷数据可以存储在RocksDB、Cassandra、Amazon DynamoDB、GCP Bigtable等KV存储引擎,保证缓存未命中时的查询性能。当选用对象存储时,每次刷盘直接写入对象存储,本地磁盘仅作为对象存储的缓存使用,可以帮助企业进一步降本增效。
EloqKV帮助很多用户实现了降本增效,比如某社交网络软件数据量持续增长,初期采用Redis方案,而Redis需要将线上和线下用户全部存储在内存中,成本高昂。Amazon DynamoDB虽然初期存储成本低,但成本随着访问流量线性增长。通过采用EloqKV+DynamoDB的方案,将冷热数据分层存储,在保证线上用户体验的同时,成本相比Redis节约10倍。
EloqKV可以为NoSQL数据库产品赋能。比如Bigtable作为谷歌云GCP非常流行的分布式存储系统,使用单独的API接口,和其他市场上的产品并不兼容,限制了企业对Bigtable的使用。晨章数据在GCP上将Bigtable作为持久化存储,将EloqKV作为缓存和事务层,提供标准API接口,以EloqKV+Bigtable的形式为企业特别是出海客户提供更具性价比的产品服务。
EloqSQL是一款分布式关系型数据库,具备支持多写、全局二级索引、日志解耦、低延时分布式事务、低存储成本、兼容MySQL等特点。其中,支持多写、全局二级索引,可以解决传统MySQL的写入瓶颈以及分库分表中的痛点问题。得益于数据基层(Data Substrate)架构,EloqSQL可以拥有非常低延时的分布式事务,以及更低的存储成本。

张桓介绍,EloqSQL是MySQL与分布式缓存的结合体,在基准测试中,EloqSQL在分布式事务的TPS和95%延迟指标比NewSQL提升了10倍。
EloqDoc是一款分布式文档数据库,具备支持多写、存算分离、日志解耦、强事务、原生分布式、兼容MongoDB等特点。
在弹性扩展方面,EloqDoc是首个在所有资源(CPU、内存、日志、存储)都具备可扩展性和弹性,能够以更加经济的方式满足多样化工作负载需求。EloqDoc针对热点数据流量变化和大数据量进行了优化。针对热点数据流量变化,EloqDoc支持单独增加缓冲池,避免了不必要的数据Rebalance,实现100倍弹性扩展速度。针对大数据量,EloqDoc可以单独扩展对象存储,通过解耦计算和存储来降低成本,可以降低10倍TCO。
小结:以开源开放向AI时代进发
“晨章数据的产品不仅仅是一个数据库,更像是一个赋能者,数据基层(Data Substrate)能够为现有的数据库提供分布式能力、事务支持以及更好的架构。我们可以让MySQL变成一个分布式数据库,可以为Redis 提供事务的能力,能够改造MongoDB变成存算分离的架构。同时,我们还可以赋能亚马逊云科技的Amazon DynamoDB和谷歌云的Bigtable,为他们提供更加丰富的 API。”张桓说,数据基层(Data Substrate)的潜力值得期待。
展望未来,晨章数据将发布云原生数据库EloqDB Cloud和融合数据库ConvergedDB两款产品。其中,EloqDB Cloud采用云原生架构,支持分层存储,可以灵活弹性扩展,支持Scale to Zero,是兼容Redis的事务型数据库。而融合数据库ConvergedDB支持SQL、KV、文档、向量、图、全文检索、时序等跨模态事务,支持统一查询接口、标准API,将是一款最好用的AI原生数据库。
晨章数据的愿景是建立一个世界领先的数据管理软件公司,该公司在产品设计之初便秉承不重复造轮子的原则。张桓介绍,如今开源开放已经成为推动基础软件创新发展的重要动力,数据库生态已经涌现出众多卓越的开源产品,IT架构从前端的计算引擎到后端的存储引擎很多都是建立在业界最优秀的开源软件之上,晨章数据受益于开源,也会积极拥抱开源并回馈开源社区。
数据基层(Data Substrate)是一个相对较新的架构理念,是晨章数据为AI时代数据底座提出一个解,是不是最优解还需要更多真实场景打磨验证。在这次发布会上,晨章数据全面产品开源只是一个开始,未来也将继续以开源开放的策略向AI时代进发。
更多详情及免费下载链接请前往:www.chengzhangdata.cn
开源地址:www.github.com/eloqdata/eloqkv
推荐阅读


评论





