在「DATA+AI」见解论坛上,OceanBase CTO杨传辉先生带来了关于AI与数据库技术相融合的精彩分享。他探讨了AI如何与数据库技术结合,以及这种融合如何推动OceanBase一体化数据库的演进。
杨传辉先生将AI问题分为两大类:一是构建更大、更智能的模型,二是将AI和大模型真正应用于各行各业。他强调,数据库技术是IT产业的基石,它解决了数据统一和规模化的问题。第一,数据库里面用一套标准的系统、一种标准的范式抽象描述所有的应用场景。第二,是关系数据库的标准编程语言SQL,SQL极大降低了数据库应用的门槛。面对AI的挑战,OceanBase正通过一体化架构,让数据库和AI技术易于被每个人使用。
OceanBase的架构演进
OceanBase由蚂蚁集团孵化,自2010年立项以来,已服务于蚂蚁集团及超过1000家企业用户,覆盖金融、政企、物流、出海等多个领域的核心场景。目前在金融领域,60%-70%头部银行、保险公司和证券公司都依赖OceanBase来支撑其核心系统,包括支付和账务核心系统。当你每缴纳一次社保、公积金,拨打一次电话,您可能已经在不经意间体验了OceanBase的技术实力。甚至在双11的购物狂欢或日常的线下支付中,通过支付宝,您可能已经使用OceanBase完成了交易。
OceanBase在2019年和2020年连续两年参与TPC-C测试,这是在数据库领域的权威性能评估,可以类比数据库领域的奥林匹克竞赛。在这两年OceanBase连续两次都刷新了世界纪录,第二次还超越了一年前OceanBase自己的成绩,得分比第二名高出20多倍。
从2010年到今天,技术经过了多次迭代,从最早的单写多读架构,只有一个节点可以写,其他的节点可以读;到2016年OceanBase1.0版本所有的节点可读可写,成为真正的分布式数据库;再到2022年发布的OceanBase 4.0版本,正式提出“单机分布式一体化”,所有的分布式系统都会存在一个问题,一般分布式系统只能应用在大企业,没有办法应用在中小企业,4.0版本旨在让分布式系统不仅服务于大企业,也能适应中小企业的需求。今年发布的4.3版本,是一体化数据库,除了支持传统数据库的交易、分析,也能支持其他不同的工作负载,包括搜索、AI等。
OceanBase的一体化架构
OceanBase的一体化架构从最底层往上分成三个层次:存储层、多模数据模型和面向不同工作负载的计算引擎。
从底层的存储层开始,这一层对于分布式系统来说至关重要,它需要支持事务,包括ACID——原子性、一致性、隔离性和持久性。OceanBase因为是分布式系统,每个数据存储了多个副本,这些副本根据需要以不同的形式存储:列存适合处理分析型应用(OLAP),向量存储能够很好的支持AI应用。
OceanBase的单机一体化架构包括:1、单机分布式一体化、交易和分析一体化、SQL跟AI的一体化。
01 单机与分布式一体化
传统上,数据库分为集中式和分布式两种。集中式就是一台机器适用于小规模企业,分布式就是一个集群。单机适用于小规模企业,而分布式则服务于大规模需求,小企业随着业务扩展,为了满足新项目需求,往往需要进行耗时且影响业务的数据库迁移。OceanBase打破了这一局限,支持从小规模到大规模的无缝扩展,业务量变大之后增加服务器就可以了,系统帮你自动做扩容,也可以帮你自动缩容,甚至能在单机或笔记本上部署。
02 TP&AP一体化
以往,我们通常将数据库的交易处理和数据分析功能分开,分别在两个系统中运行,并通过数据同步来更新两者的信息。但现在,我们追求的是将这两种功能整合到一个系统中,以提高效率和降低成本。
双集群模式:建立两个集群,一个处理交易,另一个处理分析。虽然使用相同的软件,但它们是独立部署的,这会导致较高的成本和数据处理延迟。
单集群模式:OceanBase采用单一集群来处理交易和分析。这种方法通过在集群内分配不同副本来处理不同类型的任务,从而减少了成本和延迟,尽管这增加了集群工程复杂性,OceanBase拥有很强大的工程团队,能够很有效的处理这类问题。
应用实例:
海底捞之前使用两套数据库分别管理交易和分析系统,但迁移到OceanBase后,他们能够在同一个系统中同时处理交易和分析,实现了TCO降低35%和AP性能提升30%的双重效益。
03 SQL与AI一体化
稳定性的关键:
在数据库领域,稳定性至关重要。OceanBase的单机分布式一体化架构经过了蚂蚁集团和支付宝等核心业务的严格测试和优化,确保了其稳定性和可靠性。这使得用户可以安心使用OceanBase,不必担心运维和稳定性问题,这是其他独立向量数据库难以比拟的。

OceanBase的多维引擎支持向量插件,这是与蚂蚁集团合作研发的成果。它使得OceanBase能够直接内置向量处理能力,支持SQL扩展语法,以及向量索引等AI功能。我们的系统还支持距离计算功能,包括精确查找和近似搜索等,利用OceanBase的向量引擎插件,你不仅可以利用其强大的底层架构,还能享受达到数据库领域专业标准的,高效便捷运维管理工具。
OceanBase的AI应用

ODC Copilot:ODC Copilot 是一款基于 LLM 构建的自然语言数据库查询系统。它利用先进的自然语言处理技术,可以理解用户查询,智能地解析数据库结构,并提供 SQL 生成和优化、错误纠正、图表创建等功能。尽管许多数据库公司都尝试提供这样的能力,但在企业级市场(ToB)中,尤其是在数据库领域,要使其有效运行并不容易,主要挑战在于当前准确率不足,所以怎么提升这一功能的准确率成为了一个亟待解决的关键问题。
OceanBase的Roadmap
今年,OceanBase的主要目标是从一个主要处理事务(TP)的数据库转变为一个既能支持事务处理、分析处理(AP)、人工智能(AI)等多功能的数据库。我们按季度计划实施了以下改进:
第一季度(Q1):我们增强了分析处理能力,使OceanBase能够更有效地处理复杂查询。 第二季度(Q2):我们引入了索引功能,主要支持搜索,提升搜索效率。 第三季度(Q3):我们扩展了对数据类型的支持,现在OceanBase不仅能处理内部的关系数据,也能处理外部数据。 第四季度(Q4):我们实现了存储与计算的分离,这将显著提高OceanBase的性能和成本效益。
OceanBase在公有云上已经拥有大量用户,只要是公有云的用户都会用存算分离,我们之前的存算分离依赖于云盘,但成本较高。如果我们在Q4之后,可以基于对象存储来做,可以大幅度提升OceanBase的性价比。