与向量数据库相比,NoSQL数据库的增长最近有所下降。然而,NoSQL供应商认为其产品最适合AI。
四年前,我写过一篇关于NoSQL数据库如何快速增长的文章,这在很大程度上是因为它们与人工智能(AI)和机器学习(ML)的兼容性。但那是在 OpenAI 于 2022 年 11 月发布 ChatGPT 开始的生成式 AI 热潮之前。
那么,自从ChatGPT问世以来,NoSQL数据库发生了什么变化呢?NoSQL数据库系统(如文档存储(MongoDB)、键值(Redis)和宽列(Cassandra))在向量数据库的新时代是否仍在增长?
早在 2020 年,为了说明 NoSQL 数据库系统的增长,我使用了 DB-Engines 的以下图表:
这表明,从2013年到2020年,MongoDB、Redis和Cassandra等系统的急剧上升轨迹(尽管在这段时间结束时,这三者都略有下降)。与Oracle和MySQL等传统关系数据库的平坦且最终向下的线相比,NoSQL的增长曲线非常显著。
以下是 DB-Engines 过去 36 个月(3 年)的最新人气图表:
需要注意的是,这张图衡量的是受欢迎程度的增长(而不是实际用户),我们可以看到,自 2021 年以来,向量数据库自然而然地经历了一次突飞猛进的增长——尽管它似乎已经在去年年底达到顶峰。与此同时,文档存储和键值存储略有下降。
但是,如果我们看一下 2013 年的图表,我们可以看到向量数据库的增长还没有达到接近文档存储和键值存储的峰值(让我们忽略宽列存储图表,因为自 2020 年我的文章以来,它的数据集似乎在 DB-Engines 上发生了变化)。
此外,尽管增长率略有下降,但NoSQL数据库系统仍然是开发人员最受欢迎的选择之一。下图显示了过去两年中排名前十的数据库系统几乎没有变化,排名前六的数据库系统(包括排名第五的MongoDB和排名第六的Redis)保持不变。我们还看到,排名前四的数据库系统都是关系型的;并且拥有比 MongoDB 和 Redis 多得多的用户。
NoSQL 和生成式 AI
今年早些时候,当Redis宣布一项有争议的许可证变更时,Linux基金会几乎立即宣布支持Redis的开源分支,名为Valkey。Redis公司的立场是,大型云提供商拥有不公平的市场优势,而新的许可是他们试图让他们付费的方式。早在 2018 年,MongoDB 就采取了类似的举措,收紧了对其许可证的限制。
我将把关于 Redis 新许可证的辩论留给其他人,但我确实想强调 Redis 在发布后的第二天发布的一篇博客文章。题为“Redis 的未来”,它主要关注 Redis 的 AI 用途。首席执行官 Rowan Trollope 和首席技术官 Yiftach Shoolman 写道:“我们始终处于 GenAI 浪潮的最前沿,并补充说,”我们是最早认识到数据库中需要矢量搜索功能的公司之一,甚至在 ChatGPT LLMs 成为家喻户晓的名字之前。
该帖子详细介绍了名为Redis CoPilot的AI助手(现已推出)的计划,“允许开发人员直接使用语言与他们的数据进行交互,并将其转换为代码。它还打算使Redis“通过利用产品量化并利用最新的硬件和GPU进步进一步提高矢量处理性能,在RAG用例中更具成本效益。
至于MongoDB,它也瞄准了生成式AI用例。在最近一篇关于The New Stack的文章中,开发者关系团队负责人Rick Houlihan明确地将其解决方案与PostgreSQL进行了比较,PostgreSQL是一种流行的开源关系数据库系统。Houlihan 认为,像 PostgreSQL 这样的系统并不是为 AI 所需的工作负载类型而设计的:
“考虑到RDBMS在宽行和大数据属性方面众所周知的性能限制,这些测试表明,像PostgreSQL这样的平台将难以处理生成式AI工作负载所需的丰富,复杂的文档数据也就不足为奇了。
不出所料,他得出的结论是,使用文档数据库(如MongoDB)“比使用根本不为这些工作负载设计的工具提供更好的性能。
为了保护 PostgreSQL,不乏提供以 AI 为中心的功能的 Postgres 托管服务提供商。今年早些时候,我采访了一家名为 Tembo 的“Postgres as a Platform”公司,该公司对 AI 扩展的需求量很大。“Postgres 有一个名为 pgvector 的扩展,”Tembo 首席技术官 Samay Sharma 告诉我。“因此,这允许您向现有表添加一种称为 vector 的简单数据类型。因此,即使您已有数据行,也可以添加一个向量数据类型,即转换后的嵌入。
绰绰有余的 AI 数据可供使用
当然,现在每个数据库公司都声称它可以与人工智能很好地一起使用。就在上个月,甲骨文公司发布了其Oracle APEX低代码开发平台的AI驱动更新,该公司表示,该平台使非开发人员能够在不到两分钟的时间内执行矢量查询,而无需了解SQL。
在人工智能方面,目前并不缺乏需求,所有数据库公司和项目,无论是SQL还是NoSQL,都从中受益。
评论





