2023年4月18日,数据库供应商 Rockset 公布了对向量嵌入的支持,此举旨在使用户能够实时搜索和操作任何类型的数据。
位于加利福尼亚州圣马特奥的 Rockset 以前支持结构化和半结构化数据,让用户可以使用 SQL 和 NoSQL 实时搜索和分析数据。
现在,通过增加对向量嵌入的支持,Rockset 还使用户能够搜索和分析非结构化数据,以及将非结构化数据与结构化和半结构化数据相结合。
2020 年底,这家成立于 2016 年的初创公司筹集了 4000 万美元的风险投资资金,使其总融资额超过 6000 万美元。不到一年后,Rockset 推出了使客户能够直接查询事件流的功能。从那时起,它就与包括 Microsoft、Oracle 和 Snowflake 在内的供应商合作构建集成和连接器。
最近,Rockset 的创始人 Venkat Venkataramani 和 Dhruba Borthakur 均来自 Facebook,该公司报告称,其年度经常性收入在 2022 年增长了两倍,客户群在这一年增长了一倍多。
新功能
向量本质上是非结构化数据的数字表示,例如文本、图像和视频,这些数据不能像结构化数据那样以行和列的形式捕获。一旦通过算法转换为数字表示,向量通常用于语义搜索,以便用户可以发现具有相似属性的其他数据。
随后,这使组织能够将非结构化数据与其他类型的数据结合起来,以获得更完整的运营视图。TechTarget Enterprise Strategy Group 的分析师 Stephen Catanzano 表示,启用更完整的视图是使矢量成为现代分析的重要组成部分的一部分。
“向量在数据分析中很重要,因为它们提供了一种强大而有效的方式来表示和分析大量数据,”他说。“它们使我们能够衡量数据点之间的异同,并提供一套丰富的工具来分析和处理数据。这几乎就像从单一维度到 3D [通过突出显示] 数据如何互连。”
Rockset 对矢量嵌入的支持现在启用的具体功能包括:
- 使用SQL将矢量搜索的结果与其他数据结合起来,以开发更完整的实时 AI 和机器学习模型。
- 高速索引实时数据。
- 从结合了矢量、关键词和元数据的搜索中快速生成结果。
Catanzano 指出,虽然 Rockset 与Elastic等供应商竞争,但 Rockset 正在通过使客户能够管理所有类型的数据并大规模地进行管理来脱颖而出。
“对于组织而言,能够将收集到的所有类型的数据结合起来,对其进行处理和建模,以实时创建强大的新数据洞察力,这一点非常重要,”他说。“Rockset 的关键是大规模地实时处理所有事情并提供实时见解。”
查看不同类型的非结构化数据
同样,Venkataramani——除了是 Rockset 的联合创始人外,还担任首席执行官——表示,增加对向量嵌入的支持的关键方面是供应商现在使用户能够在一个位置管理和探索所有类型的数据。
“一个单一的数据库现在可以存储你的结构化数据、半结构化数据和你的向量嵌入来构建丰富的人工智能应用程序,”他说。“我们已经是一个擅长存储结构化数据和半结构化数据并将它们组合起来构建实时应用程序的数据库。现在有了原生矢量支持,您现在可以构建 [enable] 混合搜索的应用程序。”
实际应用
Venkataramani 继续说道,通过在混合应用程序中将向量嵌入与结构化和半结构化数据相结合,实现的主要用例之一是电子商务的实时个性化。
网站上的每个产品都包含图像和文本,并且可以编码为矢量。同样,可以根据他们查看和购买的产品集为每个客户分配一个向量。
然后可以将这些向量与其他数据(例如哪些产品有库存)相结合,以过滤掉当前不相关的数据。
从组合中,电子商务供应商可以发现客户想要购买特定产品的可能性,同时还可以确保向客户推出的产品有库存或产品的最新版本。
“这就是如今每个个性化引擎的工作方式,”Venkataramani 说。“正在发生的事情是,你拥有关于某件商品是否有货的元数据,以及关于登录用户感兴趣的可能性的矢量数据。”
事实上,Venkataramani 指出,Rockset 添加对向量嵌入的支持的主要原因是电子商务供应商的请求,需要为其客户提供个性化推荐。
该公司正在做自己的临时工作,将向量与 Rockset 的元数据过滤功能相结合,并询问 Rockset 是否可以构建自己的向量嵌入支持。
两人随后合作开发了 Rockset 对向量嵌入的新支持。
“客户来找我们说,‘你必须为我们建造这个,’”Venkataramani 说。“这是我们 [所做] 工作的自然延伸,也是为我们众多客户添加的一个很好的功能。”
计划
Venkataramani 表示,现在 Rockset 增加了对矢量嵌入的支持,它计划加快矢量搜索过程。
实现这一目标的一种方法是开发相似性索引,向用户显示哪些向量与其他向量相似,而无需搜索以找到完全匹配。
Venkataramani 说:“人们对创建相似性索引很感兴趣,这样向量就不会只与其他一两个打包在一起。” “我们希望支持用户想要构建的任何类型的相似性索引,这样他们就可以在本地进行近似向量搜索。”
与此同时,Catanzano 表示,Rockset继续响应其客户的需求非常重要。
他说,该供应商已经在大规模实时云数据库市场上站稳了脚跟。因此,在没有明显的新功能要添加的情况下,使用客户需求来指导其路线图对 Rockset 来说是明智的。
卡坦扎诺说:“这一公告很好地说明了他们如何倾听客户的意见并不断创新以跟上步伐。”
作者:Eric Avidon 是 TechTarget Editorial 的资深新闻撰稿人,是一名拥有超过 25 年经验的记者,涵盖分析和数据管理。
文章来源:https://www.techtarget.com/searchdatamanagement/news/365535276/Rockset-adds-vector-embedding-support-to-real-time-database