由小型企业组成的新生态系统正在引领人工智能优先的数据库技术的“第三波浪潮”。新的搜索引擎和数据库出色地回答了用自然语言提出的查询,但它们的机器学习模型并不局限于文本搜索。同样的方法也可以用于搜索从图像到DNA的任何东西。
大部分涉及的软件都是开源的,所以它的功能是透明的,用户可以定制它来满足他们的特定需求。客户可以保留对数据的控制,将数据安全地保存在自己的防火墙后面。
我们是如何走到这一步的
第一波数据库技术通常被称为首字母缩写sql—用于管理关系数据库的通用查询语言的首字母缩写,关系数据库在概念上类似于电子表格或表格。整个20世纪80年代,这项技术被甲骨文(Oracle)和微软(Microsoft)等公司主导。
第二波数据库被称为“NoSQL”。这些都是像MongoDB这样的公司的领域。它们以不同的方式存储数据,例如键值存储、文档存储、宽列存储和图数据库,但它们都有一个共同点,那就是它们都不是关系表。在一长串功能中,第一波和第二波数据库各有优势。例如,一些非常擅长在数据库中查找某个值的每个实例,而另一些则非常擅长存储时间序列。
第三波数据库技术首先关注由机器学习模型处理的数据,与传统方法不同,AI模型帮助处理、存储和搜索数据。
为了更好地理解这个概念,想象一个拥有5万种商品的超市。陈列的物品不是按照字母顺序或价格排列的,而不是一个结构化的数字系统所期望的那样;它们被放在上下文中。你在超市里通过了解它们之间的关系来找到东西。因此,如果商店有新产品——比如说番石榴——你知道要看苹果和香蕉附近,而不是靠近垃圾袋或其他恰巧每磅1.98美元的东西。
第三次浪潮的早期里程碑发生在2015年,谷歌将其搜索算法从基于页面排名改为基于机器学习模型,该模型被称为RankBrain。在此之前,谷歌的搜索引擎基本上是一个高性能的关键字搜索引擎,它根据链接到该网站的其他网站的数量对网站进行排名。从本质上讲,谷歌信任互联网的集体用户排名。
这种“群众智慧”的方法起了作用,但为了提高它返回的结果的质量,谷歌需要RankBrain来“理解”它搜索的文本。因此,它使用机器学习对网站和链接中的文本进行向量化(这个过程发生在机器学习模型中,如变压器)。
让我们暂时回到杂货店,挑战来了,因为杂货店是一个三维空间,但非结构化文本数据中的每个重要单词都需要与它经常关联的数百个其他单词相关。因此,机器学习系统会自动对超卷中的文本进行分类,超卷是指具有数百甚至数千维的虚构空间。对于数据库中的任何给定项目,这些向量形成了项目的“表示”。
由于它既传递内容又传递上下文,因此这种表示显然呈现了更完整、更细致的数据图像。挑战来自于从无数维度中寻找。最初,这是通过蛮力方法完成的,查看与每个条目相关的每个向量。不用说,这种方法并不适用。
帮助第三波搜索引擎扩大规模的一个突破是被称为“近似最近邻”(ANN)搜索的方法。如果我们最后一次去超市了解番石榴是什么,我们可以看看周围的东西——其他水果。稍远一点的地方,我们可能会找到番石榴汁或番石榴罐头,但真的没有理由为了番石榴味的猫粮而翻了四过道。
使用人工神经网络可以在毫秒而不是数小时内以近乎完美的精度返回高维搜索。为了实际,向量数据库还需要一种叫做CRUD的支持。这代表“创建、读取、更新和删除”,解决这个技术挑战意味着索引数据库的复杂过程可以一次性完成,而不是在数据库更新时从头重复。
这导致了第三波数据库的最简单定义:向量数据库存储由机器学习模型索引的数据。不同类型的数据库(如向量搜索引擎)允许用户通过这些向量化数据集进行搜索,而其他数据库(如特征存储)则允许用户大规模存储向量以备以后使用。
我们淹没在非结构化数据中。
我们生活在一个海量数据积累的时代,其中很多(如果不是大部分的话)都是非结构化的:文本、照片、视频、音频文件,以及遗传信息等其他东西。向量搜索特别擅长从这类数据中提取价值。
谷歌、AWS或Microsoft Azure等科技巨头向愿意上传数据的客户提供矢量搜索功能。但现在有一个生态系统,新公司拥有人工智能优先的特定解决方案(通常是开源的)和矢量搜索功能,客户可以在SaaS的基础上或在自己的系统上运行。
人工智能优先的数据库生态系统
组成这个生态系统的公司提供不同程度重叠的专门服务。四个亚群共同组成了生态系统。
-
嵌入提供者(例如,hug Face或OpenAI)
-
神经框架(如deepset或Jina)
-
特性存储(例如,FeatureBase, FeatureForm或Tecton)
-
向量搜索引擎(如Weaviate或Vertex)
随着公司在数据仓库中收集的数据数量不断增长,对更好、更高效搜索的需求也在不断增长。我们收集的数据越多,搜索就变得越复杂。由于过去十年机器学习的进步和以人工智能为先导的数据库技术的商品化,您明天就可以在业务中使用它了。
原文标题:The AI-First Database Ecosystem
原文作者:BOB VAN LUIJT
原文地址:https://weaviate.io/blog/2022/06/The-AI-First-Database-Ecosystem.html