本页面旨在通过回答几个问题来让您大致了解腾讯云向量数据库(Tencent Cloud VectorDB)。读完本页后,您将了解腾讯云向量数据库是什么、它是如何工作的、关键概念、为什么使用腾讯云向量数据库、支持的索引和指标、架构和相关连接方式。
腾讯云向量数据库是什么?
腾讯云向量数据库是一款全托管的自研企业级分布式数据库服务,专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法,单索引支持10亿级向量规模,可支持百万级 QPS 及毫秒级查询延迟。腾讯云向量数据库不仅能为大模型提供外部知识库,提高大模型回答的准确性,还可广泛应用于推荐系统、NLP 服务、计算机视觉、智能客服等 AI 领域。
关键概念
如果您不熟悉向量数据库和相似性搜索领域,请优先阅读以下基本概念,便于您对向量数据库有一个初步的了解。
什么是向量?
向量是指在数学和物理中用来表示大小和方向的量。它由一组有序的数值组成,这些数值代表了向量在每个坐标轴上的分量。
什么是非结构化数据?
非结构化数据,是指图像、文本、音频等数据。与结构化数据相比,非结构化数据不遵循预定义模型或组织方式,通常更难以处理和分析。
什么是 AI 中的向量表示?
当我们处理非结构化数据时,需要将其转换为计算机可以理解和处理的形式。向量表示是一种将非结构化数据转换为嵌入向量的技术,通过多维度向量数值表述某个对象或事物的属性或者特征。腾讯云向量数据库提供的模型能力,目前在开发调试中。具体上线时间,请关注后续动态。
什么是向量检索?
向量检索是将向量与数据库进行比较以查找与查询向量最相似的向量的过程。相似的向量通常具有相近的原始数据,通过向量检索可以挖掘出原始非结构化数据之间的联系。
为什么是腾讯云向量数据库?
腾讯云向量数据库作为一种专门存储和检索向量数据的服务提供给用户, 在高性能、高可用、大规模、低成本、简单易用、稳定可靠、智能运维等方面体现出显著优势。
腾讯云向量数据库应用示例有哪些?
腾讯云向量数据库可进行高性能向量存储和检索,主要适用于以下应用场景。
大规模知识库:企业的私域数据存储在向量数据库中可构建外部知识库,帮助企业更好地管理和利用自己的数据资源。
推荐系统:向量数据库会基于用户特征进行向量存储与检索,并返回与用户可能感兴趣的物品作为推荐结果。
问答系统:向量数据库会基于问题信息进行向量存储与检索,并返回最相关的问题与对应的答案。
文本/图像检索:向量数据库对输入的图像和文本信息进行向量存储与检索,会找到最匹配输入信息的文本或图像结果。
腾讯云向量数据库支持哪些索引类型?
索引是数据的组织单位。您必须先声明索引类型和相似性度量,然后才能搜索或查询向量数据。目前,腾讯云向量数据库支持如下类型。
FLAT 索引:向量会以浮点型的方式进行存储,不做任何压缩处理。搜索向量会遍历所有向量与目标向量进行比较。
HNSW 索引:全称为 Hierarchical Navigable Small World, 是基于图的索引,适合对搜索效率要求较高的场景。
IVF 系列:全称为 Inverted File,IVF 系列索引的核心思想是:将高维空间划分为多个聚类,并为每个聚类构建一个倒排文件。适用于高维向量数据的快速检索。(即将支持)
腾讯云向量数据库支持哪些相似度计算方法?
在 VectorDB 中,相似度度量用于衡量向量之间的相似度。选择良好的距离度量有助于显着提高分类和聚类性能。根据输入数据形式,选择特定的相似性度量以获得最佳性能。
相似性计算方法 | 方法说明 |
内积(IP) | 全称为 Inner Product,是一种计算向量之间相似度的度量算法,它计算两个向量之间的点积(内积),所得值越大越与搜索值相似。 |
欧式距离(L2) | 全称为 Euclidean distance,指欧几里得距离,它计算向量之间的直线距离,所得的值越小,越与搜索值相似。L2在低维空间中表现良好,但是在高维空间中,由于维度灾难的影响,L2的效果会逐渐变差。 |
余弦相似度(COSINE) | 余弦相似度(Cosine Similarity)算法,是一种常用的文本相似度计算方法。它通过计算两个向量在多维空间中的夹角余弦值来衡量它们的相似程度。 |
腾讯云向量数据库是如何设计的?
部署架构:腾讯云向量数据库采用分布式部署架构,每个节点相互通信和协调,实现数据存储与检索。客户端请求通过 Load balance 分发到各节点上。
逻辑架构:实例是腾讯云中独立运行的数据库环境,是用户购买向量数据库服务的基本单位。腾讯云向量数据库数据存储的一个实例集群中包括 Database、Collection、Document 三个逻辑层级。其中,一个实例可以包含很多个 Database,一个 Database 可以包含多个 Collection,一个 Collection 可以包含多个 Document。
数据安全:腾讯云向量数据库的多副本设计、多可用区分布节点、API 密钥认证,并运行于私有网络环境,通过安全组控制访问来源,CAM 账户授权等多方面保护向量数据的完整性和隐私。
鉴权方式:腾讯云向量数据库使用账号(account)和 API 密钥(api_key)的组合进行鉴权,以验证用户身份并授权其访问。
连接方式:腾讯云向量数据库支持通过 HTTP 协议进行数据写入和查询等操作。
检索方法:腾讯云向量数据库支持通过标量检索、向量检索、标量向量混合检索的方法。
标量检索:是基于标量字段的检索。标量是指一个单独的数值,例如文本字段、数值字段或日期字段等,区别于向量等多维数据结构。
向量检索:是基于向量相似度进行的检索,通过计算向量之间的相似度来找到与查询向量最相似的文档或记录。
混合检索:是将标量检索和向量检索结合起来的一种方式,旨在综合利用标量属性和向量特征进行更精确和全面的检索。