暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片

向量检索大赛冠军方案分享——QA

448

21号我们邀请了陈萌同学进行线上直播,本篇文章是直播的回放以及针对直播时的问题整理。

视频回放:

Q&A

问: 对于多模态检索,如果有三种分布 RoarGraph 可以使用么?
答: 目前实现的是两种分布下可用,拓展后可以针对多种分布使用

问: ood支持检索图片数据集还是多模态数据集?
答: 任意两种、多种不同分布的数据集都支持

问: Roar构图时间和HNSW有差距吗?
答: RoarGraph构图时间高于HNSW(offline)

问: 构图和查询度量不一致怎么办?
答: 在ANN的论文中较少看到这种情况,类似情况可以参考Neural Ranking相关论文

问: roar内存占用怎么样,能否适用亿级向量?
答: 内存占用在搜索过程中小于HNSW

问: ood这种跨模态查询也是找最近临点作为返回结果这在理论上是合理的吗?文本-图片对的俩俩距离就是最近的嘛?
答: 该语义准确度属于Embedding需要解决的问题,只有神经网络模型认为这两个实体最相似,才会是最近邻,目前来看SOTA的多模态模型能够达到可用的准确度。向量ANN检索目前主要负责高速召回,而不是上游的模型层面。

问: 请问图在时间序列应用多吗?
答: 在时序数据中,也存在Topk问题,但具体使用情况还需参阅时序数据库相关论文

问: Roar能上所有的优化技术吗?可以比应用优化技术后的HNSW快吗?
答: RoarGraph的构建最终产生的是一个图结构,该结构在OOD检索下具有最好的性能。任何现有的优化都可以直接应用,我们知道现有很多使用标量量化、AVX指令的优化,这些优化都是和RoarGraph正交的,在同等的优化条件下,RoarGraph由于索引本身性能较好,故最终性能也是最好的。


最后修改时间:2024-02-02 10:04:31
文章转载自向量检索实验室,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论