面向多源异构知识的检索增强生成系统

AI 搜索引擎 2024-12-13

228

今天给大家分享一篇论文。

题目是：Quasar：面向多源异构知识的检索增强生成系统

论文链接：https://arxiv.org/pdf/2412.07420v1

论文概述

这篇论文介绍了一个名为Quasar的RAG系统，旨在解决跨多种数据源的问题回答（QA）任务，这些数据源包括非结构化文本、结构化表格和知识图谱。论文的主要动机和问题可以总结如下：

多样化的问题类型：问题回答任务有多种不同的形式，包括事实性问题与观点问题、简单查找与多跳推理、单一答案与实体列表、直接回答与长形式回答等。现有的方法，尤其是依赖大型预训练语言模型（LLM）的方法，在处理信息需求的复杂性和证据频率方面存在局限性。
支撑证据的广度和深度：当前的基于检索增强生成（RAG）的架构在利用外部源方面存在限制，尤其是在结合不同模态的证据以推断正确和完整的答案方面。
长尾实体和复杂信息需求：大型语言模型在回忆不受欢迎或长尾实体的信息方面存在困难，且主要用于直接查找，而不是连接多片证据。
计算成本和能源消耗：现有的基于大型语言模型的方法在计算成本和能源消耗方面非常高。

Quasar系统通过统一处理所有类型的源，并采用RAG架构，旨在以较低的计算成本和能源消耗提供高质量的答案，同时解决上述问题。具体来说，Quasar系统通过以下方式来提高问题回答的质量：

问题理解：自动将用户问题转换为结构化的信息需求表示，以指导证据检索。
证据重排和过滤：在将证据输入答案生成之前，对检索到的证据进行重排和过滤。
答案生成：使用适度大小的语言模型从过滤后的证据中提取忠实的答案。

论文通过三个不同的基准测试来验证Quasar系统的性能，结果表明Quasar在保持较低计算成本的同时，能够达到与大型GPT模型相当或更好的答案质量。

相关工作

论文中提到的相关研究主要集中在以下几个方面：

检索增强生成 (RAG): RAG作为一种增强大型语言模型（LLM）事实性的方法，通过结合显式的检索步骤（如网页搜索或知识图谱查询）来提供给LLM top-ranked结果。
检索者-阅读架构：与RAG紧密相关的是检索器-阅读器架构，它使用神经网络作为“阅读器”来处理检索到的内容。
跨模态学习：涉及将知识图谱与文本源结合使用的研究，使用基于图的方法、神经学习和语言模型。
联合利用不同数据源：研究同时利用文本、知识图谱和表格（包括CSV和JSON文件）的工作，如UniK-Qa系统，Spaghetti/SUQL项目，Matter方法，STaRK基准测试
问题理解：研究自动将用户问题转换为结构化表示以指导证据检索的工作，如使用BART模型。
证据重排和过滤：研究使用图神经网络（GNNs）或交叉编码器（CEs）来迭代减少检索到的证据，以提高答案生成阶段的效率和准确性。
跨领域问题回答：研究在不同领域和类型的数据源上进行问题回答的系统，如CompMix基准和TimeQuestions基准。

这些相关研究构成了Quasar系统设计和实现的理论基础，并在实验部分与Quasar系统的性能进行了比较。通过这些比较，论文展示了Quasar系统在不同问题类型和数据源上的竞争力和效率。

核心内容

论文通过提出一个名为Quasar的系统来解决跨多种数据源的问题回答任务，具体解决方案包括以下几个关键步骤：

1. 问题理解（Question Understanding, QU）

Quasar首先分析和分解输入问题，将其转换为结构化意图（Structured Intent, SI）表示。这个结构化表示包括问题的各种关键信息，例如预期答案类型（Ans-Type）、问题中的重要实体（Entities）、感兴趣的关系（Relation）、时间（Time）和地点（Location）等。这一步骤使用一个预训练的语言模型（如BART），通过微调来生成与用户问题相对应的SI。

2. 证据检索（Evidence Retrieval, ER）

利用结构化意图（SI）从不同的数据源（文本、知识图谱和表格）检索证据。对于知识图谱，使用Clocq工具进行实体消歧和检索相关子图；对于文本和表格，则基于关键词查询和BM25评分来检索和排名相关的句子和表格行。

3. 重排和过滤（Re-Ranking & Filtering, RF）

面对大量检索到的证据，Quasar使用基于图神经网络（GNN）或交叉编码器（CE）的技术进行迭代重排和过滤，以减少需要输入到答案生成阶段的证据数量。这一步骤旨在降低计算成本和能源消耗，同时避免丢失重要证据。

4. 答案生成（Answer Generation, AG）

最后阶段使用一个适度大小的语言模型（如LlaMA-3.1模型），以检索增强的方式生成答案。具体来说，将问题的结构化意图和筛选后的顶部证据片段作为提示输入到语言模型中，生成最终答案。

总体而言，Quasar通过结合问题理解、跨源证据检索、证据的重排和过滤以及检索增强的答案生成，提供了一个高效且有效的解决方案，以应对跨多种数据源的问题回答挑战。

论文实验

1. 实验设置

基准测试：实验使用了三个具有不同特性的问题基准测试，CompMix：专为评估跨异构源操作的QA系统设计的基准，包含9,410个问题，其中2,764个用于测试；Crag：最近发布的RAG基准测试集的子集，用于测试实体中心的问题，不依赖实时网络数据；TimeQuestions：一个时间问答基准，要求对时间有深入理解和推理，包含16,181个问题。
基线方法：与Quasar进行比较的其他方法包括直接使用的LLMs：Gpt-3, Gpt-4, Llama3；异构QA方法：Convinse, UniK-Qa, Explaignn；来自文献的最新方法：Spaghetti和Un-Faith。
评估指标：主要使用精确度@1（P@1）作为评估指标，并在Crag上手动注释答案正确性。同时，还计算了答案出现率（AP@k）和在顶部k个证据中的平均倒数排名（MRR@k）。

2. 主要结果

Quasar在所有三个基准测试中均展现出竞争性能，特别是在TimeQuestions基准测试中，Quasar达到了最新的最佳性能。

3. 结果分析

异构源集成的重要性：通过比较不同输入源组合的端到端回答性能，结果表明所有类型的源都有贡献，以Text+KG+Tables的组合表现最佳。
统一检索对性能的增强：通过比较不同源类型的顶部证据与全局排名的方法，发现默认的全局排名方法表现更好。
少量证据的效果：研究了输入到AG阶段的证据数量对性能的影响，发现存在一个最佳证据数量（例如30个），既能保证答案出现率，又不会因过多证据而降低性能。
重排研究：通过不同的RF策略进行消融研究，发现明确的重排步骤对于保持高答案出现率和精确度至关重要。
SI的质量：通过检查一些问题及其SI的例子，评估了SI的质量和鲁棒性，发现基于ICL的SI更为完整，而基于BART的SI更侧重于主要槽位。

4. 限制和挑战

论文讨论了Quasar在基准测试性能、成本/性能比、问题理解、重排、证据检索和答案生成方面的限制，并提出了未来工作的方向。

这些实验全面评估了Quasar系统在处理跨异构数据源的问题回答任务时的有效性和效率，并与现有的一些先进方法进行了比较。通过这些实验，论文展示了Quasar在保持较低计算成本的同时，能够达到与大型GPT模型相当或更好的答案质量。

编者简介

致Great，中国人民大学硕士，多次获得国内外算法赛奖项，目前在中科院计算所工作，目前负责大模型训练优化以及RAG框架开发相关工作。

个人主页：https://github.com/yanqiangmiffy

项目链接：https://github.com/gomate-community/GoMate

▎往期推荐

Auto-RAG: 解锁LLM的自主检索潜力

告别不相关信息: CAG如何选择检索结果

多样化查询改写让RAG不再“迷路”

欢迎对 AI搜索、向量检索、RAG、Agent 等技术方向感兴趣的伙伴们扫码入群交流 ~

文章转载自AI 搜索引擎，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。