
原文链接:
https://medium.com/towards-data-science/knowledge-retrieval-takes-center-stage-183be733c6e8
为了将生成式人工智能(GenAI)从消费者部署过渡到企业部署,解决方案应主要使用以检索为中心的生成 (RCG) 围绕模型外部的信息构建。即 GenAI 架构从 RAG 转向以解释性检索为中心的生成 (RCG) 模型。
随着 GenAI 在各行业中的广泛应用,公司需要提供高效、准确、安全和可追溯的模型。然而,ChatGPT 类模型的原始架构在满足这些关键要求方面存在差距。在早期的 GenAI 模型中,检索被用作事后的思考,以解决依赖于参数记忆的模型的缺陷。目前的模型在这个问题上取得了进展,通过使用检索增强生成(RAG)前端来增强解决方案平台,以允许提取模型外部的信息。也许是时候进一步重新思考生成式 AI 的架构,并从 RAG 系统(检索是检索的补充)转向以检索为中心的生成(RCG)模型,该模型围绕检索作为信息访问的核心而构建。
RCG 模型可以定义为一种生成式人工智能解决方案,专为大多数数据驻留在模型参数内存之外且在预训练或微调中很少见的系统而设计。对于 RCG,GenAI 模型的主要作用是解释从公司索引数据语料库或其他精选内容中检索到的丰富信息。该模型的作用不是记忆数据,而是专注于微调目标结构、关系和功能。生成输出中的数据质量预计接近100%的准确性和及时性。正确解释和使用预训练中未见过的大量数据的能力需要增加模型的抽象性,并使用模式作为识别信息中复杂模式和关系的关键认知能力。这些新的检索要求与图式的自动学习相结合,将推动大型语言模型 (LLM) 的预训练和微调取得进一步的发展。

图 1. RCG 与 RAG 的优势和挑战
大幅减少 GenAI 模型中参数存储器中记忆数据的使用,转而依赖可验证的索引源,将改善来源,并在提高准确性和性能方面发挥重要作用。迄今为止,GenAI 架构中普遍的假设是模型中的数据越多越好。基于这种当前占主导地位的结构,预计大多数标记和概念都已被摄取和交叉映射,以便模型可以从其参数记忆中生成更好的答案。然而,在常见的业务场景中,用于生成输出的大部分数据预计来自检索的输入。我们现在观察到,当模型依赖检索到的知识时,包含更多数据会导致信息冲突,或导致包含无法追踪或验证其来源的数据。
设计用于 RCG 的更小、更灵活的目标模型不需要在参数内存中存储尽可能多的数据。在数据主要来自检索的业务环境中,目标系统需要擅长解释看不见的相关信息,以满足公司的要求。此外,大型向量数据库的盛行和上下文窗口大小的增加(例如,OpenAI 最近将 GPT-4 Turbo 中的上下文窗口从 32K 增加到 128K)正在将模型转向推理和解释看不见的复杂数据。
现在,模型需要通过结合复杂的检索和微调,智能化地将广泛的数据转化为有效的知识。随着模型变得以检索为中心,创建和使用模式的认知能力将成为舞台的焦点。
GenAI 的消费者与商业用途
经过十年来人工智能模型规模和复杂性的快速增长,2023年标志着人们的关注重点转向生成式人工智能的效率和目标应用。从以消费者为中心到以业务为中心的转变是推动这一变化的关键因素之一,涉及三个层面:数据质量、数据来源和目标用途。
数据质量:在为公司生成内容和进行分析时,95%的准确性已不再足够,企业需要接近或达到完全准确的水平。为了确保输出质量,需要对特定任务进行高性能微调,并管理所用数据的质量。此外,数据需要具备可追溯性和可验证性。数据的出处非常重要,而检索对于确定内容来源至关重要。
数据来源:业务应用程序中的绝大多数数据预计来自受信任的外部来源以及专有的业务/企业数据,包括有关产品、资源、客户、供应链和内部运营等方面的信息。检索对于访问未在模型预先训练中的最新且最广泛的专有数据集至关重要。当使用来自内存的数据与从业务来源提取的可验证、可追踪的数据时,大小不一的模型可能会出现来源问题。如果数据发生冲突,可能会导致模型混淆。
目标用途:公司模型的构造和功能通常专门针对一组数据的用途和类型。当 GenAI 功能部署在特定工作流程或业务应用程序中时,不太可能需要一体化功能。由于数据主要来自检索,因此目标系统需要擅长以公司要求的特定方式解释模型未曾看到的相关信息。
例如,如果一家金融或医疗保健公司寻求 GenAI 模型来改进其服务,它将专注于其预期用途所需的一系列功能。他们可以选择从头开始预训练模型,并尝试包含他们的所有专有信息。然而,这样的努力可能成本高昂,需要深厚的专业知识,并且随着技术的发展和公司数据的不断变化,很容易很快落后。此外,无论如何,它都需要依靠检索来访问最新的具体信息。更有效的途径是采用现有的预训练基础模型(例如 Meta 的 Llama 2),并通过微调和检索索引来定制它。微调仅使用一小部分信息和任务来细化模型的行为,但大量的业务专有信息本身可以被索引并可根据需要进行检索。随着基础模型使用最新的 GenAI 技术进行更新,刷新目标模型应该是一个相对简单的重复微调流程的过程。
转向以检索为中心的生成
Meta AI 和大学合作者于2021年推出了检索增强生成,以解决 LLM 的来源和更新世界知识的问题。研究人员采用了 RAG 作为通用方法,将非参数内存引入了预训练的参数内存生成模型中。非参数存储器利用预先训练的检索器访问维基百科密集向量索引。在记忆数据较少的紧凑模型中,强调了向量数据库引用的索引数据的广度和质量,因为该模型不能依赖记忆的信息来满足业务需求。RAG 和 RCG 都可以使用相同的检索器方法,在推理期间从动态策划的语料库中提取相关知识(参见图 2)。它们的不同之处在于 GenAI 系统放置信息的方式以及对以前未见过的数据的解释期望。对于 RAG,模型本身就是主要的信息源,并得到检索数据的帮助。相比之下,对于 RCG,绝大多数数据都驻留在模型参数内存之外,这使得对看不见的数据的解释成为模型的主要任务。
值得注意的是,目前的许多 RAG 解决方案依赖于 LangChain 或 Haystack 等流程,将具有独立向量存储的前端检索连接到未经检索预先训练的 GenAI 模型。这些解决方案提供了用于索引数据源、模型选择和模型行为训练的环境。其他方法,例如 Google Research 的 REALM,尝试使用集成检索进行端到端预训练。目前,OpenAI 正在优化其检索 GenAI 路径,而不是将其留给生态系统来为 ChatGPT 创建流程。该公司最近发布了 Assistants API,它可以检索模型外部的专有领域数据、产品信息或用户文档。

图 2. RCG 和 RAG 都在推理过程中检索公共和私有数据,但它们在放置和解释不可见数据的方式上有所不同
在其他示例中,像英特尔实验室的 fastRAG 这样的快速检索器模型无需任何额外的训练,就可以使用预先训练的小型基础模型从知识库中提取所需的信息,从而提供更可持续的解决方案。fastRAG 作为开源 Haystack GenAI 框架的扩展而构建,它使用检索器模型通过从外部知识库检索当前文档来生成对话答案。此外,Meta 的一组研究人员最近发表了一篇论文,介绍了一种轻量级微调方法:检索增强双指令调优(RA-DIT),通过改造任何具有检索功能的大型语言模型来提供第三种选择。
从 RAG 模型到 RCG 模型的转变对信息在训练中的作用提出了挑战。通过 RCG,模型的功能不再既是信息存储库又是响应提示的信息解释器,而是主要成为检索到的(通常是业务策划的)信息的上下文解释器。这可能需要修改预训练和微调方法,因为当前用于训练语言模型的目标可能不适合这种类型的学习。RCG 需要模型具有不同的能力,例如更长的上下文、数据的可解释性、数据的管理和其他新的挑战。
在学术界或工业界,RCG 系统的例子还相当少。例如,Kioxia Corporation 的研究人员创建了开源 SimplyRetrieve,它使用 RCG 架构通过分离上下文解释和知识记忆来提高 LLM 的性能。在 Wizard-Vicuna-13B 模型上实施后,研究人员发现 RCG 能够准确回答有关组织工厂位置的查询。相反,RAG 试图将检索到的知识库与 Wizard-Vicuna 的组织知识相结合,这导致了部分错误的信息或幻觉。当然,这只是一个例子,RAG 和检索关闭生成 (ROG) 可能在其他情况下提供正确的响应。

图 3. RCG、RAG 和 ROG 的比较。正确反应以蓝色显示,而幻觉以红色显示
在某种程度上,从 RAG 到 RCG 的转换可以比作使用常量 (RAG) 和变量 (RCG) 进行编程时的差异。当人工智能模型回答有关敞篷福特野马的问题时,大模型将熟悉汽车的许多相关细节,例如推出年份和发动机规格。大模型还可以添加一些最近检索到的更新,但它将主要根据特定的内部已知术语或常量进行响应。然而,当电动汽车公司部署模型准备发布下一款汽车时,该模型需要推理和复杂的解释,因为大多数数据都是看不见的。该模型需要了解如何使用信息类型(例如变量值)来理解数据。
概括和抽象作为推理过程中的能力
在业务环境中检索到的大部分信息(业务组织和人员、产品和服务、内部流程和资产)在预训练期间不会被相应的 GenAI 模型看到,并且可能只是在微调期间进行采样。这意味着 Transformer 架构不会将“已知”单词或术语(即之前由模型摄取的)作为其生成输出的一部分。相反,该架构需要将看不见的术语置于适当的上下文解释中。这有点类似于情境学习如何在无需额外培训的情况下在 LLM 中实现一些新的推理能力。
随着这种变化,有必要进一步改进泛化和抽象。需要增强的关键能力是在解释和使用推理时通过提示遇到的未见过的术语或标记时使用学习 Schema 的能力。针对 Schema 一词的翻译带有争议,并且在不同学科中也有不同的含义。认知科学中的 Schema 描述了一种组织信息类别及其之间关系的思维或行为模式。心理学的 Schema 可以被描述为一种心理结构,一种代表世界某些方面的框架。
同样,在 GenAI 模型中,Schema 是正确解释不可见的标记、术语和数据所需的基本抽象机制,下文中我们将其翻译为模式。如今的模型已经表现出很好的掌握了新兴模式构建和解释,否则它们将无法像以前那样对复杂的看不见的提示上下文数据执行生成任务。当模型检索以前未见过的信息时,它需要识别数据的最佳匹配模式。这使得模型能够通过与模式相关的知识来解释看不见的数据,而不仅仅是上下文中包含的显式信息。值得注意的是,在本文中指的是学习并将模式抽象为新兴功能的神经网络模型,而不是依赖于知识图中表示并在推理期间引用的显式模式的解决方案类别。
从认知能力、功能技能和信息访问这三种类型的模型能力的角度来看,抽象和模式的使用完全属于认知能力类别。特别是,如果小模型磨练了在解释数据时构建和使用模式的技能,那么它们的性能在给定适当的检索数据的前提下应该能够与大得多的模型相媲美。预计与模式相关的基于课程的预训练将提高模型的认知能力。这包括模型构建各种模式、根据生成过程识别要使用的适当模式以及插入/利用模式构造的信息以创建最佳结果的能力。
例如,研究人员展示了当前的 LLM 如何使用假设到理论(HtT)框架来学习基本模式。研究人员发现,LLM 可以用来生成规则,然后遵循这些规则来解决数字和关系推理问题。GPT-4 发现的规则可以被视为理解家庭关系的详细模式(见图 4)。未来的家庭关系模式可以更加简洁和有力。

图 4. 使用 CLUTRR 数据集进行关系推理,假设到理论框架提示GPT-4生成类似模式的规则,供 LLM 在回答测试问题时遵循
将其应用到简单的业务案例中,GenAI 模型可以使用模式来理解公司供应链的结构。例如,在分析潜在供应链风险的文档时,知道“B 是 A 的供应商”和“C 是 B 的供应商”意味着“C 是 A 的二级供应商”这个逻辑将很重要。
在更复杂的情况下,例如教 GenAI 模型记录患者就诊的变化和细微差别,为了能够理解检索到的信息,在预训练或微调过程中建立的紧急模式将提供一个结构以生成报告或支持医疗团队的问题和解答。该模式可以在对患者护理案例进行更广泛的培训/微调的模型中出现,其中包括预约以及测试和程序等其他复杂因素。由于 GenAI 模型会接触到所有示例,因此它应该创建专业知识来解释推理过程中提供的部分患者数据。模型对过程、关系和变化的理解将使其在无需提示中的过程信息的情况下,能够正确解释以前未见过的患者病例。相反,它不应该尝试记住在预训练或微调期间接触到的特定患者信息,因为患者的信息不断变化,这种记忆会适得其反。该模型需要学习结构而不是特定情况。这样的设置也将最大限度地减少潜在的隐私问题。
概括
随着 GenAI 在各行各业的企业中大规模部署,对高质量专有信息以及可追溯性和可验证性的要求发生了明显的转变。这些关键要求以及成本效率和重点应用的压力推动了对小型、有针对性的 GenAI 模型的需求,这些模型旨在解释本地数据,而这些数据在预训练过程中大多是看不见的。以检索为中心的系统需要提升一些可以通过深度学习 GenAI 模型掌握的认知能力,例如构建和识别适当的模式来使用。通过使用 RCG 并指导预训练和微调过程来创建反映认知结构的概括和抽象,GenAI 可以在理解模式和理解检索中看不见的数据的能力方面取得飞跃。精炼的抽象(例如基于模式的推理)和高效的认知能力似乎是下一个前沿。
向量检索实验室
微信号:VectorSearch
扫码关注 了解更多