当前位置: 首页 > news >正文

一文梳理RAG(检索增强生成)的现状与挑战

一 RAG简介

大模型相较于过去的语言模型具备更加强大的能力,但在实际应用中,例如在准确性、知识更新速度和答案透明度方面,仍存在不少问题,比如典型的幻觉现象。因此,检索增强生成 (Retrieval-Augmented Generation, RAG) 被当作于大模型应用开发的一种新范式。RAG是指在利用大语言模型回答问题之前,先从外部知识库检索相关信息,然后再让模型根据这些信息进行总结归纳,这样便能确保模型不会胡说八道,并且回答的内容是有所依据的。
尽管这几年大模型发展迅速,但至少还存在以下问题:
● 准确性: LLM是自回归模型,基于前一个词来推测下一个词,这种概率不可避免会产生错误的信息。
● 知识更新速度: LLM训练数据总是有限的,这可能导致模型的知识更新滞后,因此产生过时回答。
● 答案透明度: LLM 生成的内容往往缺乏明确的信息来源,影响内容的可信度。
● 领域专业知识能力欠缺: LLM在预训练阶段是由各种领域的数据训练得到,这些数据一般分布都比较均匀,没有哪个领域的数据占据了绝对优势,因此在处理特定领域的专业知识时,效果往往不会太好。

二 RAG与微调效果对比

性能对比RAG微调
知识更新速度直接更新知识库内容即可,无需重新训练,更新成本低需要重新训练来保持知识和数据的更新,更新成本高
专业性取决于知识库中的数据,无明显专业性倾向针对某一领域数据微调后,可以具备一定的专业性
可解释性可以追溯到具体的数据来源,有较好的可解释性可解释性相对较低,回答质量取决于预训练的数据质量
计算资源需要额外的资源来支持检索机制和数据库的维护,如向量化模型和向量知识库。对计算资源的要求较高,取决于微调的数据量
推理延迟增加了输入向量化和检索步骤的耗时普通 LLM 推理耗时
降低幻觉通过检索到的真实信息生成回答,降低了产生幻觉的概率模型学习特定领域的数据有助于减少幻觉,但面对未见过的输入时仍可能出现幻觉

三、RAG 的工作流程

不同学者对RAG的定义略有不同,但公认一般至少包含如下两个阶段。

检索阶段

根据用户的输入,使用向量模型将查询内容转换为向量,计算查询向量与知识库中文档块向量之间的相似性,并根据相似度水平选出最相关的前 K 个文档块作为当前问题的补充信息。

在这里插入图片描述

生成阶段

将给定的问题与检索到的补充信息合并,构造出一个新的Prompt,让大模型根据提供的信息来回答问题的任务。
在这里插入图片描述

四、RAG的局限性

检索过程

RAG的检索质量受到多个指标的影响。首要是低精确率(precision),即检索到的文档块中有些与查询并不直接相关,可能导致生成的回答包含不准确的信息。其次是召回率(recall)低的问题,即未能检索到所有相关的文档块,限制了生成模型获取足够的背景信息来构造完整的答案。此外,数据的过时性也是一个重要挑战,如何知识库更新频率非常高,那么知识库中可能会存在大量过时的信息,这些过时数据可能会误导模型,产生不准确的响应。

生成过程

RAG在生成过程同样面临多个问题。当检索到的信息不足时(即前面提到的召回不足),模型有可能虚构信息,根据已有的上下文生成不正确内容。另一个常见问题是不相关回答,即模型生成的答案未能准确回应用户的查询,这是因为模型无法理解检索到的知识内容与用户查询是否有关系导致。

构造prompt过程

假设已经检索到相关的知识内容,并且不存在低精确率和低召回情况,如何根据这些知识内容构造合适的prompt来引导模型回答又是另一个难点。有研究表明,根据知识内容的相关性进行间隔排序可能效果最好,即:chunk1,chunk3,chunk5,chunk4,chunk2。按照用户查询与知识内容的相关性排序为:chunk1>chunk2>chunk3>chunk4>chunk5。这种情况下只有5个知识内容,模型可能还能全部理解,当知识内容更多的时候,就无法保证召回的知识内容都能学习到。此外,当多个检索到的知识内容包含相似信息时,容易出现冗余和重复的问题,导致生成内容的重复和冗长,可能还会降低模型的回答效果。

知识库检索和维护

RAG在应用中涉及到多次检索和生成过程,通常对服务器计算资源和网络响应有较高要求,如果RAG涉及到多个智能体协同,可能还会进一步增加服务器的压力。此外,为了确保检索的准确性,知识库需要定期更新和清理。如果知识库不够完善或更新不及时,RAG生成的结果可能会基于过时或无关的信息。因此,在设计实际可用的RAG时,需要考虑如何简化知识库更新的操作。

五 RAG性能提升思路

提高检索质量

在建库阶段,可以通过调整块大小和补充额外的元信息来增加知识内容的信息丰富度,并且可以通过微调向量模型来提升模型对知识库的表示能力。在检索时,可以通过增加Rerank模型来对召回的知识内容进行筛选和排序,增强用户查询和知识内容的关联性。

提升生成质量

让模型对知识内容进行判断和筛选,过滤掉无关的知识内容,并且对相关性较高的知识内容进行排序,从而提升回答质量。

其他

减少实时的计算耗时可以采用模型蒸馏,训练更轻量级的模型来加快推理速度,减少计算资源消耗。同时可以采用离线检索或缓存机制,对于高频问题的答案进行预计算和缓存。对于知识库的日常维护,则可以引入自动化的数据更新流程,定期清理过时信息、更新领域知识库,使RAG能够处理最新的领域信息和数据。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Go语言结构体和元组全面解析
  • 【IPV6从入门到起飞】4-RTMP推流,ffmpeg拉流,纯HTML网页HLS实时直播
  • PyTorch 卷积层详解
  • 什么是银行挤兑
  • throw 和 throws及Throwable区别和联系各自的使用场景
  • 4.4 版本管理器——VM实现
  • if语句:悬空else问题
  • SpringBoot开发——数据校验
  • echarts3D地图:旋转、添加纹理图片(vue3)
  • 信息学奥赛初赛天天练-85-NOIP2014普及组-基础题4-链表、随机存取、顺序存取、二分查找、二分比较、循环结构、图领奖
  • RabbitMQ 应用
  • 【OJ】常用技巧
  • Mysql高级教程
  • 【电子通识】洁净度等级划分及等级标准
  • 远程桌面 Rust Desk 自建服务器
  • 【mysql】环境安装、服务启动、密码设置
  • axios 和 cookie 的那些事
  • css布局,左右固定中间自适应实现
  • ES6核心特性
  • Git初体验
  • mysql常用命令汇总
  • ReactNativeweexDeviceOne对比
  • Spring核心 Bean的高级装配
  • vue 个人积累(使用工具,组件)
  • 工程优化暨babel升级小记
  • 排序算法之--选择排序
  • 全栈开发——Linux
  • 微信小程序--------语音识别(前端自己也能玩)
  • 消息队列系列二(IOT中消息队列的应用)
  • 用 Swift 编写面向协议的视图
  • 3月7日云栖精选夜读 | RSA 2019安全大会:企业资产管理成行业新风向标,云上安全占绝对优势 ...
  • # Panda3d 碰撞检测系统介绍
  • # 睡眠3秒_床上这样睡觉的人,睡眠质量多半不好
  • #!/usr/bin/python与#!/usr/bin/env python的区别
  • #162 (Div. 2)
  • #define MODIFY_REG(REG, CLEARMASK, SETMASK)
  • $(this) 和 this 关键字在 jQuery 中有何不同?
  • (1)bark-ml
  • (51单片机)第五章-A/D和D/A工作原理-A/D
  • (day18) leetcode 204.计数质数
  • (TipsTricks)用客户端模板精简JavaScript代码
  • (第三期)书生大模型实战营——InternVL(冷笑话大师)部署微调实践
  • (二)原生js案例之数码时钟计时
  • (七)c52学习之旅-中断
  • (算法)N皇后问题
  • (一)【Jmeter】JDK及Jmeter的安装部署及简单配置
  • (一)十分简易快速 自己训练样本 opencv级联haar分类器 车牌识别
  • (转)winform之ListView
  • (最新)华为 2024 届秋招-硬件技术工程师-单板硬件开发—机试题—(共12套)(每套四十题)
  • .mat 文件的加载与创建 矩阵变图像? ∈ Matlab 使用笔记
  • .net core Swagger 过滤部分Api
  • .NET Core WebAPI中使用swagger版本控制,添加注释
  • .net core 源码_ASP.NET Core之Identity源码学习
  • .NET Framework杂记
  • .netcore 获取appsettings