RAG带来的问题
2020 年 5 月,诞生了一个在现在看来属于常识的知识。这个知识思路简单,但是影响深远。
那一年,Facebook AI Research(现 Meta AI)的 Patrick Lewis 等人在 arXiv 上发了一篇论文。核心思路用一句话就能说完:让语言模型在生成回答之前,先从外部知识库里检索相关文档,把检索结果塞进输入里一起处理。
真正的贡献不是这个思路本身,同期 Google 的 REALM 也在做类似的事,而是他们提出了一个通用的端到端框架,把检索器和生成器联合训练。
这个方法叫做 RAG - Retrieval-Augmented Generation。论文后来发表在 NeurIPS 2020 上。
现在 RAG 在 Agent 开发中已经是主流。但在此之前,主流做法是把知识直接编码进模型参数里,靠预训练让模型“记住”世界知识。
Lewis 等人的论文明确指出了一个局限:纯参数化模型在知识密集型任务上的表现受限于训练数据的覆盖范围和时效性。
通俗说就是:模型的知识是有范围,有时效性的。训练完成后,就不再更新知识了。
而 RAG 的思路是把参数化记忆(模型本身)和非参数化记忆(外部可检索的文档库)结合起来:模型负责语言生成,知识库负责提供事实依据。
这个分离让知识可以独立更新,不用重新训练模型。
当用户进行查询时,就可以分为三步走:
用户查询 → [R] Retrieval:从外部知识库里捞最相关的文档片段 → [A] Augmented:把捞到的内容塞进 prompt(指令 + 查询 + 上下文一起喂给模型) → [G] Generation:LLM 基于这个 prompt 生成回答R 阶段负责获取信息,A 阶段负责扩展信息,G 阶段负责模型调用。
速度的代价
检索系统有个老问题,这个问题做过信息检索的工程师都能预见到:增加检索环节,必然增加延迟。
为了保证检索的速度,增加的延迟必然要找到其它优化手段,在其它地方降下去。
第一个,也是最容易想到的优化就是**缓存:**同样的问题来第二遍,直接返回上次的结果,不再重新检索和生成。快是快了,但要注意缓存的时效性。昨天正确的答案,今天可能已经错了。
第二个是向量精度:嵌入量化。把向量从 float32 压到 int8,内存占用直接降到原来的四分之一;计算速度的提升则取决于硬件是否支持低精度运算。支持的话加速明显,不支持则收益有限。但精度会下降,原本能检索到的微小相关性可能就丢了。
第三个就是减少“不必要的努力”:选择性查询重写和选择性重排序。简单的查询别浪费时间做优化,只对复杂查询下功夫。
听起来很合理。但这里有一个问题:谁来判断一个查询是“简单”还是“复杂”?
查询难度预测在信息检索领域是一个被研究了二十多年的问题,至今没有完全解决。
举一个简单的例子,如果我的问题是 “今天北京天气怎么样”,那么大致会发生几种情况:
- 如果知识库里有一篇“2026 年 4 月 25 日北京天气预报”的文档,直接匹配,很简单。
- 如果知识库里只有“北京历年气候统计”,没有今天的数据,那这个查询就变难了。系统可能检索到看似相关但实际答非所问的内容。
- 如果用户说的“北京”其实是指北京路(广州的一条街),那就涉及歧义,又是另一种难。
查询难度不取决于查询本身,取决于查询和知识库之间的关系,真正的难度要检索之后才知道。
这些优化本质都是同一个 trade-off:用准确性换速度。
在普通场景下可能够用,但在医疗、法律这种容错率接近零的场景,每一步的优化都得三思。
幻觉问题
“幻觉问题”在 2020 年 Lewis 等人提出 RAG 时,还不是 LLM 领域的核心议题。
当时 RAG 的目标是提升知识密集型 NLP 任务(如开放域问答)的表现。“幻觉”这个概念,当时只是有被提到。
“大语言模型会编造事实”这件事开始被大众热议是 ChatGPT 在 2022 年底走红之后的事。
RAG 因为架构天然适合缓解幻觉问题,所以后来被广泛用于这个方向。
LLM 幻觉的根源并不复杂:模型只能靠训练时吃进去的数据回答问题,数据过时就会编,数据不全也会编,而且编得特别像真的。
RAG 先查一遍外部资料的解法,相当于考试时递了一张小抄。
幻觉根因:LLM 仅靠训练语料(静态、可能过时、可能不全) ↓ RAG 干预:检索外部知识源 → 塞进 prompt ↓ 效果:生成基于真实上下文,而非模型"记忆" ↓ 结果:幻觉概率降低(是降低,不是消除)这个机制在理想条件下效果显著:知识库质量高、查询领域匹配时,事实性幻觉确实大幅减少。
但 RAG 在缓解旧问题的同时,引入了新问题:检索到错误文档怎么办?多个检索结果互相矛盾时模型听谁的?模型明明拿到了正确的检索结果,却无视它继续编造怎么办?
RAG 能解决“缺信息”的问题,解决不了“缺推理能力”的问题。逻辑错误、算错数这类幻觉,你塞再多资料进去也没用。
还没覆盖的方向
以上覆盖了 RAG 的基本架构、延迟优化和幻觉缓解。但还有几个实际搭建 RAG 系统时的关键问题没有涉及:文档怎么切分(chunking 策略直接影响检索质量)、检索策略怎么选(向量、稀疏、混合各有适用场景和局限)、怎么衡量系统的好坏(faithfulness、relevance 等可量化指标)、以及 RAG 在什么情况下反而会让结果变差。
0 AI行业迎来前所未有的爆发式增长:从DeepSeek百万年薪招聘AI研究员,到百度、阿里、腾讯等大厂疯狂布局AI Agent,再到国家政策大力扶持数字经济和AI人才培养,所有信号都在告诉我们:AI的黄金十年,真的来了!
在行业火爆之下,AI人才争夺战也日趋白热化,其就业前景一片蓝海!
我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓
人才缺口巨大
人力资源社会保障部有关报告显示,据测算,当前,****我国人工智能人才缺口超过500万,****供求比例达1∶10。脉脉最新数据也显示:AI新发岗位量较去年初暴增29倍,超1000家AI企业释放7.2万+岗位……
单拿今年的秋招来说,各互联网大厂释放出来的招聘信息中,我们就能感受到AI浪潮,比如百度90%的技术岗都与AI相关!
就业薪资超高
在旺盛的市场需求下,AI岗位不仅招聘量大,薪资待遇更是“一骑绝尘”。企业为抢AI核心人才,薪资给的非常慷慨,过去一年,懂AI的人才普遍涨薪40%+!
脉脉高聘发布的《2025年度人才迁徙报告》显示,在2025年1月-10月的高薪岗位Top20排行中,AI相关岗位占了绝大多数,并且平均薪资月薪都超过6w!
在去年的秋招中,小红书给算法相关岗位的薪资为50k起,字节开出228万元的超高年薪,据《2025年秋季校园招聘白皮书》,AI算法类平均年薪达36.9万,遥遥领先其他行业!
总结来说,当前人工智能岗位需求多,薪资高,前景好。在职场里,选对赛道就能赢在起跑线。抓住AI风口,轻松实现高薪就业!
但现实却是,仍有很多同学不知道如何抓住AI机遇,会遇到很多就业难题,比如:
❌ 技术过时:只会CRUD的开发者,在AI浪潮中沦为“职场裸奔者”;
❌ 薪资停滞:初级岗位内卷到白菜价,传统开发3年经验薪资涨幅不足15%;
❌ 转型无门:想学AI却找不到系统路径,83%自学党中途放弃。
他们的就业难题解决问题的关键在于:不仅要选对赛道,更要跟对老师!
我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴,可以VX扫描下方二维码免费领取🆓
