当前位置: 首页 > news >正文

在RAG增强检索中应该用什么构建上下文?

RAG中召回策略有多种多样,但同样构建上下文也有很多方法。

之前在社群有过一次关于关键字和语义检索的讨论,不过当时两个人好像不在一个频道上,他说他的关键字召回,我说我是语义召回,然后讨论到了怎么chunk的问题。

在关键字召回中,需要根据段落和语句进行分词,如jieba分词库;因此一般情况下会使用段落和句子的chunk方式,但是在语义检索中,分词会使用多种组合策略,如标题,段落,句子,长度等;使用不同的检索方式需要用到不同的chunk策略才能达到最好的效果。

然后这里对方又提了一个问题,你是怎么构建上下文的?

当时看到这句话就觉得好莫名其妙,肯定是用召回的数据做上下文啊;但是仔细一想好像又不太对,然后他又问你是怎么做chunk和文档的关联关系的,看到这里发现事情好像远远没有自己想的那么简单。之后,他又问了一句,你会根据chunk的内容,再次召回完整段落吗?

OK,这时就发现问题出在哪了,应该用什么构建上下文?

怎么构建上下文

在RAG中,构建上下文是很重要的一件事,也是整个RAG流程中的最后一步;一般情况下,都会用问题,历史记录,系统提示词以及召回的文档一起构建上下文。

但现在这个问题就出在召回的文档上,应该召回哪些文档?

从语义召回的角度来说,召回文档肯定是根据语义进行召回,召到那些数据就用那些数据做上下文,或者再进行一次rerank重排,之后再做上下文。

但是这里有个问题,假如说你的一个文档有十个段落,然后每个段落被拆分成三个chunk,这时就有三十个chunk,然后你根据语义召回时,召回了其中的五个chunk,然后这五个chunk分别位于其中的三个段落中。

这时,就出现了一个问题,如果从语义相似度的角度出发,应该使用这五个chunk做上下文,因为它们语义相似度最高;但是这里不知道大家有没有想过这样一个问题?

从正常的逻辑上来讲,每个段落的内容相关度应该是最高的;因此,理论来说语义相似度召回的数据也应该是在一个或两个段落中;但是现在的问题是,语义最相关的出现在了其中的三个段落中,也就是说相关性最高的段落中有一部分数据是语义无关的?这里是不是就矛盾了?

说到这里可能很多人觉得很绕,那我们就说的直白点;理论上来说,我们召回了五个chunk,然后这五个chunk存在三个段落中;这时,理论上我们应该把这三个段落的完整内容拿来做上下文,因为段落之间肯定是高度相关的内容。

但事实上,我们可能很多人只是用这五个chunk做上下文,而不是考虑把这三个段落的内容全部拿出来做上下文。所以,这时我们应该怎么选才合适?

其实,这两者之间并不是非此即彼的关系,理论上来说我们可以选择任何一种方式,也可以采用两者混合的方式;举例来说,如果一个文档段落数据长短不一,长的有几百上千字,短的才几十上百字;如果按照统一的段落构建上下文,这时可能会出现大量的噪音数据,并且会严重影响到模型的生成质量和加快token消耗。

所以,根据chunk召回完整段落内容,可以根据不同的场景选择折中的方案,而不是一棒子打死,必须使用某种方式。并且,有时为了减少token消耗,提升模型的准确性,我们可能还会对召回的数据做语义合并,尽量减少上下文的长度。

最后

选择AI大模型就是选择未来!最近两年,大家都可以看到AI的发展有多快,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?

与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,人才需求急为紧迫!

人工智能时代最缺的是什么?就是能动手解决问题还会动脑创新的技术牛人!智泊AI为了让学员毕业后快速成为抢手的AI人才,直接把课程升级到了V6.0版本‌。

这个课程就像搭积木一样,既有机器学习、深度学习这些基本功教学,又教大家玩转大模型开发、处理图片语音等多种数据的新潮技能,把AI技术从基础到前沿全部都包圆了!

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

课程还教大家怎么和AI搭档一起工作,就像程序员带着智能助手写代码、优化方案,效率直接翻倍‌!

这么练出来的学员确实吃香,83%的应届生都进了大厂搞研发,平均工资比同行高出四成多‌。

智泊AI还特别注重培养"人无我有"的能力,比如需求分析、创新设计这些AI暂时替代不了的核心竞争力,让学员在AI时代站稳脚跟‌。

课程优势一:人才库优秀学员参与真实商业项目实训

课程优势二:与大厂深入合作,共建大模型课程

课程优势三:海外高校学历提升

课程优势四:热门岗位全覆盖,匹配企业岗位需求

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

·应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

·零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

·业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

重磅消息

人工智能V6.0升级两大班型:AI大模型全栈班AI大模型算法班,为学生提供更多选择。

由于文章篇幅有限,在这里我就不一一向大家展示了,学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。

【最新最全版】AI大模型全套学习籽料(可无偿送):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!

获取方式:有需要的小伙伴,可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

来智泊AI,高起点就业

培养企业刚需人才

扫码咨询 抢免费试学

⬇⬇⬇

AI大模型学习之路,道阻且长,但只要你坚持下去,就一定会有收获。

http://www.jsqmd.com/news/338890/

相关文章:

  • 26年寒假生活指导2.3
  • CSS中的 `dvh` 与 `vh`: 深入理解视口单位
  • 高阶组件(HOC)在Vue中的实现:全面解析与最佳实践
  • Thinkphp和Laravel框架的私人服装西服定制设计与实现沙箱支付
  • 【建议收藏】2026网络安全学习路线全攻略:从小白到黑客大神,这6个阶段就够了!
  • SSM计算机毕设之基于ssm的就业招聘查询系统基于SSM的人才招聘管理系统(完整前后端代码+说明文档+LW,调试定制等)
  • 若战神白起时代的秦昭襄王早逝,宣太后会成为秦国的“吕后”或“慈禧”吗?
  • Thinkphp和Laravel框架的蔚来新能源汽车对比推荐平台设计与实现
  • Nginx 实战实验:从基础配置到虚拟主机搭建 - 指南
  • 网络安全学习指南:SSRF漏洞原理与实战,建议收藏
  • Thinkphp和Laravel框架的生鲜海鲜商城交易系统设计与实现没论文
  • 《构建之法》第二章 个人技术和流程 读书笔记 - GENGAR
  • 收藏!小白入行网络安全指南:从技术原理到月入20K的职业路径全解析
  • 伐度司他Vadadustat治疗慢性肾病透析患者贫血的每日一次口服滴定方案
  • Thinkphp和Laravel框架的社区医疗保健健康预警监控系统的设计与实现
  • OpenClaw 安装文档
  • 开源69.9k星标,国产OCR杀进全球第一梯队,全新升级,文档再歪再糊也不怕(附源码)
  • eScan 杀毒软件被用于供应链攻击传播恶意软件
  • 必收藏!网络安全五大专业深度解析:谁主攻科研?谁进大厂拿高薪?小白程序员入门必看指南
  • PandaWiki:开源企业级AI知识库工具,基于RAG架构的私有化部署方案
  • 奇安信获NVDB-CAVD年度优秀技术支撑单位 10项原创漏洞证书彰显车联网安全实力
  • 无人机城市管理 AI+虚仿 创新实训室:构建城市管理智慧实训新构架
  • 基于springboot的大学生就业招聘系统-计算机毕业设计源码+LW无文档
  • 基于springboot健康管理微信小程序的设计与实现
  • 网络安全黑客入门必看:漏洞挖掘基础知识与平台收藏指南
  • 基于springboot的电动车租赁平台系统-计算机毕业设计源码+LW无文档
  • 国产化工业数据库推荐品牌崛起,筑牢工业高质量发展数据根基 - 速递信息
  • leetcode 3637. 三段式数组 I 简单
  • SpringBoot + Arthas,线上监控诊断进阶玩法!
  • 1月30号:急不来