当前位置: 首页 > news >正文

RAG相关知识点总结

image

 

注意点:
  1. 文本如何分割?

RAG 文档切分攻略:做好这步,检索精度提升 50%-阿里云开发者社区
zhuanlan.zhihu.com
  • 分块策略三大家族
策略 核心思想 优点 缺点 适用场景
① 固定长度分块 按字符/token数一刀切 简单、快、通用 上下文容易断裂 快速原型、对语义要求不高
② 文档结构分块 按段落、标题、列表切 最大程度保留语义 依赖文档格式 Markdown、HTML、结构化文档
③ 混合分块 先按段落粗分,再按长度截断超长段落 平衡结构与大小 实现稍复杂 通用推荐方案
  • 三大优化技巧
优化 做法 效果
① 过滤过短块 丢弃或合并低于阈值(如<50字符)的块 减少噪音、提升质量
② 元数据富化 添加标题、章节、文档ID等信息 增强上下文、方便溯源
③ 重叠策略 一般 15%-20%,信息密集型可提高 避免关键信息被切断
 
这里采用分段的方式,更加适合通用文章而且实现起来也简单。
对于不同的解析器:
word:因为内部是xml文件,<w:p>代表一个段落,<w:t>代表段落的里面的一段内容。由于word解析出来的段落可能会很小,所以还需要设置一个下限,将word每一段拼接起来(最后段落要大于下限值)
 
  1. 多轮对话管理

GPT多轮对话上下文管理:3大策略与实战避坑指南 - ByteZoneX社区
从单轮问答到连贯对话:RAG多轮对话技术详解 - 技术栈
  • 滑动窗口:只保留最近的N轮对话作为上下文
    缺点: 当对话深入时,早期的重要信息会被“滑出”窗口,导致模型丢失关键上下文。
  • 对话摘要:当对话历史变得太长时,我们调用一次模型,让它把早期的对话内容总结成一段摘要,然后用这个摘要替换掉那部分冗长的原始消息。
    摘要本身也消耗token,并且可能丢失细节。摘要的触发时机和保留消息的比例需要反复调试。我的经验是,当历史长度超过模型上下文窗口的70%时触发摘要,并始终保留最近的25%的对话不被摘要,这是一个比较稳妥的平衡点。
  • 向量化记忆与RAG:
    原理是把“记忆”外包给向量数据库:
    存储: 每完成一轮对话,就将其中的问、答内容(或者关键信息点)通过Embedding模型转换成向量,存入向量数据库(如ChromaDB、Pinecone)。
    检索: 当用户提出新问题时,先将这个问题也转换成向量。
    查询: 用这个新的向量去数据库里进行相似度搜索,找出历史上与当前问题最相关的几段对话片段。
    注入: 将检索到的历史片段和最近几轮的对话一起组合成新的prompt,发送给大模型。
这种方式让模型每次都能拿到与当前话题最相关的“精准记忆”,而不是模糊的摘要或无关的近期对话。一个实用的技巧是,将最近的3-4轮对话始终保留在主上下文中,然后用RAG补充相关的历史片段。这种混合模式在实践中效果非常好,兼顾了即时性和长期记忆。
 
这里采用问题+回答向量化后存入对话知识库,然后用户输入新问题时会先检索对应知识库,同时也检索对话知识库,然后组装成prompt给大模型处理。
 
  1. 意图识别
意图识别准确率97.6%!高阶多轮对话RAG架构实战分享-阿里云开发者社区
这里采用意图识别寻找对应的知识库,后端会配置好对应的意图文档,分类保存。
 
  1. 问题重写

深入理解RAG查询转换优化:多查询、问题分解与回答回退 - muzinan110 - 博客园
高级RAG优化手册:3招解决检索不准和查询模糊-阿里云开发者社区
场景:
  • 用户查询表述不清晰或含糊
  • 需要从多个角度理解用户意图
  • 单一查询难以覆盖完整信息
方法:
  • 查询重写:“一题多解,集思广益”。先用LLM将原问题改写成多个语义相似但表述不同的子问题,再分别检索,最后合并去重。
  • HyDE(假设文档嵌入):让LLM生成假设答案(如“解决客户投诉的步骤:1.倾听;2.道歉”),再用于检索,提升相关性。
  • 多轮查询:拆分复杂问题,例如“某公司2023年净利润及增长率”分解为子问题分别检索,最后汇总答案。
这里采用:
一开始使用最近几轮的对话(问题+答案)向量,和当前对话进行问题重写,但是会出现一个情况:
  1. “事假休几天?”
  2. “年假呢?”
  3. “事假怎么请?”
  4. “那年假呢?”
4的问题会全局检索最相似的几条,然后会检索到2最相似,然后最后的答案会受到2的影响,导致改写为年假休几天
 
 
  1. Prompt工程

提示词工程 | 菜鸟教程
提示词要素 | Prompt Engineering Guide
 
  1. 检索优化

检索 = 召回+排序
https://aistudio.baidu.com/blog/detail/780105490893957
召回:一般会使用混合召回,因为单纯使用向量计算相似度,在以下场景容易失效:
  • 专有名词匹配:产品型号、人名、ID等精确匹配需求
  • 布尔逻辑:"包含A但不包含B"的复合查询
  • 数字范围:价格区间、日期范围等过滤条件
混合检索融合向量和关键词,可以兼顾语义和精确匹配。
融合:
RRF融合,使用1/(n+60),n为检索系统中的排名,不用归一化和无需调权重,不受异常分数影响,只看排名。
排序:
RAG中的Rerank(重排序)简单易懂全面介绍及实战案例在RAG(检索增强生成)技术中,rerank(重排序)是对初步 - 掘金
初步检索通常返回数十甚至上百个候选文档,但它们的质量参差不齐:
  • 向量相似度 ≠ 语义相关性
  • 长文档可能占据多个检索槽位
  • 初步检索缺少查询-文档的交叉特征
重排序(Reranking)的核心作用是用更精确的模型对候选进行"精排"。
模型类型 原理 计算成本 适用场景
Cross-Encoder 将查询和文档拼接输入,输出相关性分数 高(需逐对计算) Top-100精排
Bi-Encoder 分别编码查询和文档,计算相似度 中(可预计算文档向量) 大规模粗排
LLM-based 用大模型直接判断相关性或生成排序 极高 Top-10超精排
Learning-to-Rank 基于特征工程的传统机器学习排序  
 
http://www.jsqmd.com/news/497716/

相关文章:

  • 三星Galaxy S26系列,解锁科技新体验
  • 高校课题结题必须提供第三方软件测试报告吗?有哪些文件依据?
  • 2026年百家号代运营可靠服务商推荐榜:爱采购开户哪家好/爱采购开户哪家强/爱采购开户哪家靠谱/爱采购服务商咱们联系/选择指南 - 优质品牌商家
  • 2026年全球视野下的高端网站建设公司综合实力评析与选型指南
  • 保姆级教程!STM32 开发工具下载,新手也能一次搞定
  • ASR学习路径(音频算法工程师专属)
  • 2026制造业爱采购服务优质品牌推荐指南:衡水爱采购服务商/衡水百度爱采购/AI营销/GEO发展趋势/GEO哪家好/选择指南 - 优质品牌商家
  • ECS框架-输入管理信号系统
  • 平滑与断裂之间:S4-Info-Yi系统的哲学突破与数学挑战
  • 微信自动化机器人开发
  • Linux 入门学习
  • 2026食品饮料行业紫外杀菌光源推荐榜:222nm紫外灯、UV杀菌器、不锈钢杀菌器、大功率紫外灯、水处理杀菌器选择指南 - 优质品牌商家
  • 2026年最新电流互感器十大品牌排名与选型指南
  • 用阿里云开通短信服务
  • 新能源并网必装!电能质量在线监测装置:谐波、不平衡、电压扰动全监测,守住企业收益
  • Java 性能天花板:JIT 即时编译、分层编译与代码缓存深度调优指南
  • 抖音获客软件是真的吗?一文讲清真相
  • 当 AI 不再只 “聊天”:OpenClaw 的核心体验革新​
  • 建议收藏|8个降AI率工具测评:开源免费必看,助你轻松过关
  • 高性价比国产千兆网口芯片PT153S|PT153S直接替代RTL8153设计原理图|PT153S参数与性能
  • 如何使用 MySQL 的 EXPLAIN 语句进行查询分析?
  • 535353
  • 云平台测试实战:AWS Lambda性能深度调优策略
  • 2026年江苏3月发电机出租厂家全攻略:发电车租赁/大型发电机出租/静音发电机出租ups应急电源出租品牌推荐+采购指南 - 海棠依旧大
  • 实验演示 | 配置浮动路由
  • 【图像去雾】小波变换图像去雾(含信息熵)【含Matlab源码 15193期】
  • 2026电商云仓全自动包装机优质厂家推荐榜:枕式热收缩包装机厂家/热封口包装机厂家/热收缩膜包装设备厂家/热收缩自动包装机厂家/选择指南 - 优质品牌商家
  • TensorFlow Extended(TFX)在AI模型测试中的核心应用与实践指南
  • Dify 工作流新手教程(超详细·新手必看)
  • 省心了! 降AI率工具 千笔·降AI率助手 VS 文途AI 专科生专用