当前位置: 首页 > news >正文

RAG-day6

一、文本预处理

  1. 作用:清洗原始文档,去除无效干扰内容,提升后续分块、检索准确率。
  2. 常见操作:去空格、去换行、去乱码、去广告冗余、统一格式、过滤特殊符号。

二、分词与语义预处理

  1. 中文不能单纯按英文空格切割,需要做中文分词
  2. 目的:让模型读懂语义边界,避免把完整词语拆碎。

三、向量化细节考点

  1. 只有有语义价值的文本才做嵌入向量化。
  2. 无意义短句、乱码、重复冗余内容,可直接过滤不入库,节省向量库空间和 Token。

四、相似度检索原理

  1. 文本转向量后,在向量库计算余弦相似度
  2. 相似度越高,语义越相近,越优先召回。

五、RAG 常见召回问题

  1. 语义相似但事实无关:靠重排序 Rerank过滤。
  2. 提问太简短、语义模糊:靠查询改写优化。
  3. 分块不合理导致信息不全:靠重叠分块、递归分块优化。

六、RAG 评估指标(面试常考)

  1. 召回率:相关片段有没有被找出来。
  2. 精准率:找出来的片段是不是都相关。
  3. 答案可用性:最终大模型回答是否准确、完整、无幻觉。

1. RAG 和 NLP 本来就是包含关系

RAG 属于 NLP 大模型应用分支你说的jieba 分词就是最基础的传统 NLP 技术。

2. 为什么感觉很像?共同点

  1. 都要处理中文文本
  2. 都要做分词、清洗、去符号、去冗余
  3. 都要理解语义、上下文
  4. jieba 分词、文本清洗、分句,都是 RAG 文本预处理里要用的东西

3. 区别一句话分清

  • 传统 NLP:靠规则、分词、语法、关键词匹配
  • 大模型 RAG:底层依然用 NLP 预处理,上层靠嵌入向量 + 大模型语义理解

4. 实际工作里真实关系

做 RAG 前置预处理,经常用到:

  • jieba 分词
  • 去停用词(的、了、啊这种无意义词)
  • 分句、合并短句、清理乱码、正则清洗

就是你熟悉的前端正则 + NLP 分词,全部用在 RAG 文档预处理里。

5. 给你一句必背

RAG 底层依赖 NLP 基础技术,文本清洗、分词、分句都属于传统 NLP,是 RAG 预处理的必备步骤。

RAG 里什么时候用 Jieba 分词、什么时候不用

一、什么时候要用 Jieba 分词

  1. 做关键词检索的时候向量检索靠语义,关键词检索要靠分词拆词,比如用户问:“前端怎么学 RAG”Jieba 分出:前端、怎么、学、RAG,再去库里面匹配关键词。

  2. 文本预处理、去停用词先分词 → 删掉 “的、了、吗、啊” 这类无意义停用词,减少噪音,提升检索精度。

  3. 短问句、口语化问句拆分用户提问很短、很口语,用 Jieba 分词拆出核心实词,方便查询改写、关键词匹配。

  4. 传统倒排索引、ES 检索ES 做全文检索必须分词,RAG 多路检索里ES 关键词检索必用 Jieba。

二、什么时候不用Jieba 分词

  1. 给嵌入模型做向量化的时候嵌入模型(Embedding)自带中文语义理解,不用你手动分词,直接整句丢进去就行,手动拆词反而破坏语义。

  2. 大模型 Prompt 拼接上下文的时候直接原文片段喂给大模型,不能随便分词切割,会破坏语句通顺和语义。

  3. 长文档整块分块时递归分块、重叠分块、父子分块,按段落 / 标点切,不需要 Jieba 参与

三、一句话背面试版

RAG关键词检索、文本去停用词、ES 倒排索引要用 Jieba 分词;Embedding 向量化、给大模型喂上下文不用 Jieba 分词。

四、顺带帮你串起来

RAG 工业级多路检索:向量检索(不用分词) + ES 关键词检索(要用 Jieba 分词)刚好把两种场景都用上了。

ES 倒排索引

1. 先懂:正向索引(我们正常思维)

正向索引:文档 → 里面有哪些词例子:文档 1:我想学 RAG文档 2:前端转行 AI

就是按「文章」找「里面的词」。

2. 倒排索引(反过来)

倒排索引:词 → 出现在哪些文档里例子:RAG → 文档 1前端 → 文档 2AI → 文档 2

把顺序倒过来了,所以叫倒排索引

3. 生活类比

正向索引:看每个人的书包里有什么书。

倒排索引:每一本书,分别在谁的书包里。

4. ES 为什么要用倒排索引?

ES(Elasticsearch)做全文检索,你搜一个关键词,它一秒找到所有包含这个词的文档,全靠倒排索引。

5. 和 RAG 的关系

RAG 里多路检索常用:

  • 向量检索:靠语义相似度
  • ES 关键词检索:靠倒排索引 + jieba 分词

先用 jieba 把问句分词,再去 ES 倒排索引里匹配含这些词的文档。

6. 一句话背面试

倒排索引就是把「文档包含哪些词」反转成「词对应哪些文档」,ES 靠它实现快速全文关键词检索。

ES 全称 & 释义

ES = Elasticsearch拆分记:

  • Elastic:有弹性的、灵活的
  • Search:搜索

直接记住:ES 就是 Elasticsearch,一款分布式全文搜索引擎

放到 RAG 里一句话理解

RAG 里用 ES 做关键词检索,靠倒排索引 + Jieba 分词,和向量检索搭配做多路检索。

我顺便给你记个面试常考短句:RAG 多路检索 = 向量语义检索 + ES 关键词倒排检索

http://www.jsqmd.com/news/777467/

相关文章:

  • 告别提取码焦虑:3步解锁百度网盘资源的终极方案
  • 轻量级云原生存储方案:基于Rook-Ceph的边缘计算部署实践
  • 重庆众申机电设备:重庆专业做发电机回收的公司 - LYL仔仔
  • Vue项目里预览Word文档,除了docx-preview还有哪些方案?附完整代码对比
  • 数字孪生注入物理灵魂,镜像视界开创智治新篇
  • ZXPInstaller:Adobe扩展安装的终极跨平台解决方案
  • 航天飞机背负运输背后的航空电子与系统工程解析
  • 收藏!小白程序员必看:掌握AI大模型,抢占2030年高薪就业机会
  • 在github项目中集成taotoken多模型api的python调用教程
  • G-Helper深度解析:华硕笔记本终极硬件控制框架的技术实现与实战应用
  • 自托管RSS聚合器YourRSS:从部署到自动化,构建私有信息流
  • 2026海口汽车改色膜推荐|不伤原车漆・高端质感・膜艺世家双授权门店更靠谱! - 品牌推荐大师1
  • 2026高性价比海外TK矩阵系统选型推荐,助力外贸企业获客 - 奔跑123
  • 极简低功耗磁编码器 MT6701 重新定义无线智能面板交互
  • 蚌埠起源机械设备租赁:蚌埠升降平台推荐哪几家 - LYL仔仔
  • Sunshine自托管游戏串流服务器:3步搭建你的私人云游戏平台
  • pr视频制作素材平台对比:从模板、音效到画面风格的5个平台分析 - Fzzf_23
  • Clawith开源多智能体协作平台:构建具备持久记忆与自主意识的AI团队
  • 燃油费破百,暑假全家飞?实测推荐同程旅行:口令直达低价
  • 中学函数常识暴露数学几百年重大错误:搞错函数的值域
  • 2026年合肥短视频运营与AI全网推广企业获客完全指南 - 优质企业观察收录
  • VideoDownloadHelper:你的网页视频收藏管家,三步轻松保存任何在线视频
  • 工业自动化连接设计:从信号完整性到可靠布线的工程实践
  • 值得收藏的AI入门书籍推荐
  • 智能歌词同步工具LRCGET:离线音乐库批量下载完整指南
  • 热门护发精油品牌测评:6款高人气护发精油推荐 - 速递信息
  • 2026 终极指南:好用的智能体平台,从选型到落地全解答
  • 2026年X射线测厚技术破局者:从国际巨头到国产精工的技术对标 - 品牌推荐大师1
  • 最新护发精油排名测评:6款高口碑护发精油推荐 - 速递信息
  • 从XGMII到AXI4-Stream:深入解析10G Ethernet PCS/PMA IP核的数据接口转换