当前位置：首页 > news >正文

RAG-day6

news 2026/6/26 19:32:56

一、文本预处理

作用：清洗原始文档，去除无效干扰内容，提升后续分块、检索准确率。
常见操作：去空格、去换行、去乱码、去广告冗余、统一格式、过滤特殊符号。

二、分词与语义预处理

中文不能单纯按英文空格切割，需要做中文分词。
目的：让模型读懂语义边界，避免把完整词语拆碎。

三、向量化细节考点

只有有语义价值的文本才做嵌入向量化。
无意义短句、乱码、重复冗余内容，可直接过滤不入库，节省向量库空间和 Token。

四、相似度检索原理

文本转向量后，在向量库计算余弦相似度。
相似度越高，语义越相近，越优先召回。

五、RAG 常见召回问题

语义相似但事实无关：靠重排序 Rerank过滤。
提问太简短、语义模糊：靠查询改写优化。
分块不合理导致信息不全：靠重叠分块、递归分块优化。

六、RAG 评估指标（面试常考）

召回率：相关片段有没有被找出来。
精准率：找出来的片段是不是都相关。
答案可用性：最终大模型回答是否准确、完整、无幻觉。

1. RAG 和 NLP 本来就是包含关系

RAG 属于 NLP 大模型应用分支你说的jieba 分词就是最基础的传统 NLP 技术。

2. 为什么感觉很像？共同点

都要处理中文文本
都要做分词、清洗、去符号、去冗余
都要理解语义、上下文
jieba 分词、文本清洗、分句，都是 RAG 文本预处理里要用的东西

3. 区别一句话分清

传统 NLP：靠规则、分词、语法、关键词匹配
大模型 RAG：底层依然用 NLP 预处理，上层靠嵌入向量 + 大模型语义理解

4. 实际工作里真实关系

做 RAG 前置预处理，经常用到：

jieba 分词
去停用词（的、了、啊这种无意义词）
分句、合并短句、清理乱码、正则清洗

就是你熟悉的前端正则 + NLP 分词，全部用在 RAG 文档预处理里。

5. 给你一句必背

RAG 底层依赖 NLP 基础技术，文本清洗、分词、分句都属于传统 NLP，是 RAG 预处理的必备步骤。

RAG 里什么时候用 Jieba 分词、什么时候不用

一、什么时候要用 Jieba 分词

做关键词检索的时候向量检索靠语义，关键词检索要靠分词拆词，比如用户问：“前端怎么学 RAG”Jieba 分出：前端、怎么、学、RAG，再去库里面匹配关键词。
文本预处理、去停用词先分词 → 删掉 “的、了、吗、啊” 这类无意义停用词，减少噪音，提升检索精度。
短问句、口语化问句拆分用户提问很短、很口语，用 Jieba 分词拆出核心实词，方便查询改写、关键词匹配。
传统倒排索引、ES 检索ES 做全文检索必须分词，RAG 多路检索里ES 关键词检索必用 Jieba。

二、什么时候不用Jieba 分词

给嵌入模型做向量化的时候嵌入模型（Embedding）自带中文语义理解，不用你手动分词，直接整句丢进去就行，手动拆词反而破坏语义。
大模型 Prompt 拼接上下文的时候直接原文片段喂给大模型，不能随便分词切割，会破坏语句通顺和语义。
长文档整块分块时递归分块、重叠分块、父子分块，按段落 / 标点切，不需要 Jieba 参与。

三、一句话背面试版

RAG关键词检索、文本去停用词、ES 倒排索引要用 Jieba 分词；Embedding 向量化、给大模型喂上下文不用 Jieba 分词。

四、顺带帮你串起来

RAG 工业级多路检索：向量检索（不用分词） + ES 关键词检索（要用 Jieba 分词）刚好把两种场景都用上了。

ES 倒排索引

1. 先懂：正向索引（我们正常思维）

正向索引：文档 → 里面有哪些词例子：文档 1：我想学 RAG文档 2：前端转行 AI

就是按「文章」找「里面的词」。

2. 倒排索引（反过来）

倒排索引：词 → 出现在哪些文档里例子：RAG → 文档 1前端 → 文档 2AI → 文档 2

把顺序倒过来了，所以叫倒排索引。

3. 生活类比

正向索引：看每个人的书包里有什么书。

倒排索引：每一本书，分别在谁的书包里。

4. ES 为什么要用倒排索引？

ES（Elasticsearch）做全文检索，你搜一个关键词，它一秒找到所有包含这个词的文档，全靠倒排索引。

5. 和 RAG 的关系

RAG 里多路检索常用：

向量检索：靠语义相似度
ES 关键词检索：靠倒排索引 + jieba 分词

先用 jieba 把问句分词，再去 ES 倒排索引里匹配含这些词的文档。

6. 一句话背面试

倒排索引就是把「文档包含哪些词」反转成「词对应哪些文档」，ES 靠它实现快速全文关键词检索。

ES 全称 & 释义

ES = Elasticsearch拆分记：

Elastic：有弹性的、灵活的
Search：搜索

直接记住：ES 就是 Elasticsearch，一款分布式全文搜索引擎

放到 RAG 里一句话理解

RAG 里用 ES 做关键词检索，靠倒排索引 + Jieba 分词，和向量检索搭配做多路检索。

我顺便给你记个面试常考短句：RAG 多路检索 = 向量语义检索 + ES 关键词倒排检索

http://www.jsqmd.com/news/777467/

相关文章：

告别提取码焦虑：3步解锁百度网盘资源的终极方案

轻量级云原生存储方案：基于Rook-Ceph的边缘计算部署实践

重庆众申机电设备：重庆专业做发电机回收的公司 - LYL仔仔

Vue项目里预览Word文档，除了docx-preview还有哪些方案？附完整代码对比

数字孪生注入物理灵魂，镜像视界开创智治新篇

ZXPInstaller：Adobe扩展安装的终极跨平台解决方案

航天飞机背负运输背后的航空电子与系统工程解析

收藏！小白程序员必看：掌握AI大模型，抢占2030年高薪就业机会

在github项目中集成taotoken多模型api的python调用教程

G-Helper深度解析：华硕笔记本终极硬件控制框架的技术实现与实战应用

自托管RSS聚合器YourRSS：从部署到自动化，构建私有信息流

2026海口汽车改色膜推荐｜不伤原车漆・高端质感・膜艺世家双授权门店更靠谱！ - 品牌推荐大师1

2026高性价比海外TK矩阵系统选型推荐，助力外贸企业获客 - 奔跑123

极简低功耗磁编码器 MT6701 重新定义无线智能面板交互

蚌埠起源机械设备租赁：蚌埠升降平台推荐哪几家 - LYL仔仔

Sunshine自托管游戏串流服务器：3步搭建你的私人云游戏平台

pr视频制作素材平台对比：从模板、音效到画面风格的5个平台分析 - Fzzf_23

Clawith开源多智能体协作平台：构建具备持久记忆与自主意识的AI团队

燃油费破百，暑假全家飞？实测推荐同程旅行：口令直达低价

中学函数常识暴露数学几百年重大错误：搞错函数的值域

2026年合肥短视频运营与AI全网推广企业获客完全指南 - 优质企业观察收录

VideoDownloadHelper：你的网页视频收藏管家，三步轻松保存任何在线视频

工业自动化连接设计：从信号完整性到可靠布线的工程实践

值得收藏的AI入门书籍推荐

智能歌词同步工具LRCGET：离线音乐库批量下载完整指南

热门护发精油品牌测评：6款高人气护发精油推荐 - 速递信息

2026 终极指南：好用的智能体平台，从选型到落地全解答

2026年X射线测厚技术破局者：从国际巨头到国产精工的技术对标 - 品牌推荐大师1

最新护发精油排名测评：6款高口碑护发精油推荐 - 速递信息

从XGMII到AXI4-Stream：深入解析10G Ethernet PCS/PMA IP核的数据接口转换