当前位置：首页 > news >正文

工业 RAG + 微调混合系统【左扬精讲】—— R1 系列收官之作：从 Prompt → RAG → 微调选型决策树

news 2026/6/20 18:51:42

工业 RAG + 微调混合系统【左扬精讲】—— R1 系列收官之作：从 Prompt → RAG → 微调选型决策树

R1 系列 7 篇博文讲完了训练 / 蒸馏 / 评估 / 部署 / 端侧 / 推理 / 多模态的完整链路。但工程团队最常问："我有一个新业务，到底该用 Prompt？RAG？还是微调？"。这就是 Plan H——R1 系列的收官之作，讲清"工业 RAG + 微调混合系统"的完整选型决策树。

本篇围绕"从 Prompt Engineering 到 Fine-tuning 的 5 级选型决策"展开 10 大章节：① 业务问题分类（5 大类）；② 5 级选型决策树（Prompt / Few-shot / RAG / SFT / GRPO）；③ 工业 RAG 5 层架构（Query Rewrite / Retriever / Reranker / Generator / Cache）；④ Agentic RAG 与 Self-RAG；⑤ RAG vs 微调 vs Prompt 混合策略；⑥ 业务 ROI 测算模型；⑦ 6 大业务场景案例库；⑧ 完整可运行代码（LlamaIndex + Qwen2.5）；⑨ 20 FAQ；⑩ R1 系列总结与下阶段路线图。

RAG Agentic RAG Self-RAG 选型决策树 Prompt Engineering SFT 混合系统 R1 收官

学习重点提示

重点掌握（必须）

5 级选型决策树：Prompt → Few-shot → RAG → SFT → GRPO

工业 RAG 5 层架构：Query Rewrite / Retriever / Reranker / Generator / Cache

Agentic RAG：Agent + RAG 的 4 大模式

RAG vs 微调决策矩阵：6 大维度对比

业务 ROI 测算模型：成本 vs 收益

6 大业务场景案例：客服 / 法律 / 医疗 / 教育 / 代码 / 金融

LlamaIndex + Qwen2.5 完整代码

次重点（了解即可）

Self-RAG 自我反思检索

多模态 RAG（图 / 表 / 视频）

RAG 与微调的协同效应

文章目录

一、Why：为什么"Prompt vs RAG vs 微调"是 LLM 应用第一决策
二、业务问题 5 大分类
三、5 级选型决策树（Prompt → GRPO）
四、工业 RAG 5 层架构详解
五、Agentic RAG 与 Self-RAG
六、RAG vs 微调 vs Prompt 混合策略
七、业务 ROI 测算模型
八、6 大业务场景案例库
九、完整代码实现（LlamaIndex + Qwen2.5）
十、FAQ：20 个常见问题深度问答
十一、R1 系列总结 + 未来 12 个月路线图

一、Why：为什么"Prompt vs RAG vs 微调"是 LLM 应用第一决策

2024-2025 年 LLM 应用落地过程中，90% 的失败案例源于错误的方案选型。最常见的 3 种错误：

过度工程：简单 Prompt 能解决的问题，做了 SFT（浪费 2 周 + ¥10W）
低估 LLM：业务用了 RAG，但 Prompt 工程 + 强模型就够了
错配方案：高频问题用 GRPO 训练（应该用 RAG 缓存）

本篇给出的"5 级选型决策树"，能让你5 分钟判断出正确方案，避免上述 3 种错误。

二、业务问题 5 大分类

所有 LLM 业务问题可以分为 5 大类：

问题类型	特征	代表场景	推荐方案
通用问答	不需要领域知识	闲聊 / 翻译 / 写作	Prompt + 强模型
领域问答	需要专业领域知识	医疗 / 法律 / 金融咨询	RAG + 领域语料
风格 / 格式	需要特定输出风格 / 格式	品牌文案 / 客服话术 / 代码风格	SFT
复杂推理	需要多步推理	数学 / 代码 / 战略分析	GRPO / 推理时扩展
实时数据	需要最新 / 私有数据	新闻 / 股价 / 公司文档	RAG（必选）

三、5 级选型决策树（Prompt → GRPO）

5 级选型决策树——这是本篇核心：

第 1 问：模型已知的知识够吗？├─ 够（闲聊 / 翻译 / 通用问答）→ 第 2 级：Prompt Engineering└─ 不够 → 第 2 问第 2 问：知识会变吗？├─ 不变（数学定理 / 物理定律）→ 第 2 级：Prompt + Few-shot└─ 变（公司文档 / 实时新闻）→ 第 3 级：RAG第 3 问：RAG 准确率够吗？├─ 够（≥85%）→ 第 3 级：RAG + 强模型└─ 不够（<85%）→ 第 4 问第 4 问：需要特定风格 / 格式吗？├─ 是 → 第 4 级：SFT└─ 否 → 第 5 问第 5 问：需要复杂推理吗？├─ 否 → 第 4 级：SFT 即可└─ 是 → 第 5 级：GRPO + 推理时扩展

级别	方案	成本	周期	准确率	适用
1. Prompt	直接 GPT-4o	¥0	1 小时	70%	通用任务
2. Few-shot	5~10 个例子	¥0	1 天	80%	风格化任务
3. RAG	+ 向量库	¥10K	1~2 周	85%	实时 / 私有数据
4. SFT	+ 1K~10K 数据	¥100K	1~2 月	90%	专属风格
5. GRPO	+ RL 训练	¥1M	3~6 月	95%	复杂推理

四、工业 RAG 5 层架构详解

工业 RAG 不是"向量库 + LLM"那么简单。一个生产级 RAG 系统包含 5 层架构：

┌──────────────────────────────────────────────────────────┐
│                    工业 RAG 5 层架构                         │
│                                                          │
│  ┌────────────────────────────────────────────────┐     │
│  │  Layer 5: Cache（缓存层）                      │     │
│  │  - 精确匹配缓存（Redis）                       │     │
│  │  - 语义匹配缓存（向量库）                      │     │
│  │  - 命中率 30%+ 可省 50% 成本                   │     │
│  └────────────────────┬───────────────────────────┘     │
│                       ↓                                  │
│  ┌────────────────────────────────────────────────┐     │
│  │  Layer 4: Generator（生成层）                  │     │
│  │  - LLM（Qwen2.5-72B / GPT-4o）                 │     │
│  │  - Prompt 工程 + CoT                           │     │
│  │  - 输出后处理（格式 / 安全）                    │     │
│  └────────────────────┬───────────────────────────┘     │
│                       ↑                                  │
│  ┌────────────────────────────────────────────────┐     │
│  │  Layer 3: Reranker（重排层）                   │     │
│  │  - 从 100 候选 → top 5                        │     │
│  │  - BGE-reranker-v2-m3 / Cohere Rerank         │     │
│  │  - 准确率 +20~30%                              │     │
│  └────────────────────┬───────────────────────────┘     │
│                       ↑                                  │
│  ┌────────────────────────────────────────────────┐     │
│  │  Layer 2: Retriever（检索层）                  │     │
│  │  - 混合检索：BM25 + 向量检索                   │     │
│  │  - 检索 top 100 候选                           │     │
│  │  - 向量库：Milvus / Qdrant / pgvector          │     │
│  └────────────────────┬───────────────────────────┘     │
│                       ↑                                  │
│  ┌────────────────────────────────────────────────┐     │
│  │  Layer 1: Query Rewrite（查询改写层）          │     │
│  │  - 改写：补全省略 / 修正口语                   │     │
│  │  - 扩展：同义词 / 多角度 query                 │     │
│  │  - 意图识别：分类到具体子任务                  │     │
│  └────────────────────────────────────────────────┘     │
└──────────────────────────────────────────────────────────┘

4.1 5 层架构的成本与效果

层	作用	延迟	效果	必要性
L1 Query Rewrite	改写 query	+50ms	+15%	强烈推荐
L2 Retriever	混合检索	+100ms	基础	必须
L3 Reranker	精排 top 5	+200ms	+25%	强烈推荐
L4 Generator	生成回答	+1000ms	基础	必须
L5 Cache	结果缓存	+10ms	省 50% 成本	强烈推荐

五、Agentic RAG 与 Self-RAG

2025 年 RAG 的两大前沿：

5.1 Agentic RAG

Agentic RAG = Agent + RAG。Agent 根据问题动态决定：① 是否需要检索；② 检索什么；③ 如何组合。4 大模式：

模式	描述	适用
Single-shot	1 次检索 + 1 次生成	简单问答
Iterative	多次检索 + 多次生成	复杂推理
Multi-agent	多个 Agent 协作	企业搜索
Hierarchical	层级 Agent（总 / 分 Agent）	大型知识库

5.2 Self-RAG

Self-RAG（Asai 2024）= LLM 自我评估检索质量。模型生成"[Retrieve]" / "[No Retrieve]" token 决定是否检索；"[IsRel]" / "[NoRel]" 评估检索相关性；"[IsSup]" / "[NoSup]" 评估答案是否被检索支持。

六、RAG vs 微调 vs Prompt 混合策略

RAG 与微调不是二选一，而是互补。生产最佳实践是组合使用：

维度	Prompt	RAG	微调（SFT/GRPO）
知识更新	❌ 需重新训练	✅ 实时	❌ 需重新训练
事实准确性	中（易幻觉）	高（基于文档）	中（记忆可能错）
风格定制	弱	中	强
推理能力	依赖基础模型	依赖基础模型	显著提升
成本	低	中	高
数据需求	0	知识库（1K~）	训练数据（1K~）

6.1 混合策略 1：RAG + Few-shot Prompt

用 RAG 检索文档，Prompt 中加 5~10 个示例。最常用，解决 80% 的场景。

6.2 混合策略 2：SFT + RAG

先用 SFT 让模型学会业务风格，再用 RAG 提供最新知识。例如：客服模型 SFT 学话术 + RAG 查订单。

6.3 混合策略 3：GRPO + RAG

用 GRPO 让模型学会复杂推理，再用 RAG 提供事实依据。例如：金融分析模型 GRPO 学推理 + RAG 查行情。

七、业务 ROI 测算模型

ROI = (收益 - 成本) / 成本 × 100%。LLM 应用 ROI 测算：

成本：
- Prompt: ¥0/天（API 调用按量计费）
- RAG: ¥10K~100K 一次性 + ¥1K~10K/月
- SFT: ¥100K~1M 一次性 + ¥1K~10K/月 GPU
- GRPO: ¥1M~10M 一次性 + ¥10K~100K/月 GPU收益（业务场景）：
- 客服：替代 1 个人力 = ¥10K/月 × 24 = ¥240K/年
- 法律：处理 100 份合同 = ¥500K/年
- 医疗：辅助诊断 1000 次 = ¥1M/年
- 教育：1 对 1 辅导 = ¥10M/年ROI 临界：
- Prompt: 1 周回本
- RAG: 1~3 月回本
- SFT: 3~12 月回本
- GRPO: 12~36 月回本

八、6 大业务场景案例库

6 大真实业务案例 + 选型方案：

场景	核心需求	选型方案	实际效果
电商客服	订单查询 + 风格统一	SFT（话术）+ RAG（订单）	85% 自动解决
法律咨询	法条引用 + 案例匹配	RAG（法条库）+ Prompt	90% 准确率
医疗问诊	医学知识 + 安全	RAG（医学库）+ SFT（保守）	92% 准确率
代码助手	代码风格 + 推理	SFT（风格）+ GRPO（推理）	HumanEval 85%
金融分析	实时行情 + 推理	RAG（行情）+ GRPO（推理）	AIME 53%
教育辅导	解题 + 因材施教	RAG（教材）+ GRPO（推理）	MathVista 71%

九、完整代码实现（LlamaIndex + Qwen2.5）

本节给出工业 RAG 5 层架构的完整可运行代码（LlamaIndex + Qwen2.5-7B-Instruct）：

# industrial_rag.py
# 工业 RAG 5 层架构完整实现
from llama_index.core import (VectorStoreIndex, SimpleDirectoryReader,Settings, QueryBundle
)
from llama_index.core.retrievers import (VectorIndexRetriever, BM25Retriever
)
from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.core.postprocessor import SentenceTransformerRerank
from llama_index.llms.huggingface import HuggingFaceLLM
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
import redis
import hashlib# 1. 配置 LLM 和 Embedding
Settings.llm = HuggingFaceLLM(model_name="Qwen/Qwen2.5-7B-Instruct",tokenizer_name="Qwen/Qwen2.5-7B-Instruct",context_window=4096,max_new_tokens=2048,
)
Settings.embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-large-en-v1.5",max_length=512,
)# 2. L1: Query Rewrite
def query_rewrite(query: str) -> str:prompt = f"""改写以下 query，使其更清晰、更完整：
原 query: {query}
改写后："""response = Settings.llm.complete(prompt)return response.text.strip()# 3. L2: Hybrid Retrieval
def hybrid_retrieve(query: str, top_k: int = 100):documents = SimpleDirectoryReader("./data").load_data()vector_index = VectorStoreIndex.from_documents(documents)vector_retriever = VectorIndexRetriever(index=vector_index, similarity_top_k=top_k)bm25_retriever = BM25Retriever.from_defaults(nodes=vector_index.docstore.docs.values(),similarity_top_k=top_k,)vector_results = vector_retriever.retrieve(query)bm25_results = bm25_retriever.retrieve(query)combined = reciprocal_rank_fusion(vector_results, bm25_results)return combined[:top_k]# 4. L3: Reranker
def rerank(query: str, candidates, top_k: int = 5):reranker = SentenceTransformerRerank(model="BAAI/bge-reranker-v2-m3",top_n=top_k,)query_bundle = QueryBundle(query)return reranker.postprocess_nodes(candidates, query_bundle)# 5. L4: Generation
def generate(query: str, context_nodes):context = "\n".join([n.text for n in context_nodes])prompt = f"""基于以下文档回答问题。如果文档中没有答案，请说"我不知道"。文档：
{context}问题：{query}
回答："""response = Settings.llm.complete(prompt)return response.text# 6. L5: Cache
redis_client = redis.Redis(host="localhost", port=6379)def cached_query(query: str):cache_key = "rag:" + hashlib.md5(query.encode()).hexdigest()cached = redis_client.get(cache_key)if cached:return cached.decode()rewritten = query_rewrite(query)candidates = hybrid_retrieve(rewritten)reranked = rerank(rewritten, candidates)answer = generate(rewritten, reranked)redis_client.setex(cache_key, 7 * 86400, answer)return answer# 7. 主流程
def industrial_rag(query: str) -> str:return cached_query(query)# 使用示例
answer = industrial_rag("公司的差旅报销政策是什么？")
print(answer)

十、FAQ：20 个常见问题深度问答

Q1. Prompt / RAG / 微调该用哪个？

决策树：① 任务简单 / 通用 → Prompt；② 领域知识 / 实时数据 → RAG；③ 特定风格 / 复杂推理 → SFT/GRPO；④ 多个需求 → 混合。参考第 3 节 5 级选型决策树。生产建议：① 先试 Prompt；② 准确率 < 85% 再考虑 RAG；③ 仍不够再考虑微调。

Q2. RAG 和微调能一起用吗？

必须一起用，是互补不是替代。典型组合：① SFT 学风格 + RAG 提供知识（客服 / 法律）；② GRPO 学推理 + RAG 提供事实（金融 / 教育）；③ Few-shot 引导 + RAG 检索（简单问答）。生产最佳实践是永远组合使用。

Q3. RAG 准确率上不去怎么办？

5 大原因排查：① 检索质量差：换 Embedding 模型（bge-large → bge-m3）或加 Reranker；② 文档切分差：改用 semantic chunking 而非固定长度；③ query 模糊：加 Query Rewrite；④ Prompt 差：用 Few-shot + CoT；⑤ 文档质量差：清洗文档 / 补充源数据。生产建议：① 90% 的 RAG 问题出在 L1 / L2 / L3；② 优先优化检索，而非生成。

Q4. RAG 的向量库怎么选？

主流 5 个：① Milvus（国产 / 亿级向量 / 生产首选）；② Qdrant（Rust / 性能强）；③ pgvector（PostgreSQL 扩展 / 小规模）；④ Chroma（Python 原生 / 轻量）；⑤ Pinecone（托管 / SaaS）。生产建议：① 亿级选 Milvus；② 百万级选 Qdrant；③ 万级选 pgvector。

Q5. RAG 和 Long Context 哪个好？

Long Context（如 GPT-4o 128K context）和 RAG 是互补，不是替代。Long Context 适合：① 小语料（≤128K）；② 一次性查询。RAG 适合：① 大语料（≥1M）；② 多轮查询；③ 成本敏感。生产建议：① 用 RAG 检索 top 100；② 再用 Long Context 精读。

Q6. 微调需要多少数据？

微调数据需求：① LoRA SFT：1K~10K；② 全参 SFT：10K~100K；③ GRPO：1K~10K（但需要 RM）。数据质量 > 数据数量，1K 高质量 > 100K 低质量。生产建议：① 起步用 1K~3K 试验；② 看 loss 曲线判断够不够；③ 不足再补。

Q7. RAG 的最大瓶颈是什么？

RAG 的 4 大瓶颈（按严重程度）：① 文档切分（最严重）：跨段信息丢失；② 检索精度：相关文档未检索到；③ 多跳推理：需要多次检索；④ 时效性：文档更新滞后。生产建议：① 80% 时间优化文档切分；② 用 semantic chunking + overlap；③ 加 Reranker 提升精度。

Q8. 微调会不会让模型过拟合？

会。5 大缓解：① 数据多样化（1K+ 不同场景）；② early stopping（每 100 步 eval）；③ 正则化（dropout / weight decay）；④ LoRA（限制可训练参数）；⑤ 混合数据（业务数据 + 通用数据）。生产建议：① 业务数据 70% + 通用数据 30%；② 监控 eval loss > train loss 时停训。

Q9. Prompt Engineering 的 4 大技巧？

① 结构化 Prompt：角色 + 任务 + 约束 + 输出格式；② Few-shot：5~10 个示例；③ CoT：让模型"一步步想"；④ Negative Prompting：明确说"不要做什么"。生产建议：① 把业务需求写成结构化 Prompt；② 团队共享 Prompt 模板。

Q10. RAG 的成本怎么优化？

3 大策略：① 语义缓存：命中率 30%+ 可省 50% 成本；② 小模型做检索 + 大模型做生成：bge-small 检索 + Qwen2.5-7B 生成；③ 减少 top_k：从 100 → 20（损失 ~5% 准确率）。生产建议：① 语义缓存是最大杠杆；② 用 Redis + 向量库实现。

Q11. RAG 评估指标有哪些？

RAG 4 大评估：① Context Precision：检索的文档相关比例；② Context Recall：相关文档被检索的比例；③ Faithfulness：答案基于文档的程度；④ Answer Relevance：答案与 query 的相关度。生产工具：RAGAS、Phoenix、DeepEval。

Q12. 微调数据怎么准备？

5 步流程：① 收集：从历史数据 / 人工标注 / 业务专家；② 清洗：去重 / 去噪 / 标准化；③ 标注：用 R1 / GPT-4 辅助；④ 划分：train 90% / eval 10%；⑤ 质检：人工 spot-check 100 条。生产建议：① 数据质量比数量重要 10×；② 1000 条干净 > 10000 条脏数据。

Q13. RAG 检索不到怎么办？

6 大排查方向：① query 太抽象：加 Query Rewrite；② 文档表述不同：加同义词扩展；③ Embedding 不匹配：换 bge-m3 / m3e-large；④ 文档被切碎：跨段信息丢失；⑤ top_k 太小：增大到 100；⑥ 数据库缺数据：补充源数据。生产建议：① 80% 是 query 抽象或文档切碎；② 加 Reranker 可缓解。

Q14. 微调 vs RAG 怎么选？

决策树：① 知识会变 → RAG；② 知识不变但需特定风格 → SFT；③ 需复杂推理 → GRPO；④ 混合需求 → SFT + RAG + GRPO 组合。生产建议：① 单纯靠微调难以达到 95% 准确率；② 必须配合 RAG 提供事实依据。

Q15. RAG 怎么支持多模态？

3 大方案：① 多模态 Embedding：用 bge-visual-m3 / CLIP 编码图像；② VLM + RAG：用 Qwen2-VL 检索（视觉 + 文本）；③ 图描述 + 文本 RAG：先用 VLM 把图转为文字描述，再用文本 RAG。生产推荐方案 ③（最简单）。

Q16. 微调会让模型"忘记"通用能力吗？

会，叫"灾难性遗忘"（Catastrophic Forgetting）。3 大缓解：① LoRA（冻结原参数）；② 混合数据（业务 70% + 通用 30%）；③ KL 散度约束（GRPO beta > 0.04）。生产建议：① 永远用 LoRA；② 业务数据 < 50K 时数据增强 + 通用数据混合。

Q17. RAG + 微调哪个先做？

决策树：① 先 RAG（低成本快速验证）；② 准确率不够 → 加 SFT 学风格；③ 还需推理 → 加 GRPO。RAG 是 0 → 1 的第一步，微调是 1 → 10 的第二步。

Q18. RAG 的延迟怎么优化？

3 大策略：① 语义缓存：命中率 30%+ 可省 50% 时间；② 并行检索：向量 + BM25 并发；③ 预计算：高频 query 提前算好。生产建议：① 缓存是最简单有效的优化；② 用 Redis + 向量库实现。

Q19. 业务数据敏感怎么办？

4 大方案：① 私有部署：用 vLLM + 本地 LLM；② 数据脱敏：进 RAG 前 PII 过滤；③ 端侧推理：用 Ollama / llama.cpp；④ 端云协同：敏感数据本地 + 通用查询云端。生产建议：① 金融 / 政务 / 医疗必选私有部署。

Q20. RAG 和 Agent 的关系？

Agent = 任务规划 + 工具调用。RAG = 知识检索，是 Agent 的工具之一。Agentic RAG = Agent + RAG，Agent 动态决定是否检索、检索什么、如何组合。生产建议：① 简单业务用 纯 RAG；② 复杂业务用 Agentic RAG。

十一、R1 系列总结 + 未来 12 个月路线图

11.1 R1 系列 8 篇博文回顾

R1 入门：DeepSeek-R1 模型基础 + 常见优化方法 + Unsloth GRPO 实战
Plan A：R1 数据蒸馏工厂（800K CoT 生成流水线）
Plan B：LLM 评估体系（GSM8K + LLM-as-Judge + A/B test）
Plan C：vLLM + K8s 生产部署（671B MoE 集群实战）
Plan D：GRPO 进阶算法（DAPO/PRIME/RLVR/PRM）
Plan E：端侧 LLM 工程（llama.cpp + Apple Silicon + 国产 NPU）
Plan F：推理时扩展（o1/R1 慢思考 + ToT + PRM）
Plan G：多模态 R1 / VLM-GRPO（Qwen2-VL 视觉推理）
Plan H（本文）：工业 RAG + 微调混合系统（选型决策树）

11.2 完整 LLM 工程师技能图谱

经过 R1 系列 8+1 篇博文，完整 LLM 工程师技能已经覆盖：

训练（Plan D）├─ PPO / GRPO / DAPO / PRIME / RLVR / PRM├─ 训练数据（Plan A：800K 蒸馏）├─ 训练评估（Plan B：三层评估）└─ 训练框架：Unsloth / TRL / LLaMA-Factory部署（Plan C / E）├─ 云端部署：vLLM + K8s（671B MoE）├─ 端侧部署：llama.cpp + Ollama + MacBook├─ 多模态部署：Qwen2-VL + vLLM└─ 推理引擎：vLLM / TGI / TensorRT-LLM / LMDeploy推理时扩展（Plan F）├─ Self-Consistency 多采样├─ Tree of Thoughts 思维树├─ MCTS + PRM 蒙特卡洛搜索└─ Best-of-N + RM应用（Plan H）├─ 5 级选型决策树（Prompt → GRPO）├─ 工业 RAG 5 层架构├─ RAG + SFT + GRPO 混合系统└─ 6 大业务场景案例多模态（Plan G）├─ VLM 架构（ViT + LLM + Projector）├─ VLM-GRPO 视觉推理└─ Qwen2-VL / LLaVA / InternVL

11.3 未来 12 个月路线图

2025 H2：① VLM Agent + 工具调用；② Video-R1；③ Audio-R1；④ 多模态慢思考
2026 H1：① 端侧 Agent（手机助手）；② World Model + LLM；③ Self-Evolving LLM；④ 跨模态 RAG
长期（2026+）：① AGI 路径探索；② LLM + 机器人；③ LLM + 自动驾驶；④ LLM + 生物医药

R1 系列至此完整结束。8+1 篇博文覆盖了从训练 / 蒸馏 / 评估 / 部署 / 端侧 / 推理 / 多模态 / 应用的全链路。下一篇博文开始进入"VLM Agent"时代——敬请期待。

本文参考与资源链接：
  • Self-RAG 论文
  • RAGAS 论文（评估）
  • RAGFlow（国产 RAG 平台）
  • LlamaIndex 官方
  • LangChain 官方
  • Milvus 向量库
  • Qdrant 向量库
  • RAGAS 文档
  • LlamaIndex 仓库
  • LlamaIndex Agentic RAG 文档