当前位置: 首页 > news >正文

工业 RAG + 微调混合系统【左扬精讲】—— R1 系列收官之作:从 Prompt → RAG → 微调 选型决策树

工业 RAG + 微调混合系统【左扬精讲】—— R1 系列收官之作:从 Prompt → RAG → 微调 选型决策树

R1 系列 7 篇博文讲完了训练 / 蒸馏 / 评估 / 部署 / 端侧 / 推理 / 多模态的完整链路。但工程团队最常问:"我有一个新业务,到底该用 Prompt?RAG?还是微调?"。这就是 Plan H——R1 系列的收官之作,讲清"工业 RAG + 微调混合系统"的完整选型决策树

本篇围绕"从 Prompt Engineering 到 Fine-tuning 的 5 级选型决策"展开 10 大章节:① 业务问题分类(5 大类);② 5 级选型决策树(Prompt / Few-shot / RAG / SFT / GRPO);③ 工业 RAG 5 层架构(Query Rewrite / Retriever / Reranker / Generator / Cache);④ Agentic RAG 与 Self-RAG;⑤ RAG vs 微调 vs Prompt 混合策略;⑥ 业务 ROI 测算模型;⑦ 6 大业务场景案例库;⑧ 完整可运行代码(LlamaIndex + Qwen2.5);⑨ 20 FAQ;⑩ R1 系列总结与下阶段路线图。

RAG Agentic RAG Self-RAG 选型决策树 Prompt Engineering SFT 混合系统 R1 收官

学习重点提示

重点掌握(必须)

  • 5 级选型决策树:Prompt → Few-shot → RAG → SFT → GRPO
  • 工业 RAG 5 层架构:Query Rewrite / Retriever / Reranker / Generator / Cache
  • Agentic RAG:Agent + RAG 的 4 大模式
  • RAG vs 微调 决策矩阵:6 大维度对比
  • 业务 ROI 测算模型:成本 vs 收益
  • 6 大业务场景案例:客服 / 法律 / 医疗 / 教育 / 代码 / 金融
  • LlamaIndex + Qwen2.5 完整代码

次重点(了解即可)

  • Self-RAG 自我反思检索
  • 多模态 RAG(图 / 表 / 视频)
  • RAG 与微调的协同效应

文章目录

  1. 一、Why:为什么"Prompt vs RAG vs 微调"是 LLM 应用第一决策
  2. 二、业务问题 5 大分类
  3. 三、5 级选型决策树(Prompt → GRPO)
  4. 四、工业 RAG 5 层架构详解
  5. 五、Agentic RAG 与 Self-RAG
  6. 六、RAG vs 微调 vs Prompt 混合策略
  7. 七、业务 ROI 测算模型
  8. 八、6 大业务场景案例库
  9. 九、完整代码实现(LlamaIndex + Qwen2.5)
  10. 十、FAQ:20 个常见问题深度问答
  11. 十一、R1 系列总结 + 未来 12 个月路线图

一、Why:为什么"Prompt vs RAG vs 微调"是 LLM 应用第一决策

2024-2025 年 LLM 应用落地过程中,90% 的失败案例源于错误的方案选型。最常见的 3 种错误:

  1. 过度工程:简单 Prompt 能解决的问题,做了 SFT(浪费 2 周 + ¥10W)
  2. 低估 LLM:业务用了 RAG,但 Prompt 工程 + 强模型就够了
  3. 错配方案:高频问题用 GRPO 训练(应该用 RAG 缓存)

本篇给出的"5 级选型决策树",能让你5 分钟判断出正确方案,避免上述 3 种错误。

二、业务问题 5 大分类

所有 LLM 业务问题可以分为 5 大类:

问题类型特征代表场景推荐方案
通用问答 不需要领域知识 闲聊 / 翻译 / 写作 Prompt + 强模型
领域问答 需要专业领域知识 医疗 / 法律 / 金融咨询 RAG + 领域语料
风格 / 格式 需要特定输出风格 / 格式 品牌文案 / 客服话术 / 代码风格 SFT
复杂推理 需要多步推理 数学 / 代码 / 战略分析 GRPO / 推理时扩展
实时数据 需要最新 / 私有数据 新闻 / 股价 / 公司文档 RAG(必选)

三、5 级选型决策树(Prompt → GRPO)

5 级选型决策树——这是本篇核心

第 1 问:模型已知的知识够吗?├─ 够(闲聊 / 翻译 / 通用问答)→ 第 2 级:Prompt Engineering└─ 不够 → 第 2 问第 2 问:知识会变吗?├─ 不变(数学定理 / 物理定律)→ 第 2 级:Prompt + Few-shot└─ 变(公司文档 / 实时新闻)→ 第 3 级:RAG第 3 问:RAG 准确率够吗?├─ 够(≥85%)→ 第 3 级:RAG + 强模型└─ 不够(<85%)→ 第 4 问第 4 问:需要特定风格 / 格式吗?├─ 是 → 第 4 级:SFT└─ 否 → 第 5 问第 5 问:需要复杂推理吗?├─ 否 → 第 4 级:SFT 即可└─ 是 → 第 5 级:GRPO + 推理时扩展
级别方案成本周期准确率适用
1. Prompt 直接 GPT-4o ¥0 1 小时 70% 通用任务
2. Few-shot 5~10 个例子 ¥0 1 天 80% 风格化任务
3. RAG + 向量库 ¥10K 1~2 周 85% 实时 / 私有数据
4. SFT + 1K~10K 数据 ¥100K 1~2 月 90% 专属风格
5. GRPO + RL 训练 ¥1M 3~6 月 95% 复杂推理

四、工业 RAG 5 层架构详解

工业 RAG 不是"向量库 + LLM"那么简单。一个生产级 RAG 系统包含 5 层架构:

┌──────────────────────────────────────────────────────────┐
│                    工业 RAG 5 层架构                         │
│                                                          │
│  ┌────────────────────────────────────────────────┐     │
│  │  Layer 5: Cache(缓存层)                      │     │
│  │  - 精确匹配缓存(Redis)                       │     │
│  │  - 语义匹配缓存(向量库)                      │     │
│  │  - 命中率 30%+ 可省 50% 成本                   │     │
│  └────────────────────┬───────────────────────────┘     │
│                       ↓                                  │
│  ┌────────────────────────────────────────────────┐     │
│  │  Layer 4: Generator(生成层)                  │     │
│  │  - LLM(Qwen2.5-72B / GPT-4o)                 │     │
│  │  - Prompt 工程 + CoT                           │     │
│  │  - 输出后处理(格式 / 安全)                    │     │
│  └────────────────────┬───────────────────────────┘     │
│                       ↑                                  │
│  ┌────────────────────────────────────────────────┐     │
│  │  Layer 3: Reranker(重排层)                   │     │
│  │  - 从 100 候选 → top 5                        │     │
│  │  - BGE-reranker-v2-m3 / Cohere Rerank         │     │
│  │  - 准确率 +20~30%                              │     │
│  └────────────────────┬───────────────────────────┘     │
│                       ↑                                  │
│  ┌────────────────────────────────────────────────┐     │
│  │  Layer 2: Retriever(检索层)                  │     │
│  │  - 混合检索:BM25 + 向量检索                   │     │
│  │  - 检索 top 100 候选                           │     │
│  │  - 向量库:Milvus / Qdrant / pgvector          │     │
│  └────────────────────┬───────────────────────────┘     │
│                       ↑                                  │
│  ┌────────────────────────────────────────────────┐     │
│  │  Layer 1: Query Rewrite(查询改写层)          │     │
│  │  - 改写:补全省略 / 修正口语                   │     │
│  │  - 扩展:同义词 / 多角度 query                 │     │
│  │  - 意图识别:分类到具体子任务                  │     │
│  └────────────────────────────────────────────────┘     │
└──────────────────────────────────────────────────────────┘

4.1 5 层架构的成本与效果

作用延迟效果必要性
L1 Query Rewrite 改写 query +50ms +15% 强烈推荐
L2 Retriever 混合检索 +100ms 基础 必须
L3 Reranker 精排 top 5 +200ms +25% 强烈推荐
L4 Generator 生成回答 +1000ms 基础 必须
L5 Cache 结果缓存 +10ms 省 50% 成本 强烈推荐

五、Agentic RAG 与 Self-RAG

2025 年 RAG 的两大前沿:

5.1 Agentic RAG

Agentic RAG = Agent + RAG。Agent 根据问题动态决定:① 是否需要检索;② 检索什么;③ 如何组合。4 大模式:

模式描述适用
Single-shot 1 次检索 + 1 次生成 简单问答
Iterative 多次检索 + 多次生成 复杂推理
Multi-agent 多个 Agent 协作 企业搜索
Hierarchical 层级 Agent(总 / 分 Agent) 大型知识库

5.2 Self-RAG

Self-RAG(Asai 2024)= LLM 自我评估检索质量。模型生成"[Retrieve]" / "[No Retrieve]" token 决定是否检索;"[IsRel]" / "[NoRel]" 评估检索相关性;"[IsSup]" / "[NoSup]" 评估答案是否被检索支持。

六、RAG vs 微调 vs Prompt 混合策略

RAG 与微调 不是二选一,而是互补。生产最佳实践是组合使用

维度PromptRAG微调(SFT/GRPO)
知识更新 ❌ 需重新训练 ✅ 实时 ❌ 需重新训练
事实准确性 中(易幻觉) 高(基于文档) 中(记忆可能错)
风格定制
推理能力 依赖基础模型 依赖基础模型 显著提升
成本
数据需求 0 知识库(1K~) 训练数据(1K~)

6.1 混合策略 1:RAG + Few-shot Prompt

用 RAG 检索文档,Prompt 中加 5~10 个示例。最常用,解决 80% 的场景

6.2 混合策略 2:SFT + RAG

先用 SFT 让模型学会业务风格,再用 RAG 提供最新知识。例如:客服模型 SFT 学话术 + RAG 查订单。

6.3 混合策略 3:GRPO + RAG

用 GRPO 让模型学会复杂推理,再用 RAG 提供事实依据。例如:金融分析模型 GRPO 学推理 + RAG 查行情。

七、业务 ROI 测算模型

ROI = (收益 - 成本) / 成本 × 100%。LLM 应用 ROI 测算:

成本:
- Prompt: ¥0/天(API 调用按量计费)
- RAG: ¥10K~100K 一次性 + ¥1K~10K/月
- SFT: ¥100K~1M 一次性 + ¥1K~10K/月 GPU
- GRPO: ¥1M~10M 一次性 + ¥10K~100K/月 GPU收益(业务场景):
- 客服:替代 1 个人力 = ¥10K/月 × 24 = ¥240K/年
- 法律:处理 100 份合同 = ¥500K/年
- 医疗:辅助诊断 1000 次 = ¥1M/年
- 教育:1 对 1 辅导 = ¥10M/年ROI 临界:
- Prompt: 1 周回本
- RAG: 1~3 月回本
- SFT: 3~12 月回本
- GRPO: 12~36 月回本

八、6 大业务场景案例库

6 大真实业务案例 + 选型方案:

场景核心需求选型方案实际效果
电商客服 订单查询 + 风格统一 SFT(话术)+ RAG(订单) 85% 自动解决
法律咨询 法条引用 + 案例匹配 RAG(法条库)+ Prompt 90% 准确率
医疗问诊 医学知识 + 安全 RAG(医学库)+ SFT(保守) 92% 准确率
代码助手 代码风格 + 推理 SFT(风格)+ GRPO(推理) HumanEval 85%
金融分析 实时行情 + 推理 RAG(行情)+ GRPO(推理) AIME 53%
教育辅导 解题 + 因材施教 RAG(教材)+ GRPO(推理) MathVista 71%

九、完整代码实现(LlamaIndex + Qwen2.5)

本节给出工业 RAG 5 层架构的完整可运行代码(LlamaIndex + Qwen2.5-7B-Instruct):

# industrial_rag.py
# 工业 RAG 5 层架构完整实现
from llama_index.core import (VectorStoreIndex, SimpleDirectoryReader,Settings, QueryBundle
)
from llama_index.core.retrievers import (VectorIndexRetriever, BM25Retriever
)
from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.core.postprocessor import SentenceTransformerRerank
from llama_index.llms.huggingface import HuggingFaceLLM
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
import redis
import hashlib# 1. 配置 LLM 和 Embedding
Settings.llm = HuggingFaceLLM(model_name="Qwen/Qwen2.5-7B-Instruct",tokenizer_name="Qwen/Qwen2.5-7B-Instruct",context_window=4096,max_new_tokens=2048,
)
Settings.embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-large-en-v1.5",max_length=512,
)# 2. L1: Query Rewrite
def query_rewrite(query: str) -> str:prompt = f"""改写以下 query,使其更清晰、更完整:
原 query: {query}
改写后:"""response = Settings.llm.complete(prompt)return response.text.strip()# 3. L2: Hybrid Retrieval
def hybrid_retrieve(query: str, top_k: int = 100):documents = SimpleDirectoryReader("./data").load_data()vector_index = VectorStoreIndex.from_documents(documents)vector_retriever = VectorIndexRetriever(index=vector_index, similarity_top_k=top_k)bm25_retriever = BM25Retriever.from_defaults(nodes=vector_index.docstore.docs.values(),similarity_top_k=top_k,)vector_results = vector_retriever.retrieve(query)bm25_results = bm25_retriever.retrieve(query)combined = reciprocal_rank_fusion(vector_results, bm25_results)return combined[:top_k]# 4. L3: Reranker
def rerank(query: str, candidates, top_k: int = 5):reranker = SentenceTransformerRerank(model="BAAI/bge-reranker-v2-m3",top_n=top_k,)query_bundle = QueryBundle(query)return reranker.postprocess_nodes(candidates, query_bundle)# 5. L4: Generation
def generate(query: str, context_nodes):context = "\n".join([n.text for n in context_nodes])prompt = f"""基于以下文档回答问题。如果文档中没有答案,请说"我不知道"。文档:
{context}问题:{query}
回答:"""response = Settings.llm.complete(prompt)return response.text# 6. L5: Cache
redis_client = redis.Redis(host="localhost", port=6379)def cached_query(query: str):cache_key = "rag:" + hashlib.md5(query.encode()).hexdigest()cached = redis_client.get(cache_key)if cached:return cached.decode()rewritten = query_rewrite(query)candidates = hybrid_retrieve(rewritten)reranked = rerank(rewritten, candidates)answer = generate(rewritten, reranked)redis_client.setex(cache_key, 7 * 86400, answer)return answer# 7. 主流程
def industrial_rag(query: str) -> str:return cached_query(query)# 使用示例
answer = industrial_rag("公司的差旅报销政策是什么?")
print(answer)

十、FAQ:20 个常见问题深度问答

Q1. Prompt / RAG / 微调 该用哪个?

决策树:① 任务简单 / 通用 → Prompt;② 领域知识 / 实时数据 → RAG;③ 特定风格 / 复杂推理 → SFT/GRPO;④ 多个需求 → 混合。参考第 3 节 5 级选型决策树。生产建议:① 先试 Prompt;② 准确率 < 85% 再考虑 RAG;③ 仍不够再考虑微调。

Q2. RAG 和微调能一起用吗?

必须一起用,是互补不是替代。典型组合:① SFT 学风格 + RAG 提供知识(客服 / 法律);② GRPO 学推理 + RAG 提供事实(金融 / 教育);③ Few-shot 引导 + RAG 检索(简单问答)。生产最佳实践是永远组合使用

Q3. RAG 准确率上不去怎么办?

5 大原因排查:① 检索质量差:换 Embedding 模型(bge-large → bge-m3)或加 Reranker;② 文档切分差:改用 semantic chunking 而非固定长度;③ query 模糊:加 Query Rewrite;④ Prompt 差:用 Few-shot + CoT;⑤ 文档质量差:清洗文档 / 补充源数据。生产建议:① 90% 的 RAG 问题出在 L1 / L2 / L3;② 优先优化检索,而非生成。

Q4. RAG 的向量库怎么选?

主流 5 个:① Milvus(国产 / 亿级向量 / 生产首选);② Qdrant(Rust / 性能强);③ pgvector(PostgreSQL 扩展 / 小规模);④ Chroma(Python 原生 / 轻量);⑤ Pinecone(托管 / SaaS)。生产建议:① 亿级选 Milvus;② 百万级选 Qdrant;③ 万级选 pgvector

Q5. RAG 和 Long Context 哪个好?

Long Context(如 GPT-4o 128K context)和 RAG 是互补,不是替代。Long Context 适合:① 小语料(≤128K);② 一次性查询。RAG 适合:① 大语料(≥1M);② 多轮查询;③ 成本敏感。生产建议:① 用 RAG 检索 top 100;② 再用 Long Context 精读。

Q6. 微调需要多少数据?

微调数据需求:① LoRA SFT:1K~10K;② 全参 SFT:10K~100K;③ GRPO:1K~10K(但需要 RM)。数据质量 > 数据数量,1K 高质量 > 100K 低质量。生产建议:① 起步用 1K~3K 试验;② 看 loss 曲线判断够不够;③ 不足再补。

Q7. RAG 的最大瓶颈是什么?

RAG 的 4 大瓶颈(按严重程度):① 文档切分(最严重):跨段信息丢失;② 检索精度:相关文档未检索到;③ 多跳推理:需要多次检索;④ 时效性:文档更新滞后。生产建议:① 80% 时间优化文档切分;② 用 semantic chunking + overlap;③ 加 Reranker 提升精度。

Q8. 微调会不会让模型过拟合?

会。5 大缓解:① 数据多样化(1K+ 不同场景);② early stopping(每 100 步 eval);③ 正则化(dropout / weight decay);④ LoRA(限制可训练参数);⑤ 混合数据(业务数据 + 通用数据)。生产建议:① 业务数据 70% + 通用数据 30%;② 监控 eval loss > train loss 时停训。

Q9. Prompt Engineering 的 4 大技巧?

结构化 Prompt:角色 + 任务 + 约束 + 输出格式;② Few-shot:5~10 个示例;③ CoT:让模型"一步步想";④ Negative Prompting:明确说"不要做什么"。生产建议:① 把业务需求写成结构化 Prompt;② 团队共享 Prompt 模板。

Q10. RAG 的成本怎么优化?

3 大策略:① 语义缓存:命中率 30%+ 可省 50% 成本;② 小模型做检索 + 大模型做生成:bge-small 检索 + Qwen2.5-7B 生成;③ 减少 top_k:从 100 → 20(损失 ~5% 准确率)。生产建议:① 语义缓存是最大杠杆;② 用 Redis + 向量库实现。

Q11. RAG 评估指标有哪些?

RAG 4 大评估:① Context Precision:检索的文档相关比例;② Context Recall:相关文档被检索的比例;③ Faithfulness:答案基于文档的程度;④ Answer Relevance:答案与 query 的相关度。生产工具:RAGASPhoenixDeepEval

Q12. 微调数据怎么准备?

5 步流程:① 收集:从历史数据 / 人工标注 / 业务专家;② 清洗:去重 / 去噪 / 标准化;③ 标注:用 R1 / GPT-4 辅助;④ 划分:train 90% / eval 10%;⑤ 质检:人工 spot-check 100 条。生产建议:① 数据质量比数量重要 10×;② 1000 条干净 > 10000 条脏数据。

Q13. RAG 检索不到怎么办?

6 大排查方向:① query 太抽象:加 Query Rewrite;② 文档表述不同:加同义词扩展;③ Embedding 不匹配:换 bge-m3 / m3e-large;④ 文档被切碎:跨段信息丢失;⑤ top_k 太小:增大到 100;⑥ 数据库缺数据:补充源数据。生产建议:① 80% 是 query 抽象或文档切碎;② 加 Reranker 可缓解。

Q14. 微调 vs RAG 怎么选?

决策树:① 知识会变RAG;② 知识不变但需特定风格SFT;③ 需复杂推理GRPO;④ 混合需求SFT + RAG + GRPO 组合。生产建议:① 单纯靠微调难以达到 95% 准确率;② 必须配合 RAG 提供事实依据。

Q15. RAG 怎么支持多模态?

3 大方案:① 多模态 Embedding:用 bge-visual-m3 / CLIP 编码图像;② VLM + RAG:用 Qwen2-VL 检索(视觉 + 文本);③ 图描述 + 文本 RAG:先用 VLM 把图转为文字描述,再用文本 RAG。生产推荐方案 ③(最简单)。

Q16. 微调会让模型"忘记"通用能力吗?

会,叫"灾难性遗忘"(Catastrophic Forgetting)。3 大缓解:① LoRA(冻结原参数);② 混合数据(业务 70% + 通用 30%);③ KL 散度约束(GRPO beta > 0.04)。生产建议:① 永远用 LoRA;② 业务数据 < 50K 时数据增强 + 通用数据混合。

Q17. RAG + 微调 哪个先做?

决策树:① 先 RAG(低成本快速验证);② 准确率不够 → 加 SFT 学风格;③ 还需推理 → 加 GRPORAG 是 0 → 1 的第一步,微调是 1 → 10 的第二步。

Q18. RAG 的延迟怎么优化?

3 大策略:① 语义缓存:命中率 30%+ 可省 50% 时间;② 并行检索:向量 + BM25 并发;③ 预计算:高频 query 提前算好。生产建议:① 缓存是最简单有效的优化;② 用 Redis + 向量库实现。

Q19. 业务数据敏感怎么办?

4 大方案:① 私有部署:用 vLLM + 本地 LLM;② 数据脱敏:进 RAG 前 PII 过滤;③ 端侧推理:用 Ollama / llama.cpp;④ 端云协同:敏感数据本地 + 通用查询云端。生产建议:① 金融 / 政务 / 医疗 必选私有部署

Q20. RAG 和 Agent 的关系?

Agent = 任务规划 + 工具调用。RAG = 知识检索,是 Agent 的工具之一。Agentic RAG = Agent + RAG,Agent 动态决定是否检索、检索什么、如何组合。生产建议:① 简单业务用 纯 RAG;② 复杂业务用 Agentic RAG

十一、R1 系列总结 + 未来 12 个月路线图

11.1 R1 系列 8 篇博文回顾

  1. R1 入门:DeepSeek-R1 模型基础 + 常见优化方法 + Unsloth GRPO 实战
  2. Plan A:R1 数据蒸馏工厂(800K CoT 生成流水线)
  3. Plan B:LLM 评估体系(GSM8K + LLM-as-Judge + A/B test)
  4. Plan C:vLLM + K8s 生产部署(671B MoE 集群实战)
  5. Plan D:GRPO 进阶算法(DAPO/PRIME/RLVR/PRM)
  6. Plan E:端侧 LLM 工程(llama.cpp + Apple Silicon + 国产 NPU)
  7. Plan F:推理时扩展(o1/R1 慢思考 + ToT + PRM)
  8. Plan G:多模态 R1 / VLM-GRPO(Qwen2-VL 视觉推理)
  9. Plan H(本文):工业 RAG + 微调混合系统(选型决策树)

11.2 完整 LLM 工程师技能图谱

经过 R1 系列 8+1 篇博文,完整 LLM 工程师技能已经覆盖:

训练(Plan D)├─ PPO / GRPO / DAPO / PRIME / RLVR / PRM├─ 训练数据(Plan A:800K 蒸馏)├─ 训练评估(Plan B:三层评估)└─ 训练框架:Unsloth / TRL / LLaMA-Factory部署(Plan C / E)├─ 云端部署:vLLM + K8s(671B MoE)├─ 端侧部署:llama.cpp + Ollama + MacBook├─ 多模态部署:Qwen2-VL + vLLM└─ 推理引擎:vLLM / TGI / TensorRT-LLM / LMDeploy推理时扩展(Plan F)├─ Self-Consistency 多采样├─ Tree of Thoughts 思维树├─ MCTS + PRM 蒙特卡洛搜索└─ Best-of-N + RM应用(Plan H)├─ 5 级选型决策树(Prompt → GRPO)├─ 工业 RAG 5 层架构├─ RAG + SFT + GRPO 混合系统└─ 6 大业务场景案例多模态(Plan G)├─ VLM 架构(ViT + LLM + Projector)├─ VLM-GRPO 视觉推理└─ Qwen2-VL / LLaVA / InternVL

11.3 未来 12 个月路线图

  1. 2025 H2:① VLM Agent + 工具调用;② Video-R1;③ Audio-R1;④ 多模态慢思考
  2. 2026 H1:① 端侧 Agent(手机助手);② World Model + LLM;③ Self-Evolving LLM;④ 跨模态 RAG
  3. 长期(2026+):① AGI 路径探索;② LLM + 机器人;③ LLM + 自动驾驶;④ LLM + 生物医药

R1 系列至此完整结束。8+1 篇博文覆盖了从训练 / 蒸馏 / 评估 / 部署 / 端侧 / 推理 / 多模态 / 应用的全链路。下一篇博文开始进入"VLM Agent"时代——敬请期待。


本文参考与资源链接:
  • Self-RAG 论文
  • RAGAS 论文(评估)
  • RAGFlow(国产 RAG 平台)
  • LlamaIndex 官方
  • LangChain 官方
  • Milvus 向量库
  • Qdrant 向量库
  • RAGAS 文档
  • LlamaIndex 仓库
  • LlamaIndex Agentic RAG 文档

http://www.jsqmd.com/news/1050082/

相关文章:

  • 2026 淮南市|本地中考一两百分公办中职招生,淮南职业技术学校公办院校 2026 完整版简章,联系窦老师 15756001370 - 我叫小周
  • 3步学会用Video2X:免费AI视频无损放大到4K的终极指南
  • 二手平台哪个更靠谱?不看广告看机制,四大平台实测对比 - 新闻快传
  • 如何快速提升英雄联盟游戏体验:终极智能助手完整指南
  • 2026南京大牌闲置变现底价指南|不赚差价,实时行情顶格报价回收 - 讯息早知道
  • 2026年阿里云Hermes Agent/OpenClaw配置Token Plan集成一看就会
  • 商用洗碗机怎么选?苏州本地利宝厨具一站式解决方案 - 新闻快传
  • 制备液相一体化纯化方案|从样品粗分到中试放大全流程解析 - 新闻快传
  • macOS本地AI编程工作流配置:Ollama+VS Code+权限适配全指南
  • 终极Windows窗口调整工具:3步强制修改任意应用窗口大小
  • 二手平台哪个更靠谱?从质检、价格到隐私,2026横向对比见分晓 - 新闻快传
  • 盐城市黄金回收哪家门店正规?2026口碑靠谱门店盘点 - 生活测评君
  • 算法入门|埃拉托斯特尼筛法,一张表筛出 1~120 所有质数
  • echarts-for-weixin:微信小程序数据可视化架构设计与企业级应用实践
  • 如何快速掌握XHS-Downloader:面向新手的完整小红书内容保存指南
  • 外包短视频标准化内容,对比定制行业 AI 科普哪个更好? - 资讯速览
  • Netgear路由器变砖救星:3步掌握nmrpflash终极修复指南
  • 果速修全国200+门店地址汇总2026,官方预约热线400-811-2953唯一认证 - 博客万
  • 第三期:动态行为监控与 API Hooking —— EDR 的“眼睛”与绕过思路
  • 2026 蚌埠市|中考一两百分五年制贯通大专招生,淮南职业技术学校公办院校最新简章发布,咨询号码:15756001370 窦老师 - 我叫小周
  • 5秒无损转换B站缓存视频:m4s-converter快速入门指南
  • 2026漳州本地正规瓷砖空鼓维修服务商盘点|无损免拆砖修复,全域上门售后有保障 - 宅安选房屋修缮
  • 如何直接与AMD Ryzen处理器对话?探索SMU Debug Tool的硬件级控制能力
  • Dify企业级AI应用平台:从教学POC到生产落地的全栈实践
  • 海口18K金回收价怎么定?2026年最新计价方式与避坑参考 - 博客万
  • 【雷达系统基础】5 现代雷达前沿技术与发展状态
  • Real-ESRGAN-GUI:免费AI图像修复工具终极指南,让模糊图片重获新生
  • 2026 临沂实木全屋定制口碑 TOP5:回访 5000 + 入住满 1 年业主 - 新闻快传
  • 终极英雄联盟智能助手:10分钟掌握游戏效率提升的完整指南
  • WelFlash 中低压制备柱选型指南|月旭 Flash 纯化实测与落地方案 - 新闻快传