当前位置：首页 > news >正文

公司知识库全传太贵？RAG 只给 Claude 看几段

news 2026/6/21 16:37:18

你问 Claude"我们的退款流程是什么?"，它不知道，因为大模型训练结束后知识就固定了，你公司内部的文档它一概不知道。

直接把公司知识库都塞进对话？几百页文档几十万 token，每次提问都要带着，既贵又慢，还会撑爆 Context Window。

RAG 的解法：每次提问时只捞出相关的几段，而不是全部塞进去。

RAG 的完整流程

RAG 分两个阶段：入库（只做一次）和检索（每次提问时）。

阶段一：入库

你的文档（PDF、Word、数据库记录...） ↓ 切块（把长文档切成几百字的小段，太长语义会稀释，太短上下文不足） ↓ 送进 Embedding 模型（每段文字 → 一个高维向量，如 1536 维的浮点数组） ↓ 写入向量数据库（存：向量 + 原始文本 + 来源信息）

数据更新时重新跑一遍，平时不需要动。

阶段二：检索

用户提问："怎么退款？" → 同一个 Embedding 模型把问题也转成向量 → 在向量数据库里做近似最近邻搜索（ANN），找语义最相近的 3~5 段内容 → 把这几段原文 + 用户问题拼成 prompt → 发给 Claude → Claude 基于这几段内容回答

Embedding 是什么

先说向量。地图上的位置可以用两个数字表示：(纬度, 经度)，比如北京是 (39.9, 116.4)。加上海拔就变成三维：(39.9, 116.4, 43.0)。维度可以继续增加，每个维度代表一个属性。

Embedding 做的事情相同，只是把文字映射到一个 1536 维的空间里——每个维度代表某种语义特征，比如"与金融相关程度"、“与流程相关程度”……模型训练完成后，知道怎么把文字转成这 1536 个数字。

关键性质：语义相近的文字，坐标也相近。

简化示意（实际是 1536 维）：

「怎么退款」 → [0.82, 0.71, -0.34, ...]「退货流程说明」 → [0.79, 0.68, -0.31, ...] ← 数值接近，语义相近「公司年会安排」 → [0.12, 0.95, 0.87, ...] ← 数值差远，语义不相关

检索时，把用户问题也转成坐标，找距离最近的几个——语义最相关的几段就找出来了。

这也是向量搜索和关键词搜索的区别：「怎么退款」和「退货流程说明」，关键词不同，但坐标相近，向量搜索能命中；关键词搜索找「退款」，库里存的是「退货」就查不到。

入库和查询必须用同一个 Embedding 模型，否则向量空间不同，相似度计算没有意义。

常用 Embedding 模型：

模型	提供方	维度	特点
text-embedding-3-small	OpenAI	1536	便宜，够用
text-embedding-3-large	OpenAI	3072	精度更高
bge-m3	BAAI（开源）	1024	支持中文，可本地部署

Claude 系列暂无 Embedding 模型，用 Claude 做 RAG 时 Embedding 通常用 OpenAI 或开源模型。

向量数据库存什么

每条记录包含三部分：

向量：由 Embedding 模型生成，用于相似度计算
原始文本：检索命中后塞进 prompt 的实际内容
metadata：来源文件、页码、时间等，用于过滤和溯源

原文："我们的服务部署在 K8s 上，每次发版需要审批" → Embedding 模型处理 → [0.023, -0.187, 0.641, ...]（1536 个浮点数） → 存入向量数据库，附带原文和来源信息

常用向量数据库：

数据库	定位	适合场景
Chroma	开源轻量	本地开发，零配置
pgvector	PostgreSQL 扩展	已有 PG 的项目，无需引入新系统
Pinecone	云托管	快速上线，无需运维
Qdrant	开源，Rust 编写	性能好，适合自托管
Weaviate	开源，可自托管	支持混合搜索（向量 + 关键词），内置 embedding 模块
Milvus	开源，大规模	亿级向量，企业场景

个人项目用 Chroma；已有 PostgreSQL 用 pgvector；生产规模大用 Pinecone。

RAG 消耗什么 token

检索步骤发生在你自己的服务器，Anthropic 不参与、不计费。检索到的文档片段塞进 prompt 后，按正常输入 token 计费。

用户请求 → 你的服务器（向量检索，不计费） → 查到 3 段相关文档，拼成 prompt → 发给 Anthropic（开始计费） → 输入 token：system prompt + 历史 + 3 段文档 + 问题 → 输出 token：Claude 生成的回答

RAG 省的是那些不相关的文档 token——从每次带着整本手册，缩减为只传相关的几段。

注意：RAG 不是 Claude Code 内置功能

Claude Code 本身没有 RAG，它直接用Read/Glob/Grep工具读文件。 RAG 是你用 Claude API自己开发应用时的架构模式，适合做企业内部知识库问答、产品文档助手、客服机器人、历史工单智能支持等。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～