当前位置: 首页 > news >正文

公司知识库全传太贵?RAG 只给 Claude 看几段

你问 Claude"我们的退款流程是什么?",它不知道,因为大模型训练结束后知识就固定了,你公司内部的文档它一概不知道。

直接把公司知识库都塞进对话?几百页文档几十万 token,每次提问都要带着,既贵又慢,还会撑爆 Context Window。

RAG 的解法:每次提问时只捞出相关的几段,而不是全部塞进去。

RAG 的完整流程

RAG 分两个阶段:入库(只做一次)和检索(每次提问时)。

阶段一:入库

你的文档(PDF、Word、数据库记录...) ↓ 切块(把长文档切成几百字的小段,太长语义会稀释,太短上下文不足) ↓ 送进 Embedding 模型(每段文字 → 一个高维向量,如 1536 维的浮点数组) ↓ 写入向量数据库(存:向量 + 原始文本 + 来源信息)

数据更新时重新跑一遍,平时不需要动。

阶段二:检索

用户提问:"怎么退款?" → 同一个 Embedding 模型把问题也转成向量 → 在向量数据库里做近似最近邻搜索(ANN),找语义最相近的 3~5 段内容 → 把这几段原文 + 用户问题拼成 prompt → 发给 Claude → Claude 基于这几段内容回答

Embedding 是什么

先说向量。地图上的位置可以用两个数字表示:(纬度, 经度),比如北京是 (39.9, 116.4)。加上海拔就变成三维:(39.9, 116.4, 43.0)。维度可以继续增加,每个维度代表一个属性。

Embedding 做的事情相同,只是把文字映射到一个 1536 维的空间里——每个维度代表某种语义特征,比如"与金融相关程度"、“与流程相关程度”……模型训练完成后,知道怎么把文字转成这 1536 个数字。

关键性质:语义相近的文字,坐标也相近。

简化示意(实际是 1536 维):

「怎么退款」 → [0.82, 0.71, -0.34, ...]「退货流程说明」 → [0.79, 0.68, -0.31, ...] ← 数值接近,语义相近「公司年会安排」 → [0.12, 0.95, 0.87, ...] ← 数值差远,语义不相关

检索时,把用户问题也转成坐标,找距离最近的几个——语义最相关的几段就找出来了。

这也是向量搜索和关键词搜索的区别:「怎么退款」和「退货流程说明」,关键词不同,但坐标相近,向量搜索能命中;关键词搜索找「退款」,库里存的是「退货」就查不到。

入库和查询必须用同一个 Embedding 模型,否则向量空间不同,相似度计算没有意义。

常用 Embedding 模型:

模型提供方维度特点
text-embedding-3-smallOpenAI1536便宜,够用
text-embedding-3-largeOpenAI3072精度更高
bge-m3BAAI(开源)1024支持中文,可本地部署

Claude 系列暂无 Embedding 模型,用 Claude 做 RAG 时 Embedding 通常用 OpenAI 或开源模型。

向量数据库存什么

每条记录包含三部分:

  • 向量:由 Embedding 模型生成,用于相似度计算
  • 原始文本:检索命中后塞进 prompt 的实际内容
  • metadata:来源文件、页码、时间等,用于过滤和溯源
原文:"我们的服务部署在 K8s 上,每次发版需要审批" → Embedding 模型处理 → [0.023, -0.187, 0.641, ...](1536 个浮点数) → 存入向量数据库,附带原文和来源信息

常用向量数据库:

数据库定位适合场景
Chroma开源轻量本地开发,零配置
pgvectorPostgreSQL 扩展已有 PG 的项目,无需引入新系统
Pinecone云托管快速上线,无需运维
Qdrant开源,Rust 编写性能好,适合自托管
Weaviate开源,可自托管支持混合搜索(向量 + 关键词),内置 embedding 模块
Milvus开源,大规模亿级向量,企业场景

个人项目用 Chroma;已有 PostgreSQL 用 pgvector;生产规模大用 Pinecone。

RAG 消耗什么 token

检索步骤发生在你自己的服务器,Anthropic 不参与、不计费。检索到的文档片段塞进 prompt 后,按正常输入 token 计费。

用户请求 → 你的服务器(向量检索,不计费) → 查到 3 段相关文档,拼成 prompt → 发给 Anthropic(开始计费) → 输入 token:system prompt + 历史 + 3 段文档 + 问题 → 输出 token:Claude 生成的回答

RAG 省的是那些不相关的文档 token——从每次带着整本手册,缩减为只传相关的几段。

注意:RAG 不是 Claude Code 内置功能

Claude Code 本身没有 RAG,它直接用Read/Glob/Grep工具读文件。 RAG 是你用 Claude API自己开发应用时的架构模式,适合做企业内部知识库问答、产品文档助手、客服机器人、历史工单智能支持等。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/751144/

相关文章:

  • Boss-Key老板键:5分钟掌握Windows窗口隐私保护终极方案
  • P1205 方块转换 Transformations【洛谷算法习题】
  • ESP32智能网络收音机终极指南:用YoRadio打造你的个性化音频中心 [特殊字符]
  • d2s-editor:5分钟学会用开源工具安全修改暗黑破坏神2存档
  • 5分钟快速上手PlayCover:在Mac上完美运行iOS游戏和应用
  • 5分钟完成Degrees of Lewdity视觉美化:零基础玩家的终极指南
  • 告别配置混乱:用Python脚本自动化处理Autosar CAN通信的DBC与Excel信号表
  • 7步精通:网盘直链解析工具LinkSwift技术深度解析
  • Video2X:零基础入门AI视频超分辨率与帧插值完整指南
  • 新手避坑指南:识别W底、头肩底时,90%的人都会忽略的5个细节(以A股为例)
  • Notepad--跨平台文本编辑器文件关联机制技术解析
  • Speechless:一键备份微博到PDF的终极Chrome扩展指南
  • QuickBMS:3大场景解锁游戏资源提取的万能钥匙
  • MASA模组全家桶中文汉化包:终极指南让Minecraft技术模组无障碍使用
  • 终极指南:如何用耶鲁OpenHand开源机械手构建低成本机器人抓取系统
  • Bandgap设计避坑指南:为什么你的PSR不达标?从Cascode电流镜到启动电路的细节剖析
  • Hitboxer:5分钟打造零冲突游戏键盘的终极SOCD解决方案
  • 在 Claude Code 中配置 Taotoken 作为 Anthropic 兼容通道的详细步骤
  • 工作站虚拟化如何保障数据安全?设计图纸不再外泄
  • 在统信UOS上编译Qt5.12.8源码,我踩过的那些坑和高效配置方案
  • 【.NET 9边缘部署黄金法则】:5步实现ARM64设备零故障跨平台上线(20年微软生态实战验证)
  • 甘肃鸿旺发资源回收:红古正规的变压器回收怎么联系 - LYL仔仔
  • C++STL:list(双链表)的底层实现 部分源码解析
  • 网页小游戏
  • 金融学论文降AI工具免费推荐:2026年财经类毕业论文4.8元极速降AI知网通过完整指南 - 还在做实验的师兄
  • CPUDoc:3大核心功能解锁CPU隐藏性能,让你的电脑快如闪电
  • 创业团队如何通过Taotoken管理多个AI项目的API成本
  • 3分钟搞定远程游戏手柄:RdpGamepad终极解决方案
  • 工作站虚拟化与普通桌面云有什么区别?
  • Python heapq实战:用内置小顶堆搞定Top K问题(附LeetCode真题)