收藏!小白程序员轻松入门RAG,构建高质量知识库问答系统
本文全面介绍了RAG(检索增强生成)技术,帮助读者从零开始构建知识库问答系统。内容涵盖RAG概述、核心原理与流程、关键技术详解(中文Embedding模型、向量数据库、混合检索、查询改写、重排序)、产品对比与选型、性能优化与成本控制、安全与合规以及进阶方向。通过学习本文,读者将掌握如何利用RAG技术提升大语言模型的准确性和实用性,并了解相关技术选型和最佳实践。
📚 一、RAG概述
1.1 什么是RAG?
RAG(Retrieval Augmented Generation)全称是检索增强生成,是目前大语言模型(LLM)落地中最实用的技术架构之一。简单来说,在让大模型回答问题之前,先让它去一个知识库里"查资料",然后把查到的资料和问题一起发给大模型,让它基于资料来回答。
RAG的核心流程:
- Indexing(索引):文档分块 → 向量化 → 存储(构建知识库)
- Retrieval(检索):问题向量化 → 相似度检索 → 结果排序
- Generation(生成):组装上下文 → 生成回答
1.2 为什么需要 RAG?
大模型虽然强大,但有两个“先天不足”:
- 知识不是最新的:模型训练好后,知识就定格了,无法知道训练之后发生的事情。
- 不知道你的私有知识:模型不了解你公司的内部文档、你个人的笔记等私密信息。
1.3 什么时候选择RAG?
大模型应用开发的三种模式对比:
| 模式 | 说明 | 适用场景 | 选择优先级 |
| 提示词工程 | 直接向大模型提问,优化问题表述 | 简单交互场景 | ⭐首选 |
| RAG | 提供背景知识,解决领域知识缺乏问题 | 企业知识库问答 | ⭐⭐次选 |
| 微调 | 训练垂类模型 | 基础能力不足时 | ⭐⭐⭐ 最后手段 |
选择逻辑:一般建议优先尝试提示词工程,其次考虑 RAG,最后考虑微调
1.4 RAG的核心价值
- 成本优势:避免直接输入全部文本导致的高计算成本
- 时效性增强:通过连接外部数据源保持信息新鲜度
- 可解释性:提供真实文献来源,增强回答可信度
- 隐私保护:本地预处理数据后仅上传筛选结果
🔧 二、RAG核心原理与流程
阶段一:数据预处理(Indexing)
文档分块策略:
- 规则切分:按chunk_size(推荐:800-1500字符)+ overlap(推荐:10-20%重叠)
- 语义切分:通过大模型分析文本主题进行切分(计算量大但更合理)
- 分隔符**:**使用换行符、句号等标点符号
阶段二:检索(Retrieval)
关键参数:
- K值选择:k越大召回率越高但计算成本增加,需根据实际测试调整
- 上下文限制**:考虑大模型上下文窗口(常见4k-200k tokens,主流模型通常支持128k tokens)**
阶段三:生成(Generation)
🎨 三、关键技术详解
3.1 中文Embedding模型
| 模型 | 特点 | 适用场景 | 维度 | 许可证 |
|---|---|---|---|---|
| Qwen3-8B-Embedding(阿里) | 表现优秀的开源多语言模型,Apache 2.0许可,支持100+语言,32K上下文 | 智能问答系统、企业级语义检索、多语言RAG | 4096 | apache-2.0 |
| BGE-M3(智源) | 多语言支持(超过100种语言),长文本(8K tokens),支持密集/稀疏/多向量检索 | 跨语言、长文档检索,如多语言知识库、法律合同分析 | 1024 | MIT |
| jina-embeddings-v5-text-small | 优秀的质量/大小比,支持119+语言 | 资源受限的端侧应用、追求高性价比的轻量级处理 | 1024 | cc-by-nc-4.0 |
| M3E | 中文轻量优化,中文问答场景召回率比通用模型高18%,支持边缘计算部署(内存3.2GB) | 中文轻量级应用,如本地问答、边缘设备部署 | 768 | Apache License 2.0 |
模型获取渠道:
- 国际:HuggingFace
- 国内:ModelScope魔搭社区
- 在HuggingFace MTEB平台看排行榜
3.2 向量数据库
存储内容:
- 原文存储:保留原始文本片段(通常几百字)
- 向量表达:同时存储embedding(如1024/3072/3584维)
功能特点:
- 支持语义相似度检索
- 提供save、load、find_similarity接口
- 可添加元数据(页码、来源等)
向量数据库对比:
| 数据库 | 类型 | 核心特点 | 适用场景 | 性能表现 | 部署方式 |
|---|---|---|---|---|---|
| FAISS | 开源向量检索库 | 轻量无需服务器,纯本地运行,提供多种 ANN 索引,不支持业务过滤、元数据管理;只是向量检索库,无数据持久化、无租户、无 CRUD 事务 | 单机原型开发、中小规模(<100万向量) | 查询速度极快(ms级),内存占用低 | 本地嵌入 |
| Milvus | 开源分布式向量数据库 | 云原生架构、弹性扩容、多租户、数据持久化、高可用,生态成熟;单节点性能弱于Qdrant;GPU加速为可选增值能力,不是标配 | 企业级生产环境、海量向量(千万~十亿级)、私有化项目、多业务隔离 | 十亿级向量秒级检索,分布式架构承载力强,海量数据稳定检索,支持 GPU/CPU 混合加速 | 私有化集群、K8s、官方云托管 |
| Pinecone | 商业托管向量数据库 | 全托管SaaS、API调用、开箱即用、零运维、自动弹性扩缩容;国内禁用:合规/ 网络 / 数据本地化硬伤,完全不适合私有化、内网项目 | 海外业务、快速产品上线、无运维团队、轻量化云端 RAG | 延迟<100ms,公网正常环境百毫秒级检索,容量越大成本越高 | 纯共有云服务,无私有化 |
| Qdrant | 开源高性能向量数据库 | Rust编写、极致单节点性能、强大元数据过滤、混合检索、轻量化 | 中小生产集群、高并发单节点、需要复杂过滤条件的场景、轻量化部署 | 单节点性能领先、吞吐量高;同硬件配置下单节点性能显著优于 Milvus | 本地/Docker/K8s/私有部署 |
| Weaviate | 开源向量数据库 | 模块化设计、内置AI模型,支持GraphQL,核心优势是知识图谱 + 向量融合 | 需要集成多种AI模型、知识图谱 + 检索结合、低代码 AI 应用 | 中小规模性能优秀,大容量检索性能一般,不适合超大规模十亿级 | 本地/Kubernetes/云 |
| pgvector | PostgreSQL 向量扩展 | 复用 PG 生态、标准 SQL、ACID 事务、支持表关联 Join、数据强一致 | 已有PostgreSQL存量系统、强事务要求、中小数据量轻量化检索 | 百万级向量性能稳定,但是当数据量超过500万时,pgvector 的查询延迟会明显增加,且索引构建时间较长,性能衰减明显;高维 / 亿级场景检索效率较差远低于专业向量库 | PostgreSQL插件,无缝复用现有数据库 |
| Redis Vector | 内存型向量检索组件 | 基于Redis,并非独立数据库。全内存架构、亚毫秒级延迟、超高并发、实时读写、缓存联动;内存成本极高,不适合海量冷数据 | 实时问答、高频更新向量、短向量检索、热点数据缓存 | 并发能力极强、延迟极低,海量持久化数据成本高 | Redis扩展、容器化部署 |
| OpenSearch | 开源全文检索 + 向量融合引擎 | Elasticsearch 分支,原生强全文检索,向量检索为扩展能力,它的强项是混合检索(全文+向量);资源开销大,RAG 轻量化部署不推荐 | 全文关键词 + 向量混合检索、内容资讯、文档全站搜索 | 全文检索极强,纯向量检索性能弱于专业向量库 Milvus/Qdrant | 本地集群/云服务/容器部署 |
选型决策树:
是否需要云托管? ├─ 是 → Pinecone(全托管,国内禁用) └─ 否 → 继续 是否已有PostgreSQL环境? ├─ 是 → pgvector(无缝集成) └─ 否 → 继续 是否为本地开发 / 测试 / 原型验证? ├─ 是 → FAISS └─ 否 → 继续 是否需要极高并发、亚毫秒延迟、实时更新? └─ 是 → Redis Vector(高频实时场景) └─ 否 → 继续 是否需要知识图谱 + 向量融合、多模型模块化集成? ├─ 是 → Weaviate └─ 否 → 按数据规模选型 数据规模? ├─ < 100 万向量 → FAISS / Qdrant(轻量生产) ├─ 100 万 ~ 1 亿向量 │ ├─ 需要强元数据过滤 → Qdrant │ └─ 不需要复杂过滤 → Milvus 单机 └─ > 1 亿向量 / 企业级生产 / 多租户 / 高可用 └─ Milvus 分布式集群 其他: 是否需要全文检索 + 向量混合检索? └─ 是 → OpenSearch3.3 混合检索(Hybrid Retrieval)
为什么需要混合检索?
纯向量检索虽然能捕捉语义相似度,但在以下场景表现不佳:
- 专有名词、型号、ID等精确匹配需求
- 短文本或稀疏内容的语义理解偏差
- 需要关键词权重控制的场景
混合检索架构:
用户查询 ↓ [并行检索] ├─→ 向量检索(语义相似度)→ Top-K1 └─→ 关键词检索(BM25/TF-IDF)→ Top-K2 ↓ [结果融合] ├─ RRF(Reciprocal Rank Fusion) │ 排名倒数融合:Score = Σ(1/(k+rank)) └─ 线性加权融合:Score = α·向量分 + (1-α)·BM25分 ↓ 去重 → 重排序 → Top-N输出常用融合策略:
| 融合方法 | 公式 | 适用场景 | 优点 |
|---|---|---|---|
| RRF | Score = Σ(1/(k+r)) | 多路召回结果排名差异大 | 无需调参,对排名差异敏感 |
| 加权融合 | Score = w₁·S₁ + w₂·S₂ | 有历史数据指导权重调优 | 可自定义权重,灵活可控 |
| 置信度筛选 | 设定阈值过滤低分结果 | 精度要求高的场景 | 减少噪声,提升准确率 |
推荐配置:
- k值:RRF常数k=60(经验值)
- 权重:向量检索权重0.7,关键词检索权重0.3(通用场景)
- Top-K:向量100 + 关键词50 → 融合后Top-20
3.4 查询改写(Query Rewriting)
为什么需要查询改写?
用户原始查询往往存在以下问题:
- 表述模糊、歧义或多义
- 缺少上下文(多轮对话中的指代)
- 专业术语与文档术语不匹配
- 过于简短或冗长
查询改写方法:
1. 查询扩展(Query Expansion)
同义词扩展:
# 示例:将"电脑"扩展为["电脑", "计算机", "PC", "笔记本"] 扩展后查询 = 原查询 + 同义词(来自知识库或WordNet)LLM生成扩展Prompt: "针对查询'{query}',生成5个语义相近的查询变体,保持核心意图" 输出: ["变体1", "变体2", ...]- 多查询生成(Multi-Query)
用户查询: "RAG的性能优化方法" ↓ LLM生成多角度查询 查询1: "RAG系统的向量索引优化" 查询2: "如何降低RAG的推理延迟" 查询3: "RAG检索阶段的成本控制" ↓ 并行检索 合并结果 → 去重 → 重排序3. 查询分解(Query Decomposition)
将复杂查询拆分为子查询:
复杂查询: "比较BERT和GPT在RAG中的应用优劣" ↓ 分解 子查询1: "BERT在RAG中的应用场景" 子查询2: "GPT在RAG中的应用场景" 子查询3: "BERT vs GPT检索增强效果对比" ↓ 分别检索 合并答案 → 综合生成4. 指代消解与上下文补全
多轮对话场景:用户1: "RAG是什么?" 助手: "RAG是检索增强生成..." 用户2: "它有什么优势?" ← "它"指代"RAG" ↓ 改写 完整查询: "RAG(检索增强生成)有什么优势?"实现方案:
| 方法 | 工具/模型 | 适用场景 | 成本 |
|---|---|---|---|
| 基于规则 | 同义词表、正则 | 垂直领域(医疗、法律) | 低 |
| LLM改写 | GPT-4/Qwen | 通用场景、复杂查询 | 中 |
| 混合策略 | 规则+LLM | 生产环境 | 中 |
3.5 重排序(Reranking)
为什么需要重排序?
粗排阶段(向量相似度/BM25)存在局限:
- 仅考虑查询与文档的局部相似度
- 无法捕捉复杂的语义交互
- 对长文档的整体相关性判断不足
两阶段检索架构:
阶段一:粗排(召回) └─ 向量检索/BM25 → Top-100(高召回) ↓ 阶段二:精排(重排序) └─ Cross-Encoder / LLM → Top-5(高精度)重排序模型类型:
| 类型 | 模型 | 原理 | 适用场景 | 延迟 |
|---|---|---|---|---|
| Cross-Encoder | BGE-Reranker, ColBERT | 联合编码查询+文档,计算交互特征 | 对精度要求极高的场景 | 中 |
| LLM重排 | GPT-4, Qwen | 直接让大模型判断相关性并打分 | 复杂语义理解场景 | 高 |
| 轻量级模型 | bge-reranker-base | 蒸馏版Cross-Encoder | 资源受限场景 | 低 |
实现示例(Cross-Encoder):
from sentence_transformers import CrossEncoder # 加载重排序模型 reranker = CrossEncoder('BAAI/bge-reranker-base') # 粗排结果 candidates = ["doc1", "doc2", "doc3", ...] # Top-100 query = "用户查询" # 配对并打分 pairs = [[query, doc] for doc in candidates] scores = reranker.predict(pairs) # 按分数排序,取Top-5 results = sorted(zip(candidates, scores), key=lambda x: x[1], reverse=True)[:5]LLM重排序Prompt示例:
任务:判断文档与用户问题的相关性 评分标准: - 5分:完全相关,直接回答问题 - 4分:高度相关,包含关键信息 - 3分:部分相关,需要推断 - 2分:弱相关,仅背景信息 - 1分:不相关 问题:{query} 文档:{document} 请输出评分(1-5)和简短理由。性能对比:
| 方案 | 召回Top-100精度 | 重排后Top-5精度 | 延迟 |
|---|---|---|---|
| 仅向量检索 | 75% | - | 50ms |
| 向量+Cross-Encoder | 75% | 92% | 150ms |
| 向量+LLM重排 | 75% | 95% | 2000ms |
选型建议:
- 高并发场景**:**使用轻量级Cross-Encoder(bge-reranker-base)
- 极致精度场景:使用LLM重排序(Accept延迟换精度)
- 成本敏感场景**:先使用向量相似度,仅对边界case启用重排**
3.6 LangChain问答链类型
| Chain类型 | 说明 | 调用次数 | 适用场景 |
|---|---|---|---|
| Stuff | 一次性将所有内容放入上下文 | 1次 | 知识片段少(2-3个chunk),成本最低 |
| Map_Reduce | 并行处理多个chunk后合成结果 | N+1次 | 长文档,成本高 |
| Refine | 迭代优化,基于第一个chunk生成,后续逐步优化 | N次 | 长文档,比Map Reduce节约资源 |
| Map_Rank | 对结果进行筛选评分,自动选择最优答案 | 多评分 | 精度要求高的场景 |
🔍 四、产品对比与选型
| 产品 | 定位 | 特点 | 适用场景 |
|---|---|---|---|
| NotebookLM(谷歌) | 商业产品 | 答案质量高,自动预处理(文档概览+关键词),召回策略优秀 | 不涉密场景,参考标杆 |
| Dify/Coze | 开源 | 可视化配置,全托管方案 | 快速部署,中小企业 |
| Cherry Studio | 开源客户端 | 国内可用,工具链接平台 | 快速搭建可视化客户端 |
| Qwen-Agent | 开源框架 | 集成RAG核心策略,可扩展 | 私有化部署,需二次开发 |
| LangChain + FAISS | 自研方案 | 最灵活,可深度定制 | 技术团队强,深度定制需求 |
选型建议:
- 数据安全性要求高(如上市公司):选择私有化部署方案(Qwen-Agent/LangChain自研)
- 快速验证/非敏感数据:使用NotebookLM(质量标杆)
- 无开发资源:选择Dify商业版或Coze企业版
💪 五、性能优化与成本控制
5.1 性能优化策略
5.1.1 向量索引优化
| 索引类型 | 适用场景 | 构建时间 | 查询速度 | 精度 |
|---|---|---|---|---|
| Flat (暴力搜索) | 小规模数据 (<10k) | 快 | 慢 | 100% |
| IVF (倒排文件) | 中等规模数据 | 中等 | 快 | 95-99% |
| HNSW (可导航小世界) | 大规模数据 | 慢 | 极快 | 90-95% |
| PQ (乘积量化) | 内存受限场景 | 中等 | 快 | 85-90% |
注:数据为典型场景参考值,实际表现因数据特征而异
建议配置:
- 数据量 < 10万:使用HNSW,ef_construction=200,M=16
- 数据量 > 100万:使用IVF + PQ组合
- 内存受限:使用PQ降低内存占用
5.1.2 缓存策略
三级缓存架构:
用户查询 ↓ [查询缓存] → 精确匹配 → 直接返回(最快) ↓ 未命中 [语义缓存] → 相似度 > 0.95 → 复用结果 ↓ 未命中 [向量检索] → 执行检索流程缓存实现:
- Redis存储查询缓存(TTL 1小时)
- 向量数据库支持近似查询缓存
- 预计算热门问题(Top 100 FAQ)
5.2 成本控制
5.2.1 Embedding成本优化
| 模型 | 维度 | 精度 | 推理速度 | 成本(每百万token) |
|---|---|---|---|---|
| BGE-M3(智源) | 1024 | 高 | 快 | 免费(本地) |
| Qwen3-8B-Embedding(阿里) | 4096 | 极高 | 中等 | 免费(需GPU) |
| jina-embedding-v5-text-small | 1024 | 中 | 极快 | 免费 |
| M3E | 768 | 中 | 极快 | 免费(轻量级) |
策略建议:
- 开发测试阶段:使用轻量级模型(M3E或jina-embedding-v5-text-small)
- 生产环境:使用BGE-M3(本地部署零成本,支持多语言)
- 高精度场景:对关键查询使用Qwen3-8B-Embedding(支持32K上下文)
- 中文优化场景:优先选择M3E(中文召回率提升18%)
5.2.2 Token消耗优化
分块成本计算公式:
单次查询成本 = 查询向量化 + 上下文长度 + 生成输出 = 500 tokens + (k × chunk_size) + 1000 tokens优化措施:
- 动态k值:简单问题k=2,复杂问题k=5
- 摘要压缩:对长chunk生成摘要,只保留关键句
- 分层检索:先检索文档摘要,再深入相关章节
- 本地LLM:简单问题使用7B本地模型,复杂问题调用GPT-4
5.2.3 混合成本策略
┌────────────────────────────────────────┐ │ 查询分类器 │ │ 简单问题 ──→ 本地 7B 模型(成本:0) │ │ 中等问题 ──→ GPT-3.5(成本:低) │ │ 复杂问题 ──→ GPT-4(成本:高) │ └────────────────────────────────────────┘成本监控仪表板:
- 每查询平均 token 消耗
- 每查询平均成本
- 缓存命中率
- 各模型调用比例
🔒 六、安全与合规
6.1 数据安全
6.1.1 敏感信息保护
PII(个人身份信息)检测与过滤:
- 身份证号、手机号、银行卡号正则匹配
- 使用Presidio或自定义规则检测敏感信息
- 对敏感文档实施访问控制
代码示例:
import re # 示例:敏感信息脱敏 def desensitize(text): # 手机号:138****8888 text = re.sub(r'(\d{3})\d{4}(\d{4})', r'\1****\2', text) # 身份证号:310***********1234 text = re.sub(r'(\d{3})\d{12}(\d{4})', r'\1************\2', text) return text6.1.2 访问控制
权限分级:
| 角色 | 知识库范围 | 操作权限 |
|---|---|---|
| 管理员 | 全部 | 增删改查、配置修改 |
| 普通用户 | 授权范围 | 查询、反馈 |
| 访客 | 公开知识库 | 查询(限制频率) |
技术实现:
- JWT Token认证
- RBAC(基于角色的访问控制)
- API速率限制(Rate Limiting)
6.2 内容安全
6.2.1 幻觉缓解策略
多层次校验:
- 检索层:确保召回内容相关性 > 0.8
- 生成层:Prompt中强调"仅基于上下文回答"
- 校验层:抽取生成答案中的事实,与原文比对
- 人工层:关键问题添加人工审核节点
置信度评分:
置信度评分 = 检索相关性 × 来源可信度 × 生成质量 # 检索相关性,量化方法: 余弦相似度, 例如:0.92 # 来源可信度,量化方法: 文档权威性评分, 例如:0.85 # 生成质量,量化方法: 事实一致性检测, 例如:0.88代码示例:
# 实际的置信度计算 retrieval_score = 0.92 # 检索相关性 source_credibility = 0.85 # 来源可信度 generation_quality = 0.88 # 生成质量 # 方法1:乘积(简单但可能过于严格) confidence = retrieval_score * source_credibility * generation_quality # 结果:0.92 × 0.85 × 0.88 = 0.68 # 方法2:加权平均(更合理) confidence = 0.4×retrieval_score + 0.3×source_credibility + 0.3×generation_quality # 结果:0.4×0.92 + 0.3×0.85 + 0.3×0.88 = 0.88 # 方法3:取最小值(最保守) confidence = min(retrieval_score, source_credibility, generation_quality) # 结果:0.856.2.2 有害内容过滤
分类过滤:
- 暴力/色情内容:直接拦截
- 歧视性内容:添加免责声明
- 投资建议:添加风险提示
- 医疗建议:建议咨询专业人士
技术方案:
- 使用内容审核 API(阿里云、腾讯云)
- 关键词黑名单
- 语义相似度检测(与有害样本库比对)
6.3 合规要求
6.3.1 数据隐私合规
GDPR/CCPA合规:
- 用户数据同意机制
- 数据删除权(Right to be Forgotten)
- 数据导出权
- 隐私政策披露
- 建议遵循当地数据保护法规
实施要点:
记录数据使用日志
支持用户查询个人数据
支持用户删除个人数据
定期删除过期数据
6.3.2 国产化部署选项
| 组件 | 开源/国产替代方案 |
|---|---|
| LLM | Qwen、ChatGLM、文心一言 |
| Embedding | BGE-M3(智源)、GTE(阿里) |
| 向量数据库 | Milvus(开源)、Faiss(Meta) |
| 云服务 | 阿里云、华为云、腾讯云 |
完全离线的部署方案:
Qwen2-7B(本地) + BGE-M3(本地) + Milvus(本地)🚀 七、进阶方向
7.1 Graph RAG
结合知识图谱与RAG,支持复杂推理和关系检索。
7.2 多模态RAG
支持图像、音频、视频等非文本内容的检索与生成。
7.3 Agentic RAG
RAG与Agent结合,支持工具调用、多轮规划和自主决策。
7.4 RAG评估自动化
建立完整的评估流水线,持续监控系统效果。
最后
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?
答案只有一个:人工智能(尤其是大模型方向)
当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右。
再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。
对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。
如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!
下面是我整理的大模型学习资源,希望能帮到你。
👇👇扫码免费领取全部内容👇👇
1、大模型学习路线
2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。
3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)
4、AI大模型最新行业报告
2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5、面试试题/经验
【大厂 AI 岗位面经分享(107 道)】
【AI 大模型面试真题(102 道)】
【LLMs 面试真题(97 道)】
6、大模型项目实战&配套源码
适用人群
四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身:基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例:如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…
👇👇扫码免费领取全部内容👇👇
3、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
