当前位置：首页 > news >正文

收藏！小白程序员轻松入门RAG，构建高质量知识库问答系统

news 2026/5/8 12:14:42

本文全面介绍了RAG（检索增强生成）技术，帮助读者从零开始构建知识库问答系统。内容涵盖RAG概述、核心原理与流程、关键技术详解（中文Embedding模型、向量数据库、混合检索、查询改写、重排序）、产品对比与选型、性能优化与成本控制、安全与合规以及进阶方向。通过学习本文，读者将掌握如何利用RAG技术提升大语言模型的准确性和实用性，并了解相关技术选型和最佳实践。

📚 一、RAG概述

1.1 什么是RAG？

RAG（Retrieval Augmented Generation）全称是检索增强生成，是目前大语言模型（LLM）落地中最实用的技术架构之一。简单来说，在让大模型回答问题之前，先让它去一个知识库里"查资料"，然后把查到的资料和问题一起发给大模型，让它基于资料来回答。

RAG的核心流程：

Indexing（索引）：文档分块 → 向量化 → 存储（构建知识库）
Retrieval（检索）：问题向量化 → 相似度检索 → 结果排序
Generation（生成）：组装上下文 → 生成回答

1.2 为什么需要 RAG？

大模型虽然强大，但有两个“先天不足”：

知识不是最新的：模型训练好后，知识就定格了，无法知道训练之后发生的事情。
不知道你的私有知识：模型不了解你公司的内部文档、你个人的笔记等私密信息。

1.3 什么时候选择RAG？

大模型应用开发的三种模式对比：

模式	说明	适用场景	选择优先级
提示词工程	直接向大模型提问，优化问题表述	简单交互场景	⭐首选
RAG	提供背景知识，解决领域知识缺乏问题	企业知识库问答	⭐⭐次选
微调	训练垂类模型	基础能力不足时	⭐⭐⭐ 最后手段

选择逻辑：一般建议优先尝试提示词工程，其次考虑 RAG，最后考虑微调

1.4 RAG的核心价值

成本优势：避免直接输入全部文本导致的高计算成本
时效性增强：通过连接外部数据源保持信息新鲜度
可解释性：提供真实文献来源，增强回答可信度
隐私保护：本地预处理数据后仅上传筛选结果

🔧 二、RAG核心原理与流程

阶段一：数据预处理（Indexing）

文档分块策略：

规则切分：按chunk_size（推荐：800-1500字符）+ overlap（推荐：10-20%重叠）
语义切分：通过大模型分析文本主题进行切分（计算量大但更合理）
分隔符**：**使用换行符、句号等标点符号

阶段二：检索（Retrieval）

关键参数：

K值选择：k越大召回率越高但计算成本增加，需根据实际测试调整
上下文限制**：考虑大模型上下文窗口（常见4k-200k tokens，主流模型通常支持128k tokens）**

阶段三：生成（Generation）

🎨 三、关键技术详解

3.1 中文Embedding模型

模型	特点	适用场景	维度	许可证
Qwen3-8B-Embedding（阿里）	表现优秀的开源多语言模型，Apache 2.0许可，支持100+语言，32K上下文	智能问答系统、企业级语义检索、多语言RAG	4096	apache-2.0
BGE-M3（智源）	多语言支持（超过100种语言），长文本（8K tokens），支持密集/稀疏/多向量检索	跨语言、长文档检索，如多语言知识库、法律合同分析	1024	MIT
jina-embeddings-v5-text-small	优秀的质量/大小比，支持119+语言	资源受限的端侧应用、追求高性价比的轻量级处理	1024	cc-by-nc-4.0
M3E	中文轻量优化，中文问答场景召回率比通用模型高18%，支持边缘计算部署（内存3.2GB）	中文轻量级应用，如本地问答、边缘设备部署	768	Apache License 2.0

模型获取渠道：

国际：HuggingFace
国内：ModelScope魔搭社区
在HuggingFace MTEB平台看排行榜

3.2 向量数据库

存储内容：

原文存储：保留原始文本片段（通常几百字）
向量表达：同时存储embedding（如1024/3072/3584维）

功能特点：

支持语义相似度检索
提供save、load、find_similarity接口
可添加元数据（页码、来源等）

向量数据库对比：

数据库	类型	核心特点	适用场景	性能表现	部署方式
FAISS	开源向量检索库	轻量无需服务器，纯本地运行，提供多种 ANN 索引，不支持业务过滤、元数据管理；只是向量检索库，无数据持久化、无租户、无 CRUD 事务	单机原型开发、中小规模（<100万向量）	查询速度极快（ms级），内存占用低	本地嵌入
Milvus	开源分布式向量数据库	云原生架构、弹性扩容、多租户、数据持久化、高可用，生态成熟；单节点性能弱于Qdrant；GPU加速为可选增值能力，不是标配	企业级生产环境、海量向量（千万～十亿级）、私有化项目、多业务隔离	十亿级向量秒级检索，分布式架构承载力强，海量数据稳定检索，支持 GPU/CPU 混合加速	私有化集群、K8s、官方云托管
Pinecone	商业托管向量数据库	全托管SaaS、API调用、开箱即用、零运维、自动弹性扩缩容；国内禁用：合规/ 网络 / 数据本地化硬伤，完全不适合私有化、内网项目	海外业务、快速产品上线、无运维团队、轻量化云端 RAG	延迟<100ms，公网正常环境百毫秒级检索，容量越大成本越高	纯共有云服务，无私有化
Qdrant	开源高性能向量数据库	Rust编写、极致单节点性能、强大元数据过滤、混合检索、轻量化	中小生产集群、高并发单节点、需要复杂过滤条件的场景、轻量化部署	单节点性能领先、吞吐量高；同硬件配置下单节点性能显著优于 Milvus	本地/Docker/K8s/私有部署
Weaviate	开源向量数据库	模块化设计、内置AI模型，支持GraphQL，核心优势是知识图谱 + 向量融合	需要集成多种AI模型、知识图谱 + 检索结合、低代码 AI 应用	中小规模性能优秀，大容量检索性能一般，不适合超大规模十亿级	本地/Kubernetes/云
pgvector	PostgreSQL 向量扩展	复用 PG 生态、标准 SQL、ACID 事务、支持表关联 Join、数据强一致	已有PostgreSQL存量系统、强事务要求、中小数据量轻量化检索	百万级向量性能稳定，但是当数据量超过500万时，pgvector 的查询延迟会明显增加，且索引构建时间较长，性能衰减明显；高维 / 亿级场景检索效率较差远低于专业向量库	PostgreSQL插件，无缝复用现有数据库
Redis Vector	内存型向量检索组件	基于Redis，并非独立数据库。全内存架构、亚毫秒级延迟、超高并发、实时读写、缓存联动；内存成本极高，不适合海量冷数据	实时问答、高频更新向量、短向量检索、热点数据缓存	并发能力极强、延迟极低，海量持久化数据成本高	Redis扩展、容器化部署
OpenSearch	开源全文检索 + 向量融合引擎	Elasticsearch 分支，原生强全文检索，向量检索为扩展能力，它的强项是混合检索（全文+向量）；资源开销大，RAG 轻量化部署不推荐	全文关键词 + 向量混合检索、内容资讯、文档全站搜索	全文检索极强，纯向量检索性能弱于专业向量库 Milvus/Qdrant	本地集群/云服务/容器部署

选型决策树：

是否需要云托管？ ├─ 是 → Pinecone（全托管，国内禁用） └─ 否 → 继续 是否已有PostgreSQL环境？ ├─ 是 → pgvector（无缝集成） └─ 否 → 继续 是否为本地开发 / 测试 / 原型验证？ ├─ 是 → FAISS └─ 否 → 继续 是否需要极高并发、亚毫秒延迟、实时更新？ └─ 是 → Redis Vector（高频实时场景） └─ 否 → 继续 是否需要知识图谱 + 向量融合、多模型模块化集成？ ├─ 是 → Weaviate └─ 否 → 按数据规模选型 数据规模？ ├─ < 100 万向量 → FAISS / Qdrant（轻量生产） ├─ 100 万 ~ 1 亿向量 │ ├─ 需要强元数据过滤 → Qdrant │ └─ 不需要复杂过滤 → Milvus 单机 └─ > 1 亿向量 / 企业级生产 / 多租户 / 高可用 └─ Milvus 分布式集群 其他： 是否需要全文检索 + 向量混合检索？ └─ 是 → OpenSearch

3.3 混合检索（Hybrid Retrieval）

为什么需要混合检索？

纯向量检索虽然能捕捉语义相似度，但在以下场景表现不佳：

专有名词、型号、ID等精确匹配需求
短文本或稀疏内容的语义理解偏差
需要关键词权重控制的场景

混合检索架构：

用户查询 ↓ [并行检索] ├─→ 向量检索（语义相似度）→ Top-K1 └─→ 关键词检索（BM25/TF-IDF）→ Top-K2 ↓ [结果融合] ├─ RRF（Reciprocal Rank Fusion） │ 排名倒数融合：Score = Σ(1/(k+rank)) └─ 线性加权融合：Score = α·向量分 + (1-α)·BM25分 ↓ 去重 → 重排序 → Top-N输出

常用融合策略：

融合方法	公式	适用场景	优点
RRF	Score = Σ(1/(k+r))	多路召回结果排名差异大	无需调参，对排名差异敏感
加权融合	Score = w₁·S₁ + w₂·S₂	有历史数据指导权重调优	可自定义权重，灵活可控
置信度筛选	设定阈值过滤低分结果	精度要求高的场景	减少噪声，提升准确率

推荐配置：

k值：RRF常数k=60（经验值）
权重：向量检索权重0.7，关键词检索权重0.3（通用场景）
Top-K：向量100 + 关键词50 → 融合后Top-20

3.4 查询改写（Query Rewriting）

为什么需要查询改写？

用户原始查询往往存在以下问题：

表述模糊、歧义或多义
缺少上下文（多轮对话中的指代）
专业术语与文档术语不匹配
过于简短或冗长

查询改写方法：

1. 查询扩展（Query Expansion）

同义词扩展：

# 示例：将"电脑"扩展为["电脑", "计算机", "PC", "笔记本"] 扩展后查询 = 原查询 + 同义词（来自知识库或WordNet）

LLM生成扩展

Prompt: "针对查询'{query}'，生成5个语义相近的查询变体，保持核心意图" 输出: ["变体1", "变体2", ...]

多查询生成（Multi-Query）

用户查询: "RAG的性能优化方法" ↓ LLM生成多角度查询 查询1: "RAG系统的向量索引优化" 查询2: "如何降低RAG的推理延迟" 查询3: "RAG检索阶段的成本控制" ↓ 并行检索 合并结果 → 去重 → 重排序

3. 查询分解（Query Decomposition）

将复杂查询拆分为子查询：

复杂查询: "比较BERT和GPT在RAG中的应用优劣" ↓ 分解 子查询1: "BERT在RAG中的应用场景" 子查询2: "GPT在RAG中的应用场景" 子查询3: "BERT vs GPT检索增强效果对比" ↓ 分别检索 合并答案 → 综合生成

4. 指代消解与上下文补全

多轮对话场景：

用户1: "RAG是什么？" 助手: "RAG是检索增强生成..." 用户2: "它有什么优势？" ← "它"指代"RAG" ↓ 改写 完整查询: "RAG（检索增强生成）有什么优势？"

实现方案：

方法	工具/模型	适用场景	成本
基于规则	同义词表、正则	垂直领域（医疗、法律）	低
LLM改写	GPT-4/Qwen	通用场景、复杂查询	中
混合策略	规则+LLM	生产环境	中

3.5 重排序（Reranking）

为什么需要重排序？

粗排阶段（向量相似度/BM25）存在局限：

仅考虑查询与文档的局部相似度
无法捕捉复杂的语义交互
对长文档的整体相关性判断不足

两阶段检索架构：

阶段一：粗排（召回） └─ 向量检索/BM25 → Top-100（高召回） ↓ 阶段二：精排（重排序） └─ Cross-Encoder / LLM → Top-5（高精度）

重排序模型类型：

类型	模型	原理	适用场景	延迟
Cross-Encoder	BGE-Reranker, ColBERT	联合编码查询+文档，计算交互特征	对精度要求极高的场景	中
LLM重排	GPT-4, Qwen	直接让大模型判断相关性并打分	复杂语义理解场景	高
轻量级模型	bge-reranker-base	蒸馏版Cross-Encoder	资源受限场景	低

实现示例（Cross-Encoder）：

from sentence_transformers import CrossEncoder # 加载重排序模型 reranker = CrossEncoder('BAAI/bge-reranker-base') # 粗排结果 candidates = ["doc1", "doc2", "doc3", ...] # Top-100 query = "用户查询" # 配对并打分 pairs = [[query, doc] for doc in candidates] scores = reranker.predict(pairs) # 按分数排序，取Top-5 results = sorted(zip(candidates, scores), key=lambda x: x[1], reverse=True)[:5]

LLM重排序Prompt示例：

任务：判断文档与用户问题的相关性 评分标准： - 5分：完全相关，直接回答问题 - 4分：高度相关，包含关键信息 - 3分：部分相关，需要推断 - 2分：弱相关，仅背景信息 - 1分：不相关 问题：{query} 文档：{document} 请输出评分（1-5）和简短理由。

性能对比：

方案	召回Top-100精度	重排后Top-5精度	延迟
仅向量检索	75%	-	50ms
向量+Cross-Encoder	75%	92%	150ms
向量+LLM重排	75%	95%	2000ms

选型建议：

高并发场景**：**使用轻量级Cross-Encoder（bge-reranker-base）
极致精度场景：使用LLM重排序（Accept延迟换精度）
成本敏感场景**：先使用向量相似度，仅对边界case启用重排**

3.6 LangChain问答链类型

Chain类型	说明	调用次数	适用场景
Stuff	一次性将所有内容放入上下文	1次	知识片段少（2-3个chunk），成本最低
Map_Reduce	并行处理多个chunk后合成结果	N+1次	长文档，成本高
Refine	迭代优化，基于第一个chunk生成，后续逐步优化	N次	长文档，比Map Reduce节约资源
Map_Rank	对结果进行筛选评分，自动选择最优答案	多评分	精度要求高的场景

🔍 四、产品对比与选型

产品	定位	特点	适用场景
NotebookLM（谷歌）	商业产品	答案质量高，自动预处理（文档概览+关键词），召回策略优秀	不涉密场景，参考标杆
Dify/Coze	开源	可视化配置，全托管方案	快速部署，中小企业
Cherry Studio	开源客户端	国内可用，工具链接平台	快速搭建可视化客户端
Qwen-Agent	开源框架	集成RAG核心策略，可扩展	私有化部署，需二次开发
LangChain + FAISS	自研方案	最灵活，可深度定制	技术团队强，深度定制需求

选型建议：

数据安全性要求高（如上市公司）：选择私有化部署方案（Qwen-Agent/LangChain自研）
快速验证/非敏感数据：使用NotebookLM（质量标杆）
无开发资源：选择Dify商业版或Coze企业版

💪 五、性能优化与成本控制

5.1 性能优化策略

5.1.1 向量索引优化

索引类型	适用场景	构建时间	查询速度	精度
Flat (暴力搜索)	小规模数据 (<10k)	快	慢	100%
IVF (倒排文件)	中等规模数据	中等	快	95-99%
HNSW (可导航小世界)	大规模数据	慢	极快	90-95%
PQ (乘积量化)	内存受限场景	中等	快	85-90%

注：数据为典型场景参考值，实际表现因数据特征而异

建议配置：

数据量 < 10万：使用HNSW，ef_construction=200，M=16
数据量 > 100万：使用IVF + PQ组合
内存受限：使用PQ降低内存占用

5.1.2 缓存策略

三级缓存架构：

用户查询 ↓ [查询缓存] → 精确匹配 → 直接返回（最快） ↓ 未命中 [语义缓存] → 相似度 > 0.95 → 复用结果 ↓ 未命中 [向量检索] → 执行检索流程

缓存实现：

Redis存储查询缓存（TTL 1小时）
向量数据库支持近似查询缓存
预计算热门问题（Top 100 FAQ）

5.2 成本控制

5.2.1 Embedding成本优化

模型	维度	精度	推理速度	成本（每百万token）
BGE-M3（智源）	1024	高	快	免费（本地）
Qwen3-8B-Embedding（阿里）	4096	极高	中等	免费（需GPU）
jina-embedding-v5-text-small	1024	中	极快	免费
M3E	768	中	极快	免费（轻量级）

策略建议：

开发测试阶段：使用轻量级模型（M3E或jina-embedding-v5-text-small）
生产环境：使用BGE-M3（本地部署零成本，支持多语言）
高精度场景：对关键查询使用Qwen3-8B-Embedding（支持32K上下文）
中文优化场景：优先选择M3E（中文召回率提升18%）

5.2.2 Token消耗优化

分块成本计算公式：

单次查询成本 = 查询向量化 + 上下文长度 + 生成输出 = 500 tokens + (k × chunk_size) + 1000 tokens

优化措施：

动态k值：简单问题k=2，复杂问题k=5
摘要压缩：对长chunk生成摘要，只保留关键句
分层检索：先检索文档摘要，再深入相关章节
本地LLM：简单问题使用7B本地模型，复杂问题调用GPT-4

5.2.3 混合成本策略

┌────────────────────────────────────────┐ │ 查询分类器 │ │ 简单问题 ──→ 本地 7B 模型（成本：0） │ │ 中等问题 ──→ GPT-3.5（成本：低） │ │ 复杂问题 ──→ GPT-4（成本：高） │ └────────────────────────────────────────┘

成本监控仪表板：

每查询平均 token 消耗
每查询平均成本
缓存命中率
各模型调用比例

🔒 六、安全与合规

6.1 数据安全

6.1.1 敏感信息保护

PII（个人身份信息）检测与过滤：

身份证号、手机号、银行卡号正则匹配
使用Presidio或自定义规则检测敏感信息
对敏感文档实施访问控制

代码示例：

import re # 示例：敏感信息脱敏 def desensitize(text): # 手机号：138****8888 text = re.sub(r'(\d{3})\d{4}(\d{4})', r'\1****\2', text) # 身份证号：310***********1234 text = re.sub(r'(\d{3})\d{12}(\d{4})', r'\1************\2', text) return text

6.1.2 访问控制

权限分级：

角色	知识库范围	操作权限
管理员	全部	增删改查、配置修改
普通用户	授权范围	查询、反馈
访客	公开知识库	查询（限制频率）

技术实现：

JWT Token认证
RBAC（基于角色的访问控制）
API速率限制（Rate Limiting）

6.2 内容安全

6.2.1 幻觉缓解策略

多层次校验：

检索层：确保召回内容相关性 > 0.8
生成层：Prompt中强调"仅基于上下文回答"
校验层：抽取生成答案中的事实，与原文比对
人工层：关键问题添加人工审核节点

置信度评分：

置信度评分 = 检索相关性 × 来源可信度 × 生成质量 # 检索相关性，量化方法: 余弦相似度, 例如：0.92 # 来源可信度，量化方法: 文档权威性评分, 例如：0.85 # 生成质量，量化方法: 事实一致性检测, 例如：0.88

代码示例：

# 实际的置信度计算 retrieval_score = 0.92 # 检索相关性 source_credibility = 0.85 # 来源可信度 generation_quality = 0.88 # 生成质量 # 方法1：乘积（简单但可能过于严格） confidence = retrieval_score * source_credibility * generation_quality # 结果：0.92 × 0.85 × 0.88 = 0.68 # 方法2：加权平均（更合理） confidence = 0.4×retrieval_score + 0.3×source_credibility + 0.3×generation_quality # 结果：0.4×0.92 + 0.3×0.85 + 0.3×0.88 = 0.88 # 方法3：取最小值（最保守） confidence = min(retrieval_score, source_credibility, generation_quality) # 结果：0.85

6.2.2 有害内容过滤

分类过滤：

暴力/色情内容：直接拦截
歧视性内容：添加免责声明
投资建议：添加风险提示
医疗建议：建议咨询专业人士

技术方案：

使用内容审核 API（阿里云、腾讯云）
关键词黑名单
语义相似度检测（与有害样本库比对）

6.3 合规要求

6.3.1 数据隐私合规

GDPR/CCPA合规：

用户数据同意机制
数据删除权（Right to be Forgotten）
数据导出权
隐私政策披露
建议遵循当地数据保护法规

实施要点：

记录数据使用日志
支持用户查询个人数据
支持用户删除个人数据
定期删除过期数据

6.3.2 国产化部署选项

组件	开源/国产替代方案
LLM	Qwen、ChatGLM、文心一言
Embedding	BGE-M3（智源）、GTE（阿里）
向量数据库	Milvus（开源）、Faiss（Meta）
云服务	阿里云、华为云、腾讯云

完全离线的部署方案：

Qwen2-7B（本地） + BGE-M3（本地） + Milvus（本地）

🚀 七、进阶方向

7.1 Graph RAG

结合知识图谱与RAG，支持复杂推理和关系检索。

7.2 多模态RAG

支持图像、音频、视频等非文本内容的检索与生成。

7.3 Agentic RAG

RAG与Agent结合，支持工具调用、多轮规划和自主决策。

7.4 RAG评估自动化

建立完整的评估流水线，持续监控系统效果。

最后

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？

答案只有一个：人工智能（尤其是大模型方向）

当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应聘者，月基础工资也能稳定在4万元左右。

再看阿里、腾讯两大互联网大厂，非“人才计划”的AI相关岗位应聘者，月基础工资也约有3万元，远超其他行业同资历岗位的薪资水平，对于程序员、小白来说，无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说，现在正是最好的学习时机：行业缺口大、大厂需求旺、薪资天花板高，只要找准学习方向，稳步提升技能，就能轻松摆脱“低薪困境”，抓住AI时代的职业机遇。

如果你还不知道从何开始，我自己整理一套全网最全最细的大模型零基础教程，我也是一路自学走过来的，很清楚小白前期学习的痛楚，你要是没有方向还没有好的资源，根本学不到东西！

下面是我整理的大模型学习资源，希望能帮到你。

👇👇扫码免费领取全部内容👇👇

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

4、AI大模型最新行业报告

2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…
👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

查看全文

http://www.jsqmd.com/news/776441/