当前位置: 首页 > news >正文

收藏!小白程序员轻松入门RAG,构建高质量知识库问答系统

本文全面介绍了RAG(检索增强生成)技术,帮助读者从零开始构建知识库问答系统。内容涵盖RAG概述、核心原理与流程、关键技术详解(中文Embedding模型、向量数据库、混合检索、查询改写、重排序)、产品对比与选型、性能优化与成本控制、安全与合规以及进阶方向。通过学习本文,读者将掌握如何利用RAG技术提升大语言模型的准确性和实用性,并了解相关技术选型和最佳实践。

📚 一、RAG概述

1.1 什么是RAG?

RAG(Retrieval Augmented Generation)全称是检索增强生成,是目前大语言模型(LLM)落地中最实用的技术架构之一。简单来说,在让大模型回答问题之前,先让它去一个知识库里"查资料",然后把查到的资料和问题一起发给大模型,让它基于资料来回答。

RAG的核心流程:

  • Indexing(索引):文档分块 → 向量化 → 存储(构建知识库)
  • Retrieval(检索):问题向量化 → 相似度检索 → 结果排序
  • Generation(生成):组装上下文 → 生成回答

1.2 为什么需要 RAG?

大模型虽然强大,但有两个“先天不足”:

  • 知识不是最新的:模型训练好后,知识就定格了,无法知道训练之后发生的事情。
  • 不知道你的私有知识:模型不了解你公司的内部文档、你个人的笔记等私密信息。

1.3 什么时候选择RAG?

大模型应用开发的三种模式对比:

模式说明适用场景选择优先级
提示词工程直接向大模型提问,优化问题表述简单交互场景⭐首选
RAG提供背景知识,解决领域知识缺乏问题企业知识库问答⭐⭐次选
微调训练垂类模型基础能力不足时⭐⭐⭐ 最后手段

选择逻辑:一般建议优先尝试提示词工程,其次考虑 RAG,最后考虑微调

1.4 RAG的核心价值

  • 成本优势:避免直接输入全部文本导致的高计算成本
  • 时效性增强:通过连接外部数据源保持信息新鲜度
  • 可解释性:提供真实文献来源,增强回答可信度
  • 隐私保护:本地预处理数据后仅上传筛选结果

🔧 二、RAG核心原理与流程

阶段一:数据预处理(Indexing)

文档分块策略

  • 规则切分:按chunk_size(推荐:800-1500字符)+ overlap(推荐:10-20%重叠)
  • 语义切分:通过大模型分析文本主题进行切分(计算量大但更合理)
  • 分隔符**:**使用换行符、句号等标点符号

阶段二:检索(Retrieval)

关键参数

  • K值选择:k越大召回率越高但计算成本增加,需根据实际测试调整
  • 上下文限制**:考虑大模型上下文窗口(常见4k-200k tokens,主流模型通常支持128k tokens)**

阶段三:生成(Generation)

🎨 三、关键技术详解

3.1 中文Embedding模型

模型特点适用场景维度许可证
Qwen3-8B-Embedding(阿里)表现优秀的开源多语言模型,Apache 2.0许可,支持100+语言,32K上下文智能问答系统、企业级语义检索、多语言RAG4096apache-2.0
BGE-M3(智源)多语言支持(超过100种语言),长文本(8K tokens),支持密集/稀疏/多向量检索跨语言、长文档检索,如多语言知识库、法律合同分析1024MIT
jina-embeddings-v5-text-small优秀的质量/大小比,支持119+语言资源受限的端侧应用、追求高性价比的轻量级处理1024cc-by-nc-4.0
M3E中文轻量优化,中文问答场景召回率比通用模型高18%,支持边缘计算部署(内存3.2GB)中文轻量级应用,如本地问答、边缘设备部署768Apache License 2.0

模型获取渠道

  • 国际:HuggingFace
  • 国内:ModelScope魔搭社区
  • 在HuggingFace MTEB平台看排行榜

3.2 向量数据库

存储内容

  • 原文存储:保留原始文本片段(通常几百字)
  • 向量表达:同时存储embedding(如1024/3072/3584维)

功能特点

  • 支持语义相似度检索
  • 提供save、load、find_similarity接口
  • 可添加元数据(页码、来源等)

向量数据库对比:

数据库类型核心特点适用场景性能表现部署方式
FAISS开源向量检索库轻量无需服务器,纯本地运行,提供多种 ANN 索引,不支持业务过滤、元数据管理;只是向量检索库,无数据持久化、无租户、无 CRUD 事务单机原型开发、中小规模(<100万向量)查询速度极快(ms级),内存占用低本地嵌入
Milvus开源分布式向量数据库云原生架构、弹性扩容、多租户、数据持久化、高可用,生态成熟;单节点性能弱于Qdrant;GPU加速为可选增值能力,不是标配企业级生产环境、海量向量(千万~十亿级)、私有化项目、多业务隔离十亿级向量秒级检索,分布式架构承载力强,海量数据稳定检索,支持 GPU/CPU 混合加速私有化集群、K8s、官方云托管
Pinecone商业托管向量数据库全托管SaaS、API调用、开箱即用、零运维、自动弹性扩缩容;国内禁用:合规/ 网络 / 数据本地化硬伤,完全不适合私有化、内网项目海外业务、快速产品上线、无运维团队、轻量化云端 RAG延迟<100ms,公网正常环境百毫秒级检索,容量越大成本越高纯共有云服务,无私有化
Qdrant开源高性能向量数据库Rust编写、极致单节点性能、强大元数据过滤、混合检索、轻量化中小生产集群、高并发单节点、需要复杂过滤条件的场景、轻量化部署单节点性能领先、吞吐量高;同硬件配置下单节点性能显著优于 Milvus本地/Docker/K8s/私有部署
Weaviate开源向量数据库模块化设计、内置AI模型,支持GraphQL,核心优势是知识图谱 + 向量融合需要集成多种AI模型、知识图谱 + 检索结合、低代码 AI 应用中小规模性能优秀,大容量检索性能一般,不适合超大规模十亿级本地/Kubernetes/云
pgvectorPostgreSQL 向量扩展复用 PG 生态、标准 SQL、ACID 事务、支持表关联 Join、数据强一致已有PostgreSQL存量系统、强事务要求、中小数据量轻量化检索百万级向量性能稳定,但是当数据量超过500万时,pgvector 的查询延迟会明显增加,且索引构建时间较长,性能衰减明显;高维 / 亿级场景检索效率较差远低于专业向量库PostgreSQL插件,无缝复用现有数据库
Redis Vector内存型向量检索组件基于Redis,并非独立数据库。全内存架构、亚毫秒级延迟、超高并发、实时读写、缓存联动;内存成本极高,不适合海量冷数据实时问答、高频更新向量、短向量检索、热点数据缓存并发能力极强、延迟极低,海量持久化数据成本高Redis扩展、容器化部署
OpenSearch开源全文检索 + 向量融合引擎Elasticsearch 分支,原生强全文检索,向量检索为扩展能力,它的强项是混合检索(全文+向量);资源开销大,RAG 轻量化部署不推荐全文关键词 + 向量混合检索、内容资讯、文档全站搜索全文检索极强,纯向量检索性能弱于专业向量库 Milvus/Qdrant本地集群/云服务/容器部署

选型决策树:

是否需要云托管? ├─ 是 → Pinecone(全托管,国内禁用) └─ 否 → 继续 是否已有PostgreSQL环境? ├─ 是 → pgvector(无缝集成) └─ 否 → 继续 是否为本地开发 / 测试 / 原型验证? ├─ 是 → FAISS └─ 否 → 继续 是否需要极高并发、亚毫秒延迟、实时更新? └─ 是 → Redis Vector(高频实时场景) └─ 否 → 继续 是否需要知识图谱 + 向量融合、多模型模块化集成? ├─ 是 → Weaviate └─ 否 → 按数据规模选型 数据规模? ├─ < 100 万向量 → FAISS / Qdrant(轻量生产) ├─ 100 万 ~ 1 亿向量 │ ├─ 需要强元数据过滤 → Qdrant │ └─ 不需要复杂过滤 → Milvus 单机 └─ > 1 亿向量 / 企业级生产 / 多租户 / 高可用 └─ Milvus 分布式集群 其他: 是否需要全文检索 + 向量混合检索? └─ 是 → OpenSearch

3.3 混合检索(Hybrid Retrieval)

为什么需要混合检索?

纯向量检索虽然能捕捉语义相似度,但在以下场景表现不佳:

  • 专有名词、型号、ID等精确匹配需求
  • 短文本或稀疏内容的语义理解偏差
  • 需要关键词权重控制的场景

混合检索架构

用户查询 ↓ [并行检索] ├─→ 向量检索(语义相似度)→ Top-K1 └─→ 关键词检索(BM25/TF-IDF)→ Top-K2 ↓ [结果融合] ├─ RRF(Reciprocal Rank Fusion) │ 排名倒数融合:Score = Σ(1/(k+rank)) └─ 线性加权融合:Score = α·向量分 + (1-α)·BM25分 ↓ 去重 → 重排序 → Top-N输出

常用融合策略

融合方法公式适用场景优点
RRFScore = Σ(1/(k+r))多路召回结果排名差异大无需调参,对排名差异敏感
加权融合Score = w₁·S₁ + w₂·S₂有历史数据指导权重调优可自定义权重,灵活可控
置信度筛选设定阈值过滤低分结果精度要求高的场景减少噪声,提升准确率

推荐配置

  • k值:RRF常数k=60(经验值)
  • 权重:向量检索权重0.7,关键词检索权重0.3(通用场景)
  • Top-K:向量100 + 关键词50 → 融合后Top-20

3.4 查询改写(Query Rewriting)

为什么需要查询改写?

用户原始查询往往存在以下问题:

  • 表述模糊、歧义或多义
  • 缺少上下文(多轮对话中的指代)
  • 专业术语与文档术语不匹配
  • 过于简短或冗长

查询改写方法

1. 查询扩展(Query Expansion)

同义词扩展

# 示例:将"电脑"扩展为["电脑", "计算机", "PC", "笔记本"] 扩展后查询 = 原查询 + 同义词(来自知识库或WordNet)
LLM生成扩展
Prompt: "针对查询'{query}',生成5个语义相近的查询变体,保持核心意图" 输出: ["变体1", "变体2", ...]
  1. 多查询生成(Multi-Query)
用户查询: "RAG的性能优化方法" ↓ LLM生成多角度查询 查询1: "RAG系统的向量索引优化" 查询2: "如何降低RAG的推理延迟" 查询3: "RAG检索阶段的成本控制" ↓ 并行检索 合并结果 → 去重 → 重排序
3. 查询分解(Query Decomposition)

将复杂查询拆分为子查询:

复杂查询: "比较BERT和GPT在RAG中的应用优劣" ↓ 分解 子查询1: "BERT在RAG中的应用场景" 子查询2: "GPT在RAG中的应用场景" 子查询3: "BERT vs GPT检索增强效果对比" ↓ 分别检索 合并答案 → 综合生成
4. 指代消解与上下文补全
多轮对话场景:
用户1: "RAG是什么?" 助手: "RAG是检索增强生成..." 用户2: "它有什么优势?" ← "它"指代"RAG" ↓ 改写 完整查询: "RAG(检索增强生成)有什么优势?"

实现方案:

方法工具/模型适用场景成本
基于规则同义词表、正则垂直领域(医疗、法律)
LLM改写GPT-4/Qwen通用场景、复杂查询
混合策略规则+LLM生产环境

3.5 重排序(Reranking)

为什么需要重排序?

粗排阶段(向量相似度/BM25)存在局限:

  • 仅考虑查询与文档的局部相似度
  • 无法捕捉复杂的语义交互
  • 对长文档的整体相关性判断不足

两阶段检索架构

阶段一:粗排(召回) └─ 向量检索/BM25 → Top-100(高召回) ↓ 阶段二:精排(重排序) └─ Cross-Encoder / LLM → Top-5(高精度)

重排序模型类型

类型模型原理适用场景延迟
Cross-EncoderBGE-Reranker, ColBERT联合编码查询+文档,计算交互特征对精度要求极高的场景
LLM重排GPT-4, Qwen直接让大模型判断相关性并打分复杂语义理解场景
轻量级模型bge-reranker-base蒸馏版Cross-Encoder资源受限场景

实现示例(Cross-Encoder)

from sentence_transformers import CrossEncoder # 加载重排序模型 reranker = CrossEncoder('BAAI/bge-reranker-base') # 粗排结果 candidates = ["doc1", "doc2", "doc3", ...] # Top-100 query = "用户查询" # 配对并打分 pairs = [[query, doc] for doc in candidates] scores = reranker.predict(pairs) # 按分数排序,取Top-5 results = sorted(zip(candidates, scores), key=lambda x: x[1], reverse=True)[:5]

LLM重排序Prompt示例

任务:判断文档与用户问题的相关性 评分标准: - 5分:完全相关,直接回答问题 - 4分:高度相关,包含关键信息 - 3分:部分相关,需要推断 - 2分:弱相关,仅背景信息 - 1分:不相关 问题:{query} 文档:{document} 请输出评分(1-5)和简短理由。

性能对比

方案召回Top-100精度重排后Top-5精度延迟
仅向量检索75%-50ms
向量+Cross-Encoder75%92%150ms
向量+LLM重排75%95%2000ms

选型建议

  • 高并发场景**:**使用轻量级Cross-Encoder(bge-reranker-base)
  • 极致精度场景:使用LLM重排序(Accept延迟换精度)
  • 成本敏感场景**:先使用向量相似度,仅对边界case启用重排**

3.6 LangChain问答链类型

Chain类型说明调用次数适用场景
Stuff一次性将所有内容放入上下文1次知识片段少(2-3个chunk),成本最低
Map_Reduce并行处理多个chunk后合成结果N+1次长文档,成本高
Refine迭代优化,基于第一个chunk生成,后续逐步优化N次长文档,比Map Reduce节约资源
Map_Rank对结果进行筛选评分,自动选择最优答案多评分精度要求高的场景

🔍 四、产品对比与选型

产品定位特点适用场景
NotebookLM(谷歌)商业产品答案质量高,自动预处理(文档概览+关键词),召回策略优秀不涉密场景,参考标杆
Dify/Coze开源可视化配置,全托管方案快速部署,中小企业
Cherry Studio开源客户端国内可用,工具链接平台快速搭建可视化客户端
Qwen-Agent开源框架集成RAG核心策略,可扩展私有化部署,需二次开发
LangChain + FAISS自研方案最灵活,可深度定制技术团队强,深度定制需求

选型建议

  • 数据安全性要求高(如上市公司):选择私有化部署方案(Qwen-Agent/LangChain自研)
  • 快速验证/非敏感数据:使用NotebookLM(质量标杆)
  • 无开发资源:选择Dify商业版或Coze企业版

💪 五、性能优化与成本控制

5.1 性能优化策略

5.1.1 向量索引优化
索引类型适用场景构建时间查询速度精度
Flat (暴力搜索)小规模数据 (<10k)100%
IVF (倒排文件)中等规模数据中等95-99%
HNSW (可导航小世界)大规模数据极快90-95%
PQ (乘积量化)内存受限场景中等85-90%

注:数据为典型场景参考值,实际表现因数据特征而异

建议配置

  • 数据量 < 10万:使用HNSW,ef_construction=200,M=16
  • 数据量 > 100万:使用IVF + PQ组合
  • 内存受限:使用PQ降低内存占用
5.1.2 缓存策略

三级缓存架构

用户查询 ↓ [查询缓存] → 精确匹配 → 直接返回(最快) ↓ 未命中 [语义缓存] → 相似度 > 0.95 → 复用结果 ↓ 未命中 [向量检索] → 执行检索流程

缓存实现

  • Redis存储查询缓存(TTL 1小时)
  • 向量数据库支持近似查询缓存
  • 预计算热门问题(Top 100 FAQ)

5.2 成本控制

5.2.1 Embedding成本优化
模型维度精度推理速度成本(每百万token)
BGE-M3(智源)1024免费(本地)
Qwen3-8B-Embedding(阿里)4096极高中等免费(需GPU)
jina-embedding-v5-text-small1024极快免费
M3E768极快免费(轻量级)

策略建议

  • 开发测试阶段:使用轻量级模型(M3E或jina-embedding-v5-text-small)
  • 生产环境:使用BGE-M3(本地部署零成本,支持多语言)
  • 高精度场景:对关键查询使用Qwen3-8B-Embedding(支持32K上下文)
  • 中文优化场景:优先选择M3E(中文召回率提升18%)
5.2.2 Token消耗优化

分块成本计算公式

单次查询成本 = 查询向量化 + 上下文长度 + 生成输出 = 500 tokens + (k × chunk_size) + 1000 tokens

优化措施

  1. 动态k值:简单问题k=2,复杂问题k=5
  2. 摘要压缩:对长chunk生成摘要,只保留关键句
  3. 分层检索:先检索文档摘要,再深入相关章节
  4. 本地LLM:简单问题使用7B本地模型,复杂问题调用GPT-4

5.2.3 混合成本策略

┌────────────────────────────────────────┐ │ 查询分类器 │ │ 简单问题 ──→ 本地 7B 模型(成本:0) │ │ 中等问题 ──→ GPT-3.5(成本:低) │ │ 复杂问题 ──→ GPT-4(成本:高) │ └────────────────────────────────────────┘

成本监控仪表板:

  • 每查询平均 token 消耗
  • 每查询平均成本
  • 缓存命中率
  • 各模型调用比例

🔒 六、安全与合规

6.1 数据安全

6.1.1 敏感信息保护

PII(个人身份信息)检测与过滤

  • 身份证号、手机号、银行卡号正则匹配
  • 使用Presidio或自定义规则检测敏感信息
  • 对敏感文档实施访问控制

代码示例:

import re # 示例:敏感信息脱敏 def desensitize(text): # 手机号:138****8888 text = re.sub(r'(\d{3})\d{4}(\d{4})', r'\1****\2', text) # 身份证号:310***********1234 text = re.sub(r'(\d{3})\d{12}(\d{4})', r'\1************\2', text) return text
6.1.2 访问控制

权限分级

角色知识库范围操作权限
管理员全部增删改查、配置修改
普通用户授权范围查询、反馈
访客公开知识库查询(限制频率)

技术实现

  • JWT Token认证
  • RBAC(基于角色的访问控制)
  • API速率限制(Rate Limiting)

6.2 内容安全

6.2.1 幻觉缓解策略

多层次校验

  1. 检索层:确保召回内容相关性 > 0.8
  2. 生成层:Prompt中强调"仅基于上下文回答"
  3. 校验层:抽取生成答案中的事实,与原文比对
  4. 人工层:关键问题添加人工审核节点

置信度评分:

置信度评分 = 检索相关性 × 来源可信度 × 生成质量 # 检索相关性,量化方法: 余弦相似度, 例如:0.92 # 来源可信度,量化方法: 文档权威性评分, 例如:0.85 # 生成质量,量化方法: 事实一致性检测, 例如:0.88

代码示例:

# 实际的置信度计算 retrieval_score = 0.92 # 检索相关性 source_credibility = 0.85 # 来源可信度 generation_quality = 0.88 # 生成质量 # 方法1:乘积(简单但可能过于严格) confidence = retrieval_score * source_credibility * generation_quality # 结果:0.92 × 0.85 × 0.88 = 0.68 # 方法2:加权平均(更合理) confidence = 0.4×retrieval_score + 0.3×source_credibility + 0.3×generation_quality # 结果:0.4×0.92 + 0.3×0.85 + 0.3×0.88 = 0.88 # 方法3:取最小值(最保守) confidence = min(retrieval_score, source_credibility, generation_quality) # 结果:0.85

6.2.2 有害内容过滤

分类过滤

  • 暴力/色情内容:直接拦截
  • 歧视性内容:添加免责声明
  • 投资建议:添加风险提示
  • 医疗建议:建议咨询专业人士

技术方案:

  • 使用内容审核 API(阿里云、腾讯云)
  • 关键词黑名单
  • 语义相似度检测(与有害样本库比对)

6.3 合规要求

6.3.1 数据隐私合规

GDPR/CCPA合规

  • 用户数据同意机制
  • 数据删除权(Right to be Forgotten)
  • 数据导出权
  • 隐私政策披露
  • 建议遵循当地数据保护法规

实施要点:

  • 记录数据使用日志

  • 支持用户查询个人数据

  • 支持用户删除个人数据

  • 定期删除过期数据

6.3.2 国产化部署选项
组件开源/国产替代方案
LLMQwen、ChatGLM、文心一言
EmbeddingBGE-M3(智源)、GTE(阿里)
向量数据库Milvus(开源)、Faiss(Meta)
云服务阿里云、华为云、腾讯云

完全离线的部署方案:

Qwen2-7B(本地) + BGE-M3(本地) + Milvus(本地)

🚀 七、进阶方向

7.1 Graph RAG

结合知识图谱与RAG,支持复杂推理和关系检索。

7.2 多模态RAG

支持图像、音频、视频等非文本内容的检索与生成。

7.3 Agentic RAG

RAG与Agent结合,支持工具调用、多轮规划和自主决策。

7.4 RAG评估自动化

建立完整的评估流水线,持续监控系统效果。

最后

对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?

答案只有一个:人工智能(尤其是大模型方向)

当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右

再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。


对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。

如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!

下面是我整理的大模型学习资源,希望能帮到你。

👇👇扫码免费领取全部内容👇👇

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有,跟着老师学习事半功倍。

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

4、AI大模型最新行业报告

2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型

  • 带你了解全球大模型

  • 使用国产大模型服务

  • 搭建 OpenAI 代理

  • 热身:基于阿里云 PAI 部署 Stable Diffusion

  • 在本地计算机运行大模型

  • 大模型的私有化部署

  • 基于 vLLM 部署大模型

  • 案例:如何优雅地在阿里云私有部署开源大模型

  • 部署一套开源 LLM 项目

  • 内容安全

  • 互联网信息服务算法备案

  • 👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/776441/

相关文章:

  • 终极免费跨平台音乐播放器:LX Music桌面版完整使用指南
  • Switch大气层破解系统终极优化指南:3步提升游戏性能65%
  • 告别软核!用Zynq UltraScale+ MPSoC EV系列硬核VCU搞定4K60 H.265编解码
  • 5个实战技巧:如何用Borderless Gaming实现无缝窗口化游戏体验
  • 告别‘抓瞎’:CANoe的Trace、Graphics和Logging窗口实战技巧,高效分析总线故障
  • 百度网盘直链提取完整指南:3分钟实现满速下载的免费方案
  • Adobe-GenP 3.0终极指南:5分钟免费激活Adobe全系列软件
  • 从PPO到DPPO:如何用Ray框架把你的强化学习训练速度提升10倍?
  • 基于大语言模型的地理空间智能体:Chat2Geo架构解析与实践
  • 如何高效使用Casbin默认日志器:标准输出日志实现原理详解
  • 从零搭建一个低成本CWDM网络:手把手教你用ADOP光模块搞定企业分支互联
  • 如何用开源工具Lenovo Legion Toolkit彻底掌控你的拯救者笔记本性能
  • 10个技巧掌握开源版图设计工具KLayout:从入门到高效设计
  • 买房避坑|「壹沐」这个盘到底火在哪儿? - 博客湾
  • Linux User Mode非实时进程(线程)优先级设定
  • 全域数学:精细结构常数 α ⁻¹无穷阶几何收敛级数推导
  • 跨平台音乐播放器开发指南:基于Electron的lx-music-desktop技术深度解析
  • J-Link V7.66g不支持华大芯片?别急,教你手动添加HC32全系列支持包并开启RTT
  • 成都人的“压箱底”黄金该去哪卖?春熙路、万象城、文殊院三地实测/福满多/金喜到/金易顺 - 李甜岚
  • Minecraft启动报错OpenGL版本过低?别急着换显卡,先试试这个驱动更新保姆级教程
  • 2026年清镇别墅装修与贵阳旧房翻新:从隐蔽工程隐患到透明决算的一站式高端定制完全指南 - 企业名录优选推荐
  • 2026年新疆一体化污水处理设备深度横评:本地化方案完全指南 - 精选优质企业推荐官
  • 告别DDPG和PPO的纠结:用SAC算法搞定机器人连续控制(附PyTorch实战代码)
  • 免费多模型LLM API密钥库:零门槛调用GPT-5.4、Claude等90+模型
  • 基于浏览器脚本实现免费ChatGPT API:本地部署与Auto-GPT集成指南
  • 告别传统对接!用DiffDock和扩散模型,在Ubuntu上5分钟搞定高精度分子对接
  • 2026年郑州铝单板、氟碳铝单板、木纹铝单板、石纹铝单板、冲孔铝单板、镂空铝单板、弧形铝单板、双曲铝单板供应商深度选购指南 - 年度推荐企业名录
  • LabVIEW FPGA项目编译总报‘时序违规’?试试用单周期定时循环(SCTL)来优化你的代码路径
  • 2026年口碑超棒的日语培训,究竟哪家技术实力更胜一筹? - GrowthUME
  • 从PyTorch到CVIModel:手把手教你为MilkV Duo的TPU量化ResNet18模型(BF16/INT8对比)