当前位置：首页 > news >正文

AI 工程完整版图：8层架构深度解析（收藏版，小白/程序员必备）

news 2026/6/30 9:33:37

本文深入剖析了生产级 AI 系统背后的 8 层工程架构，涵盖模型基础、推理服务、上下文管理、Agent 框架、检索记忆、适配训练、评估观测及安全可靠等关键层面。每层都详细介绍了核心技术点，如分词、嵌入、KV 缓存、Agent 循环、RAG 管道等，并提供了代码示例。对于希望系统化学习大模型工程实践的小白或程序员，本文是不可或缺的参考资料。

AI Engineering（AI 工程）现在涵盖的完整版图，以及每一层可以深入研究的方向。

AI 工程

生产级 AI 系统背后的 8 层工程架构

两个团队可以在同一个基础模型上构建，却交付出完全不同的产品。模型是固定的输入，真正的差异在于围绕它的八层工程——从 Token 如何被服务，到 Agent 循环如何被控制。我们把完整的层次结构梳理到了一张图里：

Model Foundations（模型基础层）涵盖了模型如何将文本转化为概率：

Tokenization（分词）在模型处理之前将文本拆分成子词单元，Token 数量直接决定了成本和上下文限制。
Embeddings（嵌入）将这些 Token 映射到高维向量空间，语义相近的内容在空间中距离更近。
Pretraining（预训练）从原始文本中学习语言，而 Post-training（后训练，包括 SFT、RLHF）塑造模型的行为和对齐。
Context Window（上下文窗口）是模型一次性关注的固定 Token 预算，由 Prompt、历史记录和输出共享。
Logits 是词表上的原始分数，Sampling（采样，见下文）将其转化为实际输出的 Token。
Sampling（采样）控制如何从分布中抽取下一个 Token，其中 Temperature 和 Top-p 在确定性和多样性之间做取舍。

Inference and Serving（推理与服务层）涵盖了将模型权重转化为低成本、高速 Token 的技术栈：

Prefill（预填充）并行处理整个 Prompt，属于计算密集型；而 Decode（解码）逐个生成 Token，属于内存密集型。
KV Cache（键值缓存）存储过去 Token 的 Attention 键和值，避免每一步都重新计算。

Prompt and Prefix Caching（提示和前缀缓存）复用共享前缀的 KV 状态，使得固定的 System Prompt 在首次调用后几乎零成本。
Speculative Decoding（推测解码）使用小型草稿模型提出多个候选 Token，由主模型并行验证，从而获得净加速。
Continuous Batching（连续批处理）在其他请求完成时立即填入新请求的 GPU 插槽，而不是等待整个批次完成。
Quantization（量化）以更少的位数（FP8、AWQ）存储权重，减少内存占用并加速计算，FP8 可在新一代 GPU 上原生运行。
Paged Attention（分页注意力）将操作系统风格的分页技术应用于 KV Cache，消除内存碎片，是 vLLM 背后的核心技巧。
TTFT 和 TPOT 分别衡量 Prefill 和 Decode 的速度，两者都与原始吞吐量相互制衡。

Context Engineering（上下文工程层）涉及管理模型在执行时实际看到的内容：

Context Budgeting（上下文预算）将窗口视为有限资源，只在能提升回答质量的地方花费 Token。
Context Rot（上下文腐化）是指随着窗口填满，输出质量下降的现象，通常远在硬性限制之前就已出现。

Lost in the Middle（中间迷失）描述了模型对上下文开头和结尾关注最多，中间部分的细节被低估的现象。
Compaction and Summarization（压缩与摘要）将旧的历史记录浓缩为高保真摘要，使 Agent 能在全新的窗口中继续工作。
Context Offloading（上下文卸载）将大量细节推送到外部文件或存储中，在窗口里只保留引用。
Just-in-time Retrieval（即时检索）在需要数据的步骤才加载数据，而不是一开始就把所有东西塞进去。
Structured Note-taking（结构化笔记）让 Agent 在窗口之外写持久化笔记，需要时再读回来。

Agents and Harness Engineering（Agent 与框架工程层）将无状态模型变成能完成任务的系统。

Agent Loop（Agent 循环）运行 Think → Act → Observe 的循环（ReAct 或 TAO），直到任务完成。
Tool Use and Function Calling（工具使用与函数调用）让模型发出结构化调用，由框架执行，并将结果反馈给模型。
Thin Harness（轻量框架）信任模型，保持基础设施最小化；Thick Harness（重量框架）将控制逻辑写在代码中，留给模型的自由度更少。
Subagents and Orchestration（子 Agent 与编排）分拆出专注的 Agent，各自拥有独立上下文，使主 Agent 保持精简。
MCP 是连接模型与工具和数据的标准接口，替代了 N×M 的自定义集成。
Skills, Hooks, and State（技能、钩子与状态）添加可复用的能力、生命周期触发器和跨步骤持久化的记忆。
Planning versus Reacting（规划 vs 反应）是在预先制定计划和实时逐步决策之间的选择，二者在速度和成本上各有取舍。
Verification Loops（验证循环）使用规则、测试或 LLM 评判来审核 Agent 的输出，确认其完成后才算数。

Retrieval and Memory（检索与记忆层）为模型提供它从未在训练中见过的事实。

RAG Pipelines（RAG 管道）在查询时检索相关文本块，并在生成前将其添加到 Prompt 中。

Chunking and Re-ranking（分块与重排序）将文档拆分成单元，然后根据真实相关性对检索到的候选项重新排序。
Vector DB（向量数据库）存储嵌入向量并提供大规模最近邻搜索。
Hybrid Search（混合搜索）将关键词匹配和向量匹配相结合，同时捕获精确术语和语义匹配。
Knowledge Graphs（知识图谱）对实体和关系建模，使检索能够沿着关联链路行走，而不仅仅依赖相似性。
Episodic and Temporal Memory（情景记忆与时序记忆）记录发生了什么以及何时发生，使 Agent 能够回忆过去的会话以及事实的变化过程。
Agentic Retrieval（Agent 式检索）让 Agent 自主发起和优化查询，而不是运行单次固定检索。

Adaptation and Training（适配与训练层）在 Prompting 和上下文工程不够用时修改模型权重：

Fine-tuning（微调，SFT）在输入-输出样本上训练模型，教会它格式和行为。
LoRA 和 QLoRA（PEFT）训练小型适配器权重而非完整模型，大幅降低成本和内存开销。
RLHF 和 DPO 根据人类偏好进行优化，其中 DPO 跳过了单独的奖励模型。
GRPO 和 Reward Models（奖励模型）根据奖励信号进行训练，适用于有评分函数但没有偏好标签的场景。
Distillation（知识蒸馏）训练小型学生模型去模仿大型教师模型，以更低成本保留大部分精度。
Synthetic Data（合成数据）在真实标注数据稀缺时，用模型生成训练样本。

Evaluation and Observability（评估与可观测性层）帮助追踪一次变更到底是改进了还是悄悄搞坏了什么。

Offline and Online Evals（离线与在线评估）在上线前运行固定测试集，上线后从真实流量中获取实时指标。
LLM-as-Judge（LLM 评判）使用模型对规则无法评分的开放式输出进行评分。
Agent Trajectory Eval（Agent 轨迹评估）评判 Agent 走过的完整路径，而不仅仅是最终答案。
Tracing and Spans（追踪与跨度）记录每一步、每次工具调用和每个 Token，以便定位运行出错的环节。
Token and Cost Tracking（Token 与成本追踪）将开销归因到每个请求和每一步，找出哪些环节最贵。
Regression Testing（回归测试）在 Prompt 或模型变更后重新运行 Benchmark，捕捉无声的质量退化。

Safety, Security and Reliability（安全性与可靠性层）确保系统在面对真实用户时保持诚实可靠。

Prompt Injection（提示注入）是不受信任的输入夹带指令，劫持模型行为。
Jailbreaks（越狱）是精心构造的 Prompt，让模型绕过自身的安全约束。
Hallucination Mitigation（幻觉缓解）使用 Grounding（接地）、检索和验证来捕捉模型自信满满的错误回答。
Structured Outputs（结构化输出）将生成约束为有效的 JSON 或 Schema，以便下游代码能正确解析。
PII and Data Privacy Controls（PII 与数据隐私控制）在数据进入或离开模型之前检测并脱敏敏感信息。
Fallbacks and Rate Limits（降级与速率限制）添加多供应商故障切换和请求上限，使系统在高负载下也能保持可用。
Guardrails（护栏）是输入和输出过滤器，阻止不安全或违反策略的请求和响应。

推理层是大部分生产成本隐藏的地方。在运行 Llama 70B 的 H100 上，单个请求在 Prefill 阶段达到 92% 的 GPU 利用率，随后在同一硬件上瞬间降至 Decode 阶段的 28%。工作负载变了，GPU 没变。没有任何单一技术能大幅改动这个数字。将八九种技术叠加——横跨压缩、注意力、解码、缓存和路由——才是相对朴素 FP16 推理缩小 5-8 倍成本差距的关键。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要《AI大模型入门+进阶学习资源包》，下方扫码获取~

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。