从零开始学AI Infra:小白程序员必备的AI产物生命周期管理与工程实践(收藏版)
本文为AI Infra之路系列入门篇,聚焦AI Infra工程师的核心职责与AI产物(数据集、模型、Prompt、Embedding)的生命周期管理。通过一个线上问题案例,阐述了AI Infra如何解决产物依赖问题,并详细解析了不同岗位(模型训练、推理部署、产物治理、基础设施、质量监控)的职责边界。文章还对比了AI产物与普通软件产物的差异,并指导程序员如何利用已有经验切入AI Infra领域。对于希望系统学习AI Infra、提升工程实践能力的小白和程序员来说,本文提供了清晰的职业发展路径和实用的学习建议。
系列:从零开始的 AI Infra 之路
位置:第 01/18 篇 · 卷一「认知与定位」
难度:⭐⭐(1-5 星)
前置知识:后端服务、数据与模型的基本概念
前后关系:这是系列入口篇;这一篇聚焦「AI Infra 工程师是干什么的」;下一篇「模型、训练、推理与 GPU」。
1.一张工单背后的问题
先看一个不一定会触发报警的线上问题。
一个内部知识库问答服务上线几个月后,业务同学开始连续报问题:问报销政策,答案引用旧版差旅制度;问合同审批,答案拿供应商准入流程当依据。服务没有 5xx,P99 延迟没变,GPU 利用率也正常。后端日志里每次请求都有检索结果、prompt 和模型输出,链路看起来是通的。
顺着变更记录查下去,问题指向检索侧。上一周为了降低查询延迟,线上 embedding 服务换了一个新镜像;离线索引任务没有同步重建向量库,历史文档仍然是旧 embedding 配置算出来的。向量维度没变,模型服务不报错;QPS、延迟、错误率都正常,监控不报警。坏掉的是召回质量,现有大盘看不到。
复盘时,几个团队说的都不算错。算法团队看 embedding 模型效果,后端团队看 API 稳定性,DevOps 看服务是否存活,数据任务只在被触发时重建索引。真正漏掉的是产物依赖:线上向量库依赖哪个 embedding 模型、哪套切分策略、哪版预处理代码,这些信息没有被系统记录,也没人拿它们做发布门禁。
这类问题不能只靠复盘补救。AI Infra 要做的事,就是把这些产物依赖变成可检查、可回滚、有人负责的工程系统。
2.AI Infra 的岗位边界
很多 JD 会把 AI Infra 写成训练平台搭建和模型部署。这个颗粒度太粗,容易让人误以为它只是机器学习加运维。到了线上,真正被追问的往往更具体:AI 产物(artifact)的生命周期管理有没有做好。
这里说的 AI 产物,至少包括四类:
- 数据集:训练用的标注数据、增量数据、数据版本快照。
- 模型:训练产物、fine-tune checkpoint、量化版本、embedding 模型。
- Prompt:系统 prompt、few-shot 示例、chain-of-thought 模板。
- Embedding:在线服务用的向量表示,以及生成它们的模型版本。
它们都有自己的生命周期:创建、验证、注册、部署、监控、版本切换、回滚。AI Infra 工程师要把这些阶段做实,不管团队是 10 人还是 500 人,至少要回答四个问题。
落到交付动作上,大概是这四件事:
- 可交付:产物能从研发环境可靠地转移到生产环境,且结果一致。
- 可追溯:任何时刻都能查到线上跑的是哪个版本、用什么数据训练、经过哪些测试。
- 可运行:产物能在目标基础设施上以预期的延迟和成本稳定运行。
- 可治理:谁能改、改了什么、影响哪些下游、出问题怎么退回去,都有流程和记录。
开头那次检索质量退化,和 QPS、P99、Pod 状态都没直接关系。缺的是一份能被系统检查的依赖关系:向量库依赖哪个 embedding 模型版本,模型切换时是否必须重建索引,谁有权批准这次切换。
3.五个岗位,谁负责什么
岗位边界不能只看职位名,要看系统里出了哪类问题、谁手里有能解决问题的工具。
AI 系统五类职责的岗位归属:模型训练、推理部署、产物治理、基础设施、质量监控五个节点,标注各自的主导岗位与协作岗位,节点间流向箭头展示各领域的传递关系
图里把链路拆成五块:模型训练、推理部署、产物治理、基础设施、质量监控。重点放在依赖怎么传下去:模型注册影响版本发布,版本发布影响资源调度,资源调度和线上指标又会反过来约束下一次发布。
训练:算法定目标,AI Infra 管作业能不能跑完。 算法工程师决定训练什么、用什么数据、选什么超参。AI Infra 要处理的是 GPU 集群调度、分布式训练环境、checkpoint 存储、失败恢复。两个岗位会天天协作,但看的问题不一样:算法盯 loss 曲线,AI Infra 盯的是这次作业为什么在 Node 3 上跑了 20 分钟后 OOM。
推理:模型服务层和业务 API 层要分开看。 AI Infra 管推理引擎选型(vLLM、TGI、Triton)、显存规划、批量策略、自动扩缩容。后端管鉴权、限流、prompt 组装、上下文管理、结果后处理。两层之间最好只有稳定 API;小团队人少,一个人同时摸两层也很正常。
可观测性:普通监控只看到一半。 DevOps 看到 GPU 利用率、Pod 状态、网络带宽;后端看到 QPS、错误率、P99 延迟。AI Infra 还要补上模型服务自己的指标,比如 TTFT(首 token 延迟)、TPOT(每 token 延迟)、KV cache 命中率、批量填充率,以及质量指标(召回率、答案相关性)。后两类指标很多监控系统不会自动生成,只能自己埋点、评测、接入告警。
MLOps 和 AI Infra 的边界没有行业统一答案。 粗略地看,MLOps 更偏训练侧持续交付:持续训练流水线、数据版本管理、实验追踪、模型评测自动化。AI Infra 更偏推理侧稳定运行,以及产物生命周期治理。不同公司叫法差别很大,有些 MLOps 平台会覆盖这里说的全部 AI Infra 工作,有些公司会拆成两个团队。
粗略判断可以这样做:问题一旦牵扯 GPU 资源管理、模型服务架构,或者 AI 产物的版本一致性,大概率要找 AI Infra;如果主要是训练实验追踪、数据标注流程、业务逻辑层 feature engineering,就更接近 MLOps 或算法工程师的领地。
4.AI 产物的生命周期:AI Infra 在每个阶段兜什么
生命周期这个词听起来大,落到工程现场其实很具体:一个模型从训练到下线,中间任何一步缺记录,后面都会在回滚、审计或排障时补账。
AI 产物生命周期图:从数据准备到训练、注册、部署、监控、回滚各阶段的工程责任和典型故障点
数据准备阶段:数据清洗规则通常由数据工程师和算法团队决定。AI Infra 更关心训练启动时拿到的数据快照是否确定、可复现,元数据里有没有记录它从哪里来、什么时候生成、经过哪些过滤。DVC、Delta Lake 的版本 tag,或者一套规范的 S3 path 命名,都可以先用起来。三个月后还能查到这次训练用的是哪批数据,这一步才算过关。
训练阶段:这里的典型事故很工程:训练跑了 18 小时,在第 17 小时因为网络抖动失败,checkpoint 策略又没配好,只能从第 0 步重跑。Kubernetes Job、NCCL 通信、混合精度环境、checkpoint 多久存一次、存几份、存哪里,都属于 AI Infra 要提前算清楚的部分。模型性能仍然归算法团队判断,作业可靠性不能只靠运气。
模型注册阶段:很多团队会把模型注册做成文件上传,这基本不够。注册时至少要留下模型来源:哪批数据训练的、超参数配置是什么、在哪个评测集上跑出什么指标、谁审批过、适合部署到哪类硬件。缺这些信息,回滚、A/B 对比、合规审计都会卡住。MLflow、Weights & Biases、Vertex AI Model Registry 都在解决这类问题,但现实里,一个 Google Sheet 充当模型注册表的团队并不少见。
判断注册系统有没有用,可以问一个很土的问题:这个模型出问题时,能不能在一小时内拿到回滚方案?需要的信息如果注册时没收集,上线后再找,基本都会变成翻聊天记录、问人、猜配置。
部署阶段:模型服务的资源规划最容易算错。以一个 7B 参数的模型为例:FP16 精度下,参数本身占用大约 14 GB 显存(每个参数 2 字节);KV cache 的大小随并发请求数线性增长,在 batch size=32、序列长度=2048 的情况下,KV cache 可能再占去 10-20 GB;加上激活内存和推理框架的开销,一张 A100 80GB 通常只能舒适地运行一个 7B 模型,剩余显存留给 KV cache 和批量增长。部署前不把这笔账算清楚,上线后常见两种结果:要么显存不够,服务频繁 OOM 重启;要么显存分配过于保守,并发能力远低于预期,单卡成本很高。
这个估算本身不复杂,但很多团队会跳过它,把服务启动成功当成上线准备完成。后面的文章会给出一套完整的显存计算方法和批量策略选择框架。这里先记住一句话:资源规划是部署的前置工作,等线上 OOM 以后再补,代价会高很多。
监控阶段:AI 系统至少有两层指标。工程指标是延迟、吞吐、错误率,Prometheus 这类工具能采到不少。质量指标是答案相关性、召回准确率、幻觉率,得靠评测集、采样标注或在线反馈补出来。质量下降通常不报错,也不一定触发告警,用户只会觉得答案变差。
回滚阶段:这是检验前面所有工作是否扎实的时刻。能不能在 5 分钟内回滚到上一个版本?回滚的代价是什么?如果向量库里的 embedding 是用新模型算的,回滚模型以后向量库要不要重建?这些问题要在部署前回答清楚,上线后才想通常已经晚了。
5.AI 产物和普通软件的根本差异
从后端开发转到 AI Infra 的同学,很容易把模型、数据集、prompt 当成几种特殊的软件组件。这个直觉有一半是对的,另一半会带来工程盲区。
AI 产物 vs 普通软件产物对比:代码、模型、数据集、prompt 在版本管理、依赖追踪、测试验证、回滚方式上的工程差异
版本管理:代码可以压到一个 git commit,行为基本确定。模型版本通常是一个 checkpoint,可能几十 GB;同一个权重文件放到不同 CUDA、PyTorch、量化配置里,输出都可能有差异。模型也没有 API 那样清楚的接口契约,很难用 breaking change 描述一次行为变化。数据集依赖上游数据源,现有包管理工具也很难直接套上来。
测试验证:代码有单元测试和集成测试,输出通常是 pass/fail。模型测试输出的是一组指标,比如 BLEU、ROUGE、人工评分,很少有一个简单的通过标准,更多是在比较某些维度比上一个版本好多少、差多少。Prompt 更麻烦,相同 prompt 在不同模型上行为不同,在同一个模型上也会被输入措辞影响。普通 CI 可以做一部分门禁,但挡不住所有质量退化,评测流水线必须单独建设。
回滚:代码回滚通常是重新部署上一个版本,几分钟能做完。模型回滚会牵扯推理服务滚动更新,复杂一些,但路径还算清楚。embedding 模型就麻烦得多:如果回滚了 embedding 模型,之前用新模型生成的向量就失效,需要重新索引整个数据集。对几亿条记录的生产系统,这可能要几个小时。Prompt 回滚也常被低估,很多团队没有 prompt 版本控制,出问题后只能让工程师去聊天记录里找上一个版本。
依赖追踪:代码依赖可以写进 requirements.txt 或 package.json,CI 系统能查出一部分版本冲突。模型依赖该写在哪里,没有统一答案。一个模型可能依赖特定 tokenizer、量化配置、prompt 格式;这些依赖如果没有显式记录,版本切换时就会变成生产风险。
这四类产物在线上不会孤立存在,它们会形成依赖链。一个 RAG 服务里,模型依赖特定的 tokenizer 版本,同时还依赖用特定 embedding 模型构建的向量索引,而 embedding 模型本身依赖特定的预处理配置。任何一个环节更新,都需要其他环节协调处理。AI Infra 和普通服务运维的差别就在这里:难点不一定来自单点技术,而来自依赖关系的拓扑变化。普通运维工具很难直接描述这类关系。
软件工程的工具链当然能借鉴,但 AI 产物需要额外的依赖记录、评测门禁和回滚流程。照搬普通服务运维,通常会漏掉最容易静默出问题的部分。
6.你已有的经验能用在哪里
有同学会问:做 AI Infra,要不要先把机器学习系统学一遍?
有帮助,但入门不靠它。AI Infra 和后端、SRE、数据工程的重叠度,远高于和算法研究的重叠度。
如果你做过后端开发,服务化思维可以直接带过来:延迟和吞吐的权衡、熔断和限流、API 版本策略。这些在模型服务里全部有对应的工程问题,而且因为 GPU 资源的不可分割性和推理的随机性,边界情况比普通 HTTP 服务更多。主要的知识缺口在两块:GPU 资源模型(显存的分配逻辑和 CPU 内存完全不同)、以及推理引擎的工作原理(vLLM 的 continuous batching 为什么能显著提升吞吐)。这些加上前面讲的 AI 产物特殊性,差不多就够起步了。
如果你做过 SRE 或 DevOps,SLO 设计、错误预算、on-call 流程、事故复盘这套方法论在 AI 系统里几乎原样适用,但目前大多数团队做得很粗糙,这本身是一个可以填的空白。需要额外搞清楚的是 AI 系统特有的故障模式:质量下降通常不触发任何告警,KV cache 饱和导致的请求排队看起来像后端过载,GPU OOM 的级联效应比 CPU OOM 更难恢复。SLO 的定义也要调整:LLM 服务的主要延迟指标是 TTFT 和 TPOT,两者的分布和普通 HTTP 延迟差别很大,直接套用 P99 阈值通常不够用。
如果你做过数据工程,训练 pipeline 和 ETL pipeline 的相似度很高:数据经过一系列转换步骤产生一个产物,差异主要在产物类型和验证方式上。数据版本化和 lineage 追踪的经验在这里直接有用。陌生的部分集中在调度层:GPU 集群上的 Kubernetes/Slurm 调度和纯 CPU 集群有明显差异,分布式训练的通信模式(NCCL、梯度同步)和 Spark 的分布式计算思路也不同。另一个需要重新建立认知的是模型评测流水线:ETL 的输出可以用 schema 和行数验证,模型的输出验证需要完全不同的方法。
会机器学习当然有价值。它能让你和算法工程师沟通得更顺,也能判断某个工程改动会不会碰到模型质量。但 AI Infra 的入门门槛不在数学推导,而在系统工程能力,以及对 AI 产物特殊性的理解。
7.团队规模决定你的实际边界
AI Infra 工程师的具体工作,在不同规模的团队里差别很大。
团队规模与 AI Infra 边界变化:10 人 / 50 人 / 500 人团队中 AI Infra 职责范围的收缩与扩展
10 人左右的小团队:边界基本是糊在一起的。同一个工程师可能上午改 RAG 召回,下午调部署脚本,晚上还要看模型输出。这个阶段先别急着造平台,先把没人兜的产物管理责任找出来,再建立最低限度的版本追踪和回滚能力。一套规范命名,加上 git tag 和清楚的发布记录,已经能少踩很多坑。这个规模常见的坑,是所有精力都放在模型效果上,可治理性完全空着,等团队变大再补,成本会高很多。
50 人左右的中型团队:边界开始清楚,AI Infra 往往会变成 2-4 人的小组,专门管训练平台和推理平台。这时内部工具就躲不开了:实验追踪、模型注册、推理服务标准化部署,都得有人做。冲突也会变多,算法团队要灵活环境,业务团队要稳定低延迟,平台侧必须决定哪些能力标准化,哪些能力允许例外。
500 人以上的大型团队:方向会拆开,训练基础设施、推理平台、ML 平台、数据平台可能各有团队。AI Infra 工程师更像平台工程师,主要服务内部用户,也就是算法团队、产品团队和业务工程团队。这个阶段衡量产出时,直接业务指标往往退到后面,平台稳定性、接入效率、内部用户体验会变得更重要。
小团队能让你在短时间内跑完整个链路,大团队能让你在某个方向上做到生产级深度。不管是在校阶段提前接触这个方向,还是有工程背景想切入 AI Infra,这个选择逻辑都成立。怎么选,看你现在更缺哪个。
8.在生产里,AI Infra 工程师被问责的场景
理解一个岗位,可以看它在事故复盘里会被问什么。
AI Infra 经常遇到的是下面这些工程问题。
场景一:召回质量静默下降
某个 RAG 服务改过一次 embedding 镜像和切分配置后,召回质量持续下降了约两周。没有告警,用户反馈累积到一定量以后,团队才发现线上向量库和新配置并不匹配。
这里要追两个问题:embedding 配置变化为什么没有触发向量库重建?召回质量下降为什么没有被指标捕捉到?
前者是产物治理,后者是质量可观测性。它们都不在传统 HTTP 监控的舒适区里。
场景二:模型无法快速回滚
某次模型更新之后,线上某类问题的答案质量明显变差,需要回滚到上一个版本。
最后
如果说程序员已经是高薪职业,那么干AI的程序员,就是高薪中的高薪。
现在的市场,已经用数据给程序员指明了方向:学AI大模型,就是冲刺高薪的最优解!
看着身边越来越多的同行转型大模型、拿到高薪offer,很多人心里都动了心,但真正的难题来了:零基础小白不知道从哪入门?有基础的程序员找不到系统学习路径?实战项目练手无门?面试不知道考什么?
别慌!今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包,覆盖从入门到实战、从理论到面试、从基础到进阶的全流程,所有资料均已整理归档,无冗余、无套路,免费分享给每一位想抓住AI风口的程序员和小白!
👇👇扫码免费领取全部内容👇👇
1、大模型系统化学习路线
2、大模型学习书籍&文档
3、AI大模型最新行业报告
4、大模型项目实战&配套源码
5、大模型大厂面试真题
四阶段精细化学习规划(附时间节点,可直接照做)
结合上述资源,给大家整理了一份可直接落地的四阶段学习规划,总时长约2个月,小白可循序渐进,程序员可根据自身基础调整节奏,高效掌握大模型核心能力,快速实现从“入门”到“能落地、能面试”的跨越。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
👇👇扫码免费领取全部内容👇👇
6、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
