当前位置：首页 > news >正文

收藏！大模型工程师的日常揭秘：从训练到部署的全流程解析

news 2026/6/24 15:54:53

本文揭秘了阿里大模型工程师的日常工作，强调这类岗位并非单一职位，而是涵盖模型训练/预训练、模型对齐/后训练、推理优化/部署、应用开发/工程落地以及数据等多个方向。文章详细描述了每个方向的日常工作内容、面临的挑战及所需技能，如模型训练中的问题排查与效率优化，模型对齐中的数据收集与实验迭代，推理优化中的量化与框架调优等。同时，文章也指出大模型工程师需具备良好的会议讨论能力，以清晰解释实验结果并提出有价值的判断。最后，作者呼吁真正在大模型岗位工作的人分享他们的经验，以提供更准确的信息。

说实话，这个问题煮啵有点虚着回答。

不是不知道，是我真正了解的只有阿里——其他大厂的情况，煮啵没有在里面待过，不敢乱说。

而且还有一个更诚实的前提要说：

真正在做大模型的工程师，大概率没时间写知乎。

煮啵说这话是有依据的——

过年那几天，我们有一个训练模型的群，每训练完一个模型，群里的机器人就会自动输出一条结果数据。那几天消息一直在响。

我当时盯着那些数字看，心想这帮MT（我的mentor们）过年都在训模型。

所以你在知乎上看到的”大模型工程师的一天”，大概率是：要么实习生写的，要么已经离职的人写的，要么就是根据行业信息拼出来的。

煮啵这篇，主要是根据实习期间看到的工作文档、进度报告、周会内容，加上自己的观察和猜测拼出来的。不一定完全准确，你自己判断。

阿里以外的大厂，煮啵就不瞎说了。（说起来，我们阿里我感觉工作氛围相对来说是大厂里面比较轻松的哈哈哈，不像某个跳动，应届生进去工作平均年限居然不到一年哈哈哈哈）

让煮啵先把”大模型岗位”这个词拆开

大模型岗位不是一个岗位，是一堆岗位的统称，做的事情差异巨大。

大概可以分成这几类：

模型训练/预训练方向

模型对齐/后训练方向

推理优化/部署方向

应用开发/工程落地方向

数据方向

每个方向的日常工作，差异大到不像在同一个行业。

煮啵分开说。

模型训练/预训练

这个方向，是煮啵最确定”真的很忙、真的没时间刷知乎”的方向。

过年群里机器人一直在响，基本就是这帮人的工作状态。

他们在做什么？

日常大量的时间，是在解决训练不稳定的问题。

大模型预训练，动辄几百张卡跑几个月，中间会出各种幺蛾子——

Loss spike，训练loss突然跳高，然后不知道能不能降回来。这种情况出现了要分析是数据问题、学习率问题、还是某个模块的数值问题。

卡挂了，某张卡或者某个节点出了问题，要判断是硬件故障还是软件bug，要决定要不要从上一个checkpoint重启。

梯度爆炸，某一层的梯度突然变得很大，整个训练崩了，要找根因。

这些问题，没有标准答案，靠经验，靠对模型内部的理解，靠profiling工具一点点排查。（这里要插一嘴，最近千问抢占了大量边缘部门的卡呜呜呜，并且还的拖拖拉拉的，可恶！）

另一大块时间，是在做训练效率优化。

几百张卡跑训练，通信开销是真实的瓶颈。张量并行、流水线并行、数据并行怎么配，显存怎么省，计算和通信怎么overlap——这些细节决定了训练速度，也决定了成本。

一个优化能把训练吞吐量提升10%，在几百张A100上跑几个月，省下来的钱是真实的。

还有一块是数据pipeline。

预训练数据量是TB级甚至PB级的，数据怎么清洗、怎么去重、怎么配比、怎么采样——这些决定了模型的基础能力，而且影响很难在训练早期看出来，往往要训完才知道某个数据决策对不对。

这个方向的人，工作时间很难规律，因为训练任务不等人——模型训到一半出问题了，不管几点都要处理。（当然，这里说的是像千问这样的公司重点项目哈哈哈哈，边缘部门就相对来说比较佛系了，咳咳，应该吧）

模型对齐/后训练

这个方向，是大模型从”能用”到”好用”的关键环节。

包括SFT（监督微调）、RLHF（基于人类反馈的强化学习）、DPO（直接偏好优化）这些技术。

日常的核心工作是：数据、数据、还是数据。

SFT需要高质量的指令数据——格式正确、回答准确、风格一致。这些数据从哪来？一部分是外部采购，一部分是内部生成，一部分是人工标注。

数据质量直接决定对齐效果，所以大量的时间花在：

设计数据收集方案，怎么定义”好的回答”，标注规范怎么写，怎么保证标注一致性。

数据清洗，去掉有毒的、格式错的、质量差的数据。

数据配比实验，这类数据多一点还是少一点，对最终效果的影响。

另一块是实验迭代。

改一个数据配比，跑一个小实验，看eval指标，决定要不要大规模复现。

改一个训练超参，再跑，再看，再决定。

这个过程听起来枯燥，但判断”哪个方向值得继续推进”本身需要经验和直觉——不是机械地跑实验。

还有一块是评估。

模型好不好，怎么量化？

自动化eval——各种benchmark，数学、代码、推理、安全……跑分，看有没有regression，有没有提升。

人工eval——让真实用户用，收集反馈，分析哪类问题回答得不好。

红队测试——专门去找模型的边界，看它在什么情况下会输出有害内容，怎么绕过安全限制。

说起来，最近煮啵也被主管安排做相关的实验，呜呜呜，本来是想看论文摸鱼的！

推理优化/部署

这个方向，是煮啵在实验室最熟悉的相关内容，也是vLLM那篇回答聊过的东西。

模型训完了，要部署给用户用。但大模型推理很贵，延迟高，怎么在保证质量的前提下，把成本压下来，把速度提上去——这是这个方向的核心问题。

日常在做什么：

量化——把模型从FP16压到INT8甚至INT4，显存占用砍半，速度提升，精度损失控制在可接受范围内。不同的量化方案在不同模型上效果不一样，要实验。

推理框架调优——vLLM、TensorRT-LLM、自研框架，PagedAttention的参数怎么配，batch size怎么选，KV Cache怎么管理。

算子优化——某个特定操作的CUDA kernel写得不够高效，手写一个更快的版本。这个需要真正懂GPU架构，门槛最高。

投机采样（Speculative Decoding）——用小模型辅助大模型推理，前面煮啵有一篇关于vLLM的回答聊过，这里不展开了。

硬件选型——A100、H100、国产卡……不同硬件的特性不一样，同样的模型在不同硬件上跑出来的性能差距很大，要做评测和选型。

这个方向的人，profiling工具要玩得很熟，Nsight Systems、Nsight Compute，能从trace里看出来瓶颈在哪里。

应用开发/工程落地

这个方向和前三个差别很大，更偏工程，更接近业务。

他们在做什么？

RAG系统——检索增强生成，给模型接上知识库，让它能回答最新的、私有的信息。涉及向量数据库、文本分块策略、检索算法、重排序……

Agent系统——让模型能调用工具，能执行多步任务，能和外部系统交互。这个方向现在很热，但工程上还有很多没解决的问题。

Prompt工程——怎么设计系统prompt，怎么控制模型的输出格式，怎么减少幻觉，怎么提升特定任务的效果。

模型能力评估和选型——业务场景需要哪些能力，哪个模型更适合，怎么做AB测试，怎么量化业务指标的提升。

多模态接入——把图像、语音、视频的能力接进来，涉及不同模态的数据处理、模型对接、输出解析。

这个方向的日常，节奏比前三个快，更贴近业务需求，经常要快速迭代，更像传统的互联网工程师，只是工具换成了大模型。

数据方向

这个方向经常被低估，但在大模型里是真正的基础设施。

数据采集——从哪里获取高质量的训练数据，版权问题怎么处理，数据来源怎么多样化。

数据清洗——去重、去噪、过滤低质量内容、检测有害内容。这个流程的pipeline要处理TB级别的数据，工程要求很高。

数据标注管理——标注规范的设计，标注人员的培训，标注质量的管控，标注一致性的评估。

数据飞轮——模型上线之后，收集用户反馈，把有价值的反馈转化成新的训练数据，让模型持续进化。

这个方向，很多人以为只是”处理数据”，但实际上数据决策直接影响模型能力的上限，做得好的人对这件事有很深的理解，不是体力活。

（咳咳，并且，哈哈哈，我们如果遇到了奇怪的问题，或者是实在找不到原因了，就会把锅扣给数据哈哈哈哈）

说一个煮啵觉得很多人没想到的事

实习的时候，煮啵发现一件事：

做大模型的人，开会的时间比我想象的多很多。

不是无效的扯皮会，是真实的技术讨论——

这个实验方向值不值得继续，为什么这个eval指标提升了但用户反馈没变好，这个数据配比改动背后的逻辑是什么，下一个sprint的优先级怎么排。

这些讨论，需要你对模型有足够深的理解，也需要你能把自己的判断说清楚。

光会跑实验不够，你要能解释实验结果，要能根据结果提出有价值的下一步判断。

这个能力，学校里练不出来，只有在真实的工程环境里才能慢慢建立。

煮啵实习第一个月，开会基本就是在听，完全不知道该说什么。第二个月开始能跟上讨论了。第三个月才开始敢提自己的判断。（这里要夸夸阿里，确实是在认真培养实习生，至少算法岗是这样！每周都让实习生轮流分享论文，要是想发paper也可以请教mt，带薪发论文美滋滋）

最后说一个真实的感受

写这篇的时候，煮啵想起过年那几天，群里机器人的消息一条一条往下刷。

那些数字——loss、perplexity、各个benchmark的分数——背后是真实的人在真实地工作。

他们不会在知乎上写”大模型工程师的一天”，因为他们的一天可能还没结束。

所以这篇里说的东西，是煮啵根据工作文档、进度报告、周会内容拼出来的，不是第一手的亲历。

如果有真正在这个岗位上的人看到这篇，欢迎来评论区补充或者纠正——你们的一手经验，比煮啵猜的准确多了。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要《AI大模型入门+进阶学习资源包》，下方扫码获取~

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。