收藏!小白程序员必看:AI职业选择深度解析与避坑指南
本文深入探讨了AI相关职业路径,涵盖AI基础设施、大模型数据工程、评测工程、具身智能等多个方向。作者详细分析了具身智能领域的挑战与现状,建议谨慎选择。同时,文章重点介绍了AI基础设施工程师的职责与层级,包括算子优化、编译器研发、分布式系统等,并指出学历在AI Infra领域的重要性。最后,作者推荐解决方案工程师和Agent harness工程师作为更务实的选择。对于想要进入AI领域的小白程序员,本文提供了宝贵的职业规划参考和避坑建议。
本文详细解释了关于AI相关职业选择的思考。
以下是我经过调研后得出的方向,但后文会详细阐述我会淘汰哪些部分,以及为什么。
我观察到的几个方向
AI Infra / AI 基础设施工程
构建分布式训练平台,做资源调度与 DevOps,再往上走就是主管公司 AI 基础设施。
大模型数据工程
面向训练、评测、应用的数据管线,包括:
- 采集
- 清洗
- 去重
- 标注
- 质量控制
- 样本增强
- 数据分布治理
Benchmark 评测工程
设计任务集、评测集、指标体系、红队测试、回归用例和对比平台。
核心不在“手工测试”,而在于把模型质量体系工程化。
具身智能数据工程师
做数据采集、清洗、切片、标注、质检、存储、版本管理、数据回放、训练数据读取接口,让算法团队可以稳定拿到高质量数据训练模型。
具身智能仿真工程师
使用 Isaac Sim、Gazebo、MuJoCo、Unity、Unreal 等平台搭建仿真环境;导入机器人 URDF / SDF;调整关节、碰撞、摩擦、传感器;做 RGB、深度图、LiDAR、IMU 等传感器仿真;批量跑实验;支持 Sim2Real,把仿真中训练出的策略迁移到真实机器人。
SIT 的机器人仿真岗位其实就很典型:维护多平台仿真环境、设计机器人 / 环境 / 传感器 / 物理配置资产、调物理参数、做传感器仿真、支持 Sim2Real、接 ROS / ROS2、自动化实验。
具身智能评测工程师
设计 benchmark、测试任务、评分指标、自动化评测脚本、失败案例分析、测试报告。
比如具身 VLA 测评岗位,通常会要求构建多维度、可量化的 benchmark,覆盖感知、认知、规划、控制等链路。
仿真岗位里也经常包含 benchmarking 和系统级评测,因为仿真本身就是测试模型的重要平台。
高性能计算工程师
高性能计算工程师处于 AI 工程化的金字塔尖,主要负责:
- 算力芯片底层的性能压榨
- 跨节点通信优化(如 NVLink 机制)
- 深度学习框架的底层重构
解决方案工程师(FDE)或前沿部署工程师
这是衔接客户与研发的桥梁。
把客户需求转化为产品,提供 demo 说服客户,在客户侧部署,对研发侧做反馈与协调。
Agent harness 工程师
Agent = Model + Harness。
这个方向更多是在构建 AI 与现实世界之间连接的系统、工具和桥梁。做产品会很关键。
可以分成三个大方向
我觉得大体上可以拆成三个方向:
具身智能方向
AI Infra 方向
AI 应用方向
关于具身智能
关于具身智能,不得不说的是,这绝对不是短期内的好方向。
具身智能远未成熟。现在即使是最好的模型,实际执行特定任务的成功率也还不高。而机器人在现实场景中的容错极低,做错一点带来的后果也不小,比如摔坏杯子、打烂东西。
如果想提升这个成功率,而且仅仅只是单任务成功率,就需要克服以下问题:
硬件问题:维护、损坏、灵活度等。
数据严重不足:即使想从人类视频数据学习,也需要先拥有一个对世界有基本认知的模型。想实现通用性,数据会成为严重瓶颈,长尾场景太多了,具身智能注定只能先从特定工业领域优化下手。
Gap 问题:仿真环境与实机表现差距很大,仿真环境和现实环境差距大,不同实机机器人之间也有 gap。想实现迁移和泛化,还有很多问题要攻克。
仅靠视觉不够:只靠视频数据、只靠视觉,并不足以实现通用具身智能。很多场景需要预判,不仅需要物理规则,还需要识别不同对象的意图。再进一步,人闭上眼睛也能从口袋拿东西、能挠痒,这说明我们的大脑即使闭眼也对空间有认知,而现在的模型做不到。触觉、听觉、嗅觉在一些场景下也很重要,而这些都需要大量高质量数据。
安全性:机器人犯错的后果太大。
以上这些问题注定了具身智能无法在 3 到 5 年内成熟,甚至 10 年都难说。
所以我觉得,不适合过早进入这个领域。
而且具身智能不像 LLM,LLM 依赖网络传播,机器人不行。一方面你需要庞大的机器人基数,而机器人基数又依赖于具身智能是否已经能解决现实任务,这本身就是一个循环。
也就是说,具身智能即使到达 GPT-3 时刻,它的扩张也会是缓慢的。
到那个时候再入局,依旧会有海量机会。
而且机器人未必是人形,各种各样形态的专用机器人都会出现,自动驾驶就是其中一个。
这也是我为什么不太建议别人现在去从事具身智能行业,除非你真的非常有热情,愿意赌。
因此,我们可以先淘汰掉和具身智能强绑定的方向。
关于 AI Infra
AI Infra 有很多子方向,我们需要从最底层开始解构。
从芯片往上看
AI 芯片有很多类型:
- GPU
- NPU
- TPU
- LPU
针对不同用途与模型底层,会有不同优化。芯片之上还需要有汇编与指令集。
再往上是并行计算框架,比如:
- CUDA
- CANN
再往上是 AI 编译器与 DSL,比如:
- Triton
- TVM
- XLA
再往上是分布式通信:
- InfiniBand
- RDMA
- NCCL
- HCCL
然后是深度学习框架:
- PyTorch
- TensorFlow / JAX
- MindSpore
再到推理与训练加速:
- 推理引擎:vLLM、SGLang、TensorRT
- 算子融合与量化
- 训练加速:DeepSpeed、Megatron-LM
再往上是资源调度与虚拟化、容器化编排:
- Kubernetes
- Docker
- MIG
- vGPU
再上层,就是一些跟传统后端和应用更相关的东西了。
一个我认为必须避免的方向
不要尝试去做与 GPU 不相关的泛 AI 应用工程,比如那种把 AI 集成到企业里的宽泛岗位。
因为这里会导致竞争飞速加剧。比如所谓 AI 应用工程师,这里面会挤满很多转岗过来的人,竞争激烈程度会非常接近前端和 Java 后端。
实际上,后端转向 AI Infra 是相对容易的,这也是一个不错的长期方向。
不同层级对应的岗位
算子 / 高性能计算(HPC)
关键词:
- GPU / NPU / LPU 架构
- 汇编指令集
- CUDA
- CANN
核心职责:
针对特定芯片架构开发和优化深度学习算子,比如矩阵乘法、卷积,手写内核代码,解决算力瓶颈。
AI 编译器研发
关键词:
- Triton
- TVM
- XLA
- MLIR
- LLVM
核心职责:
做图层面的优化,比如算子融合、显存优化、底层代码生成,以及图编译器与不同硬件后端的对接。
大模型训练 / 分布式系统
关键词:
- InfiniBand
- RDMA
- NCCL / HCCL
- DeepSpeed
- Megatron-LM
- PyTorch / JAX
核心职责:
设计并优化分布式训练策略,比如数据并行、张量并行、流水线并行等;解决多机多卡通信带宽瓶颈;优化 checkpoint 读写;保证长时间训练的容错与稳定性。
AI 部署与推理服务加速(推理引擎)
关键词:
- vLLM
- SGLang
- TensorRT
- ONNX Runtime
- 算子融合
- KV Cache 优化
- 模型量化(FP8 / INT8 / INT4)
核心职责:
针对业务场景对模型进行极致的推理加速,降低 token 吐出延迟,提升吞吐量。
AI 平台 / 云原生调度工程师
关键词:
- Kubernetes
- Docker
- MIG
- vGPU
- Golang
- 传统微服务架构
核心职责:
管理成百上千张显卡资源,实现 GPU 资源的虚拟化隔离、池化、弹性扩缩容、任务排队调度,以及 AI 训练平台的后端接口开发。
一个很现实的问题
这些层之间其实是互相可以融合的,向上向下都可以。
但我也联系了多个 AI Infra 行业从业者,他们普遍认为这个行业对学历要求高。如果没有学历,就必须在著名开源项目上做核心贡献,而且往往不是一年内就能做到的,进大厂的难度也会更高。
我的现实结论
综上所述,我目前认为:
- 解决方案工程师(FDE)或前沿部署工程师
- Agent harness 工程师
才是更务实的选择。
最后
如果说程序员已经是高薪职业,那么干AI的程序员,就是高薪中的高薪。
现在的市场,已经用数据给程序员指明了方向:学AI大模型,就是冲刺高薪的最优解!
看着身边越来越多的同行转型大模型、拿到高薪offer,很多人心里都动了心,但真正的难题来了:零基础小白不知道从哪入门?有基础的程序员找不到系统学习路径?实战项目练手无门?面试不知道考什么?
别慌!今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包,覆盖从入门到实战、从理论到面试、从基础到进阶的全流程,所有资料均已整理归档,无冗余、无套路,免费分享给每一位想抓住AI风口的程序员和小白!
👇👇扫码免费领取全部内容👇👇
1、大模型系统化学习路线
2、大模型学习书籍&文档
3、AI大模型最新行业报告
4、大模型项目实战&配套源码
5、大模型大厂面试真题
四阶段精细化学习规划(附时间节点,可直接照做)
结合上述资源,给大家整理了一份可直接落地的四阶段学习规划,总时长约2个月,小白可循序渐进,程序员可根据自身基础调整节奏,高效掌握大模型核心能力,快速实现从“入门”到“能落地、能面试”的跨越。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
👇👇扫码免费领取全部内容👇👇
6、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
