AI Infra 后端开发工程师 — 学习路线
AI Infra 后端开发工程师 — 学习路线
目标:3个月可切换到AI Infra后端岗位
能力迁移地图
| AI Infra 对应 | 迁移成本 |
|---|---|
| Goroutine调度/并发控制 | 思维直接复用 |
| Agent会话生命周期管理 | 设计模式相同 |
| SSE/WebSocket流式协议 | 实时系统思维 |
| GPU显存管理/KV-cache | 资源约束优化思维 |
| 推理延迟优化/负载均衡 | 时延敏感系统经验 |
| Go微服务/K8s | 后端架构相通 |
| Python推理网关开发 | 直接可用 |
3个月学习计划
Month 1:Go语言 + 云原生基础
目标:能用Go写生产级后端服务,理解容器化部署
| 周次 | 主题 | 内容 | 产出 |
|---|---|---|---|
| W1 | Go基础速成 | goroutine/channel/interface/error处理 | 写过C的人Go基础1周够 |
| W2 | Go并发实战 | context/sync/semaphore/worker pool | 实现一个RTOS-task-scheduler的Go版 |
| W3 | gRPC + Protobuf | service定义/流式RPC/拦截器/超时重试 | 写一个EtherCAT从站协议的gRPC版 |
| W4 | Docker + K8s入门 | Dockerfile/Pod/Service/Deployment/ConfigMap | 把W3的服务容器化部署到minikube |
关键资源:
- 《Go程序设计语言》前8章
gobyexample.com— 每天刷20个例子github.com/grpc/grpc-go/examples— 官方gRPC示例
Month 2:消息中间件 + 推理网关理解
目标:理解AI推理服务的后端基础设施
| 周次 | 主题 | 内容 | 产出 |
|---|---|---|---|
| W5 | Redis深度 | Stream/发布订阅/分布式锁/Lua脚本 | 用Redis Stream实现一个任务队列 |
| W6 | 消息队列 | Kafka/NATS基础、消费者组、消息可靠性 | 用NATS实现多Agent消息总线 |
| W7 | vLLM推理网关 | 源码阅读:API server/调度器/显存管理 | 写vLLM架构分析笔记 |
| W8 | HTTP流式协议 | SSE实现/WebSocket/长连接管理 | 实现一个SSE推送服务 |
关键资源:
redis.io/docs— Redis Stream教程github.com/vllm-project/vllm— 重点看vllm/entrypoints/openai/api_server.py和vllm/core/scheduler.pynats.io— NATS官方文档(比Kafka更适合Agent场景)
Month 3:实战项目 — 自建Agent推理网关
目标:从0搭建一个可运行的多模型推理网关
项目:Mini Hermes Gateway
┌──────────────────────────────────────────┐ │ API Gateway (Go) │ │ /v1/chat/completions (SSE streaming) │ │ /v1/models │ │ /v1/health │ └──────────────┬───────────────────────────┘ │ gRPC ┌──────────────▼───────────────────────────┐ │ Model Router (Go) │ │ 负载均衡 / 模型选择 / 队列管理 │ └──────┬──────────────┬────────────────────┘ │ │ ┌──────▼──────┐ ┌─────▼──────┐ │ vLLM node 1 │ │ vLLM node 2│ │ (GPU 0) │ │ (GPU 1) │ └─────────────┘ └────────────┘| 周次 | 模块 | 技术点 |
|---|---|---|
| W9 | API Gateway | OpenAI兼容API、SSE流式、速率限制 |
| W10 | Model Router | 轮询/最少连接/显存感知路由 |
| W11 | 会话管理 | Redis会话存储、多轮对话状态机 |
| W12 | 压测+优化 | wrk/vegeta压测、pprof分析、部署文档 |
简历项目清单(按优先级)
🥇 Mini Hermes Gateway(核心项目)
- Go实现OpenAI兼容推理网关
- 支持多模型路由 + SSE流式 + Redis会话管理
- Docker Compose一键部署
- 面试价值:直接对应AI Infra日常工作的80%
🥈 RTOS Scheduler in Go(展示并发功底)
- 用Go实现一个抢占式调度器
- 支持优先级反转检测、deadline调度
- 面试价值:证明并发编程深度理解,嵌入式背景正确定价
🥉 gRPC Bridge(展示协议设计能力)
- 协议栈用gRPC重新实现
- 支持流式数据传输、从站配置协议
- 面试价值:证明能从0设计通信协议,这是AI Infra核心能力
4️⃣ vLLM源码分析笔记
- 推理引擎架构、KV-cache管理、PD分离
- 公开发在技术博客/GitHub
- 面试价值:证明你对AI推理系统有深度理解,不是只会调API
每周时间分配
| 时段 | 内容 | 时长 |
|---|---|---|
| 工作日晚上 20:00-22:00 | 理论学习 + 阅读源码 | 2h×5=10h |
| 周六 9:00-12:00 | 项目实战 + 代码 | 3h |
| 周六 14:00-17:00 | 项目实战 + 代码 | 3h |
| 周日 10:00-12:00 | 整理笔记 + 复盘 | 2h |
| 每周总计 | ~18h |
关键里程碑
| 时间 | 里程碑 | 检验标准 |
|---|---|---|
| 第2周末 | Go gRPC服务能跑 | EtherCAT-gRPC Bridge v0.1 |
| 第4周末 | K8s部署自己的服务 | minikube上3个pod互访 |
| 第6周末 | vLLM架构吃透 | 能给别人讲清楚调度器+显存管理 |
| 第8周末 | SSE流式推送服务 | 100并发稳定推送 |
| 第10周末 | Mini Hermes v0.1 | 单模型推理网关跑通 |
| 第12周末 | Mini Hermes v1.0 | 多模型路由+压测报告+部署文档 |
