当前位置: 首页 > news >正文

推理框架负责人 — 学习路线 (inference-framework-learning-path)

推理框架负责人 — 学习路线

目标:6个月从AI Infra深入到推理框架核心


为什么嵌入式工程师最适合做推理优化

推理优化本质是在GPU上做嵌入式开发

嵌入式推理框架思维映射
MCU寄存器编程CUDA寄存器/共享内存手写PTX=手写汇编
DMA传输优化显存拷贝/异步传输数据搬运的延迟隐藏
中断延迟 ≤ 10μs推理延迟 ≤ 50ms时延敏感系统
静态内存池KV-cache预分配显存预算管理
FOC PWM死区补偿Kernel launch overlap流水线气泡消除
Bootloader模型加载/热更新二进制加载+校验

6个月学习计划

Phase 1:CUDA 基础(Month 1-2)

目标:写出比cuBLAS快的自定义kernel

周次主题内容检验
W1GPU体系结构SM/Warp/线程束/内存层次/occupancy能画出A100 SM架构图
W2CUDA编程模型grid/block/thread、shared memory、bank conflict矩阵乘法 > cuBLAS 80%性能
W3CUDA内存优化合并访问/向量化加载/异步拷贝GEMM kernel手写优化
W4CUDA Stream多流并发/cuBLAS多流/cuBLAS+custom混合两个kernel并行执行

核心项目:手写 GEMM kernel

基线: cuBLAS cublasSgemm (120 TFLOPS on A100) Week 2: naive GEMM → 2 TFLOPS Week 3: tiling + smem → 20 TFLOPS Week 4: double buffer + async copy → 40 TFLOPS 目标: 达到cuBLAS 50%+ 性能

关键资源

  • 《CUDA C++ Programming Guide》前5章
  • github.com/NVIDIA/cutlass— 生产级GEMM模板库
  • Simon Boehm的"How to Optimize a CUDA Matmul Kernel"博客

Phase 2:推理引擎原理(Month 3-4)

目标:理解vLLM/TensorRT-LLM的每一行关键代码

周次主题内容产出
W5-6vLLM深度解剖PagedAttention/KV-cache管理/调度器/前缀缓存vLLM源码分析系列笔记
W7量化原理GPTQ/AWQ/FP8/INT4、act-order/group-size手写一个INT8量化kernel
W8FlashAttention分块计算/softmax rescaling/反向传播手写FlashAttention forward

vLLM精读清单(优先级从高到低):

1. vllm/worker/model_runner.py ← 模型加载+推理循环 2. vllm/core/block_manager.py ← KV-cache块管理(PagedAttention核心) 3. vllm/core/scheduler.py ← 请求调度器 4. vllm/attention/backends/flash_attn.py ← FlashAttention集成 5. vllm/model_executor/layers/fused_moe/ ← MoE kernel (DeepSeek相关)

核心项目:手写 PagedAttention

输入: Q tensor, 分页的KV-cache块表 输出: attention output 关键: 不用cuDNN,纯CUDA实现分页注意力 对比: 与vLLM的PagedAttention kernel性能对比

Phase 3:高级优化(Month 5-6)

目标:独立设计和实现推理优化方案

周次主题内容产出
W9-10投机解码Medusa/Eagle/自回归投机树搜索手写投机解码kernel
W11PD分离Prefill-Decode分离、micro-batching实现PD分离调度器
W12综合实战自建Mini推理引擎Mini推理引擎+benchmark

核心项目:Mini Inference Engine

Mini Inference Engine (纯C++/CUDA, ~3000行) ├── model_loader ← safetensors/gguf加载 ├── attention ← PagedAttention + FlashAttention ├── kv_cache ← 块管理+LRU淘汰 ├── sampler ← top-p/top-k/temperature ├── scheduler ← continuous batching ├── quantization ← INT8/FP8量化支持 └── api_server ← OpenAI兼容HTTP接口

对标测试

模型: Llama-3-8B on A100 vLLM baseline: 2000 tok/s (throughput) Mini Engine V1: 1000 tok/s (50% baseline) Mini Engine V2: 1500 tok/s (75% baseline) ← 及格

能力检查清单

CUDA

  • 手写GEMM达到cuBLAS 50%+ 性能
  • 消除bank conflict、合并全局内存访问
  • 多Stream并行、异步拷贝隐藏延迟
  • 理解Tensor Core编程模型(m16n8k16等)

推理引擎

  • 能画出PagedAttention的内存布局
  • 理解vLLM调度器的3种排队策略(FCFS/Priority/Preempt)
  • 理解Continuous Batching vs Static Batching
  • 知道Prefix Caching如何检测和复用

量化

  • GTPQ/AWQ的数学原理(Hessian-based/activation-aware)
  • FP8 E4M3 vs E5M2的选择依据
  • 量化对attention和FFN的影响差异
  • 手写INT8矩阵乘法kernel

投机解码

  • 理解Medusa Tree Attention的树形掩码
  • 知道投机解码的吞吐-延迟 tradeoff
  • 实现draft model + target model的验证循环

系统

  • 用Nsight Systems分析推理pipeline瓶颈
  • 用Nsight Compute分析单个kernel性能
  • 理解GPU显存碎片问题和解决方案

简历项目清单

🥇 Mini Inference Engine(核心项目)

一个纯C++/CUDA实现的轻量级推理引擎

  • PagedAttention + FlashAttention
  • Continuous Batching
  • OpenAI兼容API
  • 面试价值:直接证明你能胜任推理框架岗位

🥈 手写 GEMM Kernel

从naive到tiling到double buffer的渐进优化

  • 完整benchmark对比cuBLAS
  • Nsight Compute profiling分析
  • 面试价值:CUDA功底的硬通货

🥉 vLLM源码分析系列

公开发表的深度技术文章

  • PagedAttention内存管理
  • 调度器设计
  • 前缀缓存机制
  • 面试价值:证明你的技术品味和表达能力

4️⃣ PD分离调度器原型

实现Prefill-Decode分离的调度策略

  • 延迟敏感度分析
  • 吞吐-延迟Pareto曲线
  • 面试价值:前沿方向,面试官感兴趣的话题

时间表

阶段月份重点每周投入
Phase 1M1-2CUDA基础 + GEMM20h
Phase 2M3-4vLLM + 量化 + FlashAttention20h
Phase 3M5-6投机解码 + Mini引擎25h(冲刺)
总计6个月~520h

http://www.jsqmd.com/news/867936/

相关文章:

  • 量子优化算法ITEMC:原理、实现与应用
  • 打开U盘文件夹变成.exe的问题:在MAC ios中的解决办法
  • 旋转图像:从矩阵转置、镜像到坐标变换的系统理解
  • QuantDinger 本地部署实战:5 分钟跑通 AI 量化系统,值不值?
  • 收藏!2026年AI风口来袭,普通人也能抓住高薪机会,附7步学AI路线图
  • 熵与编码:工业数据压缩的数学奥秘
  • 深入理解关系数据库三范式
  • 气动黄油机核心技术解析:泵的选择与厂家评估方法论
  • 东莞AI培训排名情况分析与技术问题排查实践
  • 口碑好的经销商管理系统哪家
  • NotebookLM样本量计算实战手册(含Python自动计算脚本+置信度校验表)
  • Keil MDK中实现原始以太网数据接收与协议处理
  • 微信小程序年度费用全拆解:SaaS、开源与定制开发的3年成本实测对比
  • 指针(一)
  • 推荐1款提升办公效率神器,文件(夹)批量重命名工具
  • Servlet 表单数据处理指南
  • 独立开发者如何利用Taotoken一站式解决模型选型与接入难题
  • 超低功耗语音识别加速器:SNN与硬件协同设计
  • 从技术实现角度聊聊全屋定制:一套柜子的品质由哪些底层因素决定
  • 2026年近期青少年自行车厂家综合实力评估与联系指南 - 2026年企业推荐榜
  • 《PHP 测验》
  • 大模型提示词压缩技术全景:五大类方法解析与应用指南
  • 20251910 2025-2026-2 《网络攻防实践》第8次作业
  • 大模型推理平台优选推荐榜单——白菜大模型推理平台深度评测与选型指南
  • 2026 年 GPT-5.5 技术架构与模型分层定价:mini 与 nano 版本的取舍逻辑
  • Cortex-M7 AXI接口设计与性能优化指南
  • MMU初始化与预测执行:避免系统崩溃的关键细节
  • 受众洞察 vs 传统市场调研:2026 年决策者指南
  • 沙伯基础创新塑料:高性能工程材料解决方案解析
  • OpenAI 与 Anthropic 财务大比拼:一家亏损求上市,一家盈利逆袭在望!