当前位置：首页 > news >正文

推理框架负责人 — 学习路线（inference-framework-learning-path）

news 2026/7/17 23:14:47

推理框架负责人 — 学习路线

目标：6个月从AI Infra深入到推理框架核心

为什么嵌入式工程师最适合做推理优化

推理优化本质是在GPU上做嵌入式开发：

嵌入式	推理框架	思维映射
MCU寄存器编程	CUDA寄存器/共享内存	手写PTX=手写汇编
DMA传输优化	显存拷贝/异步传输	数据搬运的延迟隐藏
中断延迟 ≤ 10μs	推理延迟 ≤ 50ms	时延敏感系统
静态内存池	KV-cache预分配	显存预算管理
FOC PWM死区补偿	Kernel launch overlap	流水线气泡消除
Bootloader	模型加载/热更新	二进制加载+校验

6个月学习计划

Phase 1：CUDA 基础（Month 1-2）

目标：写出比cuBLAS快的自定义kernel

周次	主题	内容	检验
W1	GPU体系结构	SM/Warp/线程束/内存层次/occupancy	能画出A100 SM架构图
W2	CUDA编程模型	grid/block/thread、shared memory、bank conflict	矩阵乘法 > cuBLAS 80%性能
W3	CUDA内存优化	合并访问/向量化加载/异步拷贝	GEMM kernel手写优化
W4	CUDA Stream	多流并发/cuBLAS多流/cuBLAS+custom混合	两个kernel并行执行

核心项目：手写 GEMM kernel

基线: cuBLAS cublasSgemm (120 TFLOPS on A100) Week 2: naive GEMM → 2 TFLOPS Week 3: tiling + smem → 20 TFLOPS Week 4: double buffer + async copy → 40 TFLOPS 目标: 达到cuBLAS 50%+ 性能

关键资源：

《CUDA C++ Programming Guide》前5章
github.com/NVIDIA/cutlass— 生产级GEMM模板库
Simon Boehm的"How to Optimize a CUDA Matmul Kernel"博客

Phase 2：推理引擎原理（Month 3-4）

目标：理解vLLM/TensorRT-LLM的每一行关键代码

周次	主题	内容	产出
W5-6	vLLM深度解剖	PagedAttention/KV-cache管理/调度器/前缀缓存	vLLM源码分析系列笔记
W7	量化原理	GPTQ/AWQ/FP8/INT4、act-order/group-size	手写一个INT8量化kernel
W8	FlashAttention	分块计算/softmax rescaling/反向传播	手写FlashAttention forward

vLLM精读清单（优先级从高到低）：

1. vllm/worker/model_runner.py ← 模型加载+推理循环 2. vllm/core/block_manager.py ← KV-cache块管理(PagedAttention核心) 3. vllm/core/scheduler.py ← 请求调度器 4. vllm/attention/backends/flash_attn.py ← FlashAttention集成 5. vllm/model_executor/layers/fused_moe/ ← MoE kernel (DeepSeek相关)

核心项目：手写 PagedAttention

输入: Q tensor, 分页的KV-cache块表 输出: attention output 关键: 不用cuDNN，纯CUDA实现分页注意力 对比: 与vLLM的PagedAttention kernel性能对比

Phase 3：高级优化（Month 5-6）

目标：独立设计和实现推理优化方案

周次	主题	内容	产出
W9-10	投机解码	Medusa/Eagle/自回归投机树搜索	手写投机解码kernel
W11	PD分离	Prefill-Decode分离、micro-batching	实现PD分离调度器
W12	综合实战	自建Mini推理引擎	Mini推理引擎+benchmark

核心项目：Mini Inference Engine

Mini Inference Engine (纯C++/CUDA, ~3000行) ├── model_loader ← safetensors/gguf加载 ├── attention ← PagedAttention + FlashAttention ├── kv_cache ← 块管理+LRU淘汰 ├── sampler ← top-p/top-k/temperature ├── scheduler ← continuous batching ├── quantization ← INT8/FP8量化支持 └── api_server ← OpenAI兼容HTTP接口

对标测试：

模型: Llama-3-8B on A100 vLLM baseline: 2000 tok/s (throughput) Mini Engine V1: 1000 tok/s (50% baseline) Mini Engine V2: 1500 tok/s (75% baseline) ← 及格

能力检查清单

CUDA

手写GEMM达到cuBLAS 50%+ 性能
消除bank conflict、合并全局内存访问
多Stream并行、异步拷贝隐藏延迟
理解Tensor Core编程模型（m16n8k16等）

推理引擎

能画出PagedAttention的内存布局
理解vLLM调度器的3种排队策略（FCFS/Priority/Preempt）
理解Continuous Batching vs Static Batching
知道Prefix Caching如何检测和复用

量化

GTPQ/AWQ的数学原理（Hessian-based/activation-aware）
FP8 E4M3 vs E5M2的选择依据
量化对attention和FFN的影响差异
手写INT8矩阵乘法kernel

投机解码

理解Medusa Tree Attention的树形掩码
知道投机解码的吞吐-延迟 tradeoff
实现draft model + target model的验证循环

系统

用Nsight Systems分析推理pipeline瓶颈
用Nsight Compute分析单个kernel性能
理解GPU显存碎片问题和解决方案

简历项目清单

🥇 Mini Inference Engine（核心项目）

一个纯C++/CUDA实现的轻量级推理引擎

PagedAttention + FlashAttention
Continuous Batching
OpenAI兼容API
面试价值：直接证明你能胜任推理框架岗位

🥈 手写 GEMM Kernel

从naive到tiling到double buffer的渐进优化

完整benchmark对比cuBLAS
Nsight Compute profiling分析
面试价值：CUDA功底的硬通货

🥉 vLLM源码分析系列

公开发表的深度技术文章

PagedAttention内存管理
调度器设计
前缀缓存机制
面试价值：证明你的技术品味和表达能力

4️⃣ PD分离调度器原型

实现Prefill-Decode分离的调度策略

延迟敏感度分析
吞吐-延迟Pareto曲线
面试价值：前沿方向，面试官感兴趣的话题

时间表

阶段	月份	重点	每周投入
Phase 1	M1-2	CUDA基础 + GEMM	20h
Phase 2	M3-4	vLLM + 量化 + FlashAttention	20h
Phase 3	M5-6	投机解码 + Mini引擎	25h（冲刺）
总计	6个月	~520h

http://www.jsqmd.com/news/867936/

相关文章：

量子优化算法ITEMC：原理、实现与应用

打开U盘文件夹变成.exe的问题：在MAC ios中的解决办法

旋转图像：从矩阵转置、镜像到坐标变换的系统理解

QuantDinger 本地部署实战：5 分钟跑通 AI 量化系统，值不值？

收藏！2026年AI风口来袭，普通人也能抓住高薪机会，附7步学AI路线图

熵与编码：工业数据压缩的数学奥秘

深入理解关系数据库三范式

气动黄油机核心技术解析：泵的选择与厂家评估方法论

东莞AI培训排名情况分析与技术问题排查实践

口碑好的经销商管理系统哪家

NotebookLM样本量计算实战手册（含Python自动计算脚本+置信度校验表）

Keil MDK中实现原始以太网数据接收与协议处理

微信小程序年度费用全拆解：SaaS、开源与定制开发的3年成本实测对比

指针（一）

推荐1款提升办公效率神器，文件(夹)批量重命名工具

Servlet 表单数据处理指南

独立开发者如何利用Taotoken一站式解决模型选型与接入难题

超低功耗语音识别加速器：SNN与硬件协同设计

从技术实现角度聊聊全屋定制：一套柜子的品质由哪些底层因素决定

2026年近期青少年自行车厂家综合实力评估与联系指南 - 2026年企业推荐榜

《PHP 测验》

大模型提示词压缩技术全景：五大类方法解析与应用指南

20251910 2025-2026-2 《网络攻防实践》第8次作业

大模型推理平台优选推荐榜单——白菜大模型推理平台深度评测与选型指南

2026 年 GPT-5.5 技术架构与模型分层定价：mini 与 nano 版本的取舍逻辑

Cortex-M7 AXI接口设计与性能优化指南

MMU初始化与预测执行：避免系统崩溃的关键细节

受众洞察 vs 传统市场调研：2026 年决策者指南

沙伯基础创新塑料：高性能工程材料解决方案解析

OpenAI 与 Anthropic 财务大比拼：一家亏损求上市，一家盈利逆袭在望！