速度即护城河:AMD GPU 上的推理性能
速度即护城河:AMD GPU 上的推理性能
原文作者:Andy Luo, Lingpeng Jin, Carlus Huang, Chuan (Richard) Li, Peng Sun, Emad Barsoum, Ramine Roane
在生成式AI 的现实场景中,推理性能的竞争正在从静态跑分转向“迭代速度”。InferenceX 作为我们软件栈迭代速度的“试炼场”,用可复现的工程改进来验证端到端推理的提速。
我们认为真正的“领先能力”不应依赖无法在生产复现的脚本化“快照性能”。我们正持续交付满足 FP8 生产需求、并兼具 FP4 能力的突破。而且这些改进是结构性的:通过对 vLLM、SGLang 等开源推理引擎的原生适配,让用户在标准工作流中直接享受性能提速。
I.核心突破:分布式推理(DI)的“速度曲线”上移
过去几周,在分布式场景中,我们通过计算与通信软件的大幅优化,使整体性能曲线明显上移。这些提升直接体现在端到端吞吐与交互体验的改善。
解决通信与Prefill 瓶颈
对于像DeepSeek R1(DSR1)这类大模型,分布式推理(DI)的效率决定了部署的成本与规模。
- 预填充(Prefill)瓶颈消除:Prefill 曾是分布式推理端到端性能的主要限制。我们通过并行结构重构,将 prefill 吞吐约提升一倍,使 DSR1 FP8 8K/1K 的分布式每 GPU 吞吐从 2K 提升到 3K(在一周内)。该结果已达到或超过公开基线 ~2.2K。
- 通信重叠(Communication Overlap):利用“通信气泡”与计算重叠,在中高交互区间实现对齐或更优表现。
II. MoRI:低时延互联的“引擎”
为实现上述分布式突破,我们工程化了MoRI(Modular RDMA Interface)。MoRI 作为通信性能与时延优化的架构“底座”,通过通用原语与内核调度,最大化带宽利用并降低端到端时延。
- Expert Parallelism(MORI-EP):面向大规模MoE(Mixture-of-Experts)模型(如 DeepSeek-R1),提供高性能的专家分发与聚合内核。近期的内核级优化将时延降低至最多约 82%,使 HBM、XGMI、RDMA 等通信开销接近理论上限。
- 自适应内核选择:MoRI 能自动切换高吞吐内核(用于prefill 与高并发 decode)与低时延内核(用于低并发场景)。预调度的启动配置确保最大化CU 利用率。
- 统一流量控制:KV 传输引擎(MoRI-IO)与 MoE 专家并行皆构建于 MoRI 的通用原语之上,可统一进行网络优先级管理。通过联合优化 KV 传输与 token 分发流量,促进协调的数据搬运与持续的网络效率。
基于以上优化与调优,AMD GPU 在 DeepSeek FP8 的分布式推理性能(InferenceX v2)在 7 天内获得显著提升,覆盖 1K/1K 与 8K/1K 两类场景。这一改进速度体现了栈的持续演进节奏。
图1:DSR1 FP8 SGLang 分布式推理(8K/1K)随时间的进展
III.单机与 MTP:定义新的交互标准
单机性能是推理的基石;Multi-Token Prediction(MTP)则是改善交互体验的关键特性。
单机性能
通过在AITER 库内进行内核融合与针对性优化,我们提升了单机配置下的计算效率与整体硬件利用率。对于具有代表性的大模型工作负载,单机推理相对框架基线可获得约 1.08x–1.2x 的吞吐提升。这些增益已在面向客户的 PoC 中验证,能够在实际部署环境中带来可衡量的性能改善。
例如,我们与社区在Qwen3 延迟优化的合作,展示了软硬协同如何转化为可复现的性能收益。Qwen3 延迟优化 [1]
MTP:交互体验的“代际跃升”
我们利用MTP 在保持模型精度的同时,降低有效 decode 时延。在评估的交互区间内,AMD GPU 结合 MTP 的每 GPU 吞吐表现更高。
IV. 从 Day-0 支持到持续优化
我们的目标非常明确:新模型Day-0 即可跑通,其后通过迭代持续提速。近期的 Qwen3 Coder Next 在 AMD GPU 上的 Day-0 支持,正是这一策略的体现。Day-0 支持文章 [2]
我们直接与vLLM、SGLang 集成,确保与标准开源工作流的即时兼容,同时在内核、通信与并行策略上持续优化。这样客户既能“即刻部署”,又能随软件演进获得持续的性能增益。
在分布式服务中,系统架构与工作负载特性同样重要。机架级系统在特定场景中具备优势,而高交互服务强调对时延的敏感性。我们的重点是:在全交互谱系上交付稳健、可生产的性能。
V. 路线图:生态普适与原生集成策略
我们坚持“原生集成”路线,优先与社区保持一致,避免生态碎片化。路线图将把 ATOM 的核心能力深度集成到主流开源框架中,确保客户通过标准工具即可发挥 AMD GPU 的峰值能力。
1. 双轨集成:性能与生态的双重对齐
- vLLM 集成:与 vLLM 上游保持对齐,并通过 Out-of-Tree(OOT)路径交付优化内核,无需修改核心代码。既保留生态兼容,又实现 Day-0 性能。vLLM + ATOM 在吞吐上相对 vLLM 原生可获得最高约 1.2x 的提升。
- SGLang 对齐:ATOM 作为新模型与新硬件的高速度后端,在 SGLang 中直接集成优化内核。功能与精度完成验证,并持续进行基准测试,确保无缝性能表现。
- 2026 年上半年功能路线:从“冲刺”到“规模化”
我们将分阶段推进,从技术PoC 走向生产就绪的生态普适,使 FP4、disaggregation、WideEP 等能力完全可组合,支持大规模部署。
阶段目标与特性(2026 年上半年)
结语
速度是我们的护城河。我们会在推理软件栈的各层持续执行、每周推进性能。
这也是更大范围执行路线图的一部分。AMD系列GPU 与 Helios 已在实验室取得良好进展,我们正按计划推进软硬件验证,预计下半年实现量产爬坡与首批客户部署。
参考链接
[1] Qwen3 延迟优化:https://lmsys.org/blog/2026-02-11-Qwen-latency/
[2] 引用文章:AMD GPU 全面支持 Qwen 3.5:性能、上下文长度与多模态的新突破
