当前位置：首页 > news >正文

速度即护城河：AMD GPU 上的推理性能

news 2026/4/25 10:06:21

原文作者：Andy Luo, Lingpeng Jin, Carlus Huang, Chuan (Richard) Li, Peng Sun, Emad Barsoum, Ramine Roane

在生成式AI 的现实场景中，推理性能的竞争正在从静态跑分转向“迭代速度”。InferenceX 作为我们软件栈迭代速度的“试炼场”，用可复现的工程改进来验证端到端推理的提速。

我们认为真正的“领先能力”不应依赖无法在生产复现的脚本化“快照性能”。我们正持续交付满足 FP8 生产需求、并兼具 FP4 能力的突破。而且这些改进是结构性的：通过对 vLLM、SGLang 等开源推理引擎的原生适配，让用户在标准工作流中直接享受性能提速。

I.核心突破：分布式推理（DI）的“速度曲线”上移

过去几周，在分布式场景中，我们通过计算与通信软件的大幅优化，使整体性能曲线明显上移。这些提升直接体现在端到端吞吐与交互体验的改善。

解决通信与Prefill 瓶颈

对于像DeepSeek R1（DSR1）这类大模型，分布式推理（DI）的效率决定了部署的成本与规模。

预填充（Prefill）瓶颈消除：Prefill 曾是分布式推理端到端性能的主要限制。我们通过并行结构重构，将 prefill 吞吐约提升一倍，使 DSR1 FP8 8K/1K 的分布式每 GPU 吞吐从 2K 提升到 3K（在一周内）。该结果已达到或超过公开基线 ~2.2K。
通信重叠（Communication Overlap）：利用“通信气泡”与计算重叠，在中高交互区间实现对齐或更优表现。

II. MoRI：低时延互联的“引擎”

为实现上述分布式突破，我们工程化了MoRI（Modular RDMA Interface）。MoRI 作为通信性能与时延优化的架构“底座”，通过通用原语与内核调度，最大化带宽利用并降低端到端时延。

Expert Parallelism（MORI-EP）：面向大规模MoE（Mixture-of-Experts）模型（如 DeepSeek-R1），提供高性能的专家分发与聚合内核。近期的内核级优化将时延降低至最多约 82%，使 HBM、XGMI、RDMA 等通信开销接近理论上限。
自适应内核选择：MoRI 能自动切换高吞吐内核（用于prefill 与高并发 decode）与低时延内核（用于低并发场景）。预调度的启动配置确保最大化CU 利用率。
统一流量控制：KV 传输引擎（MoRI-IO）与 MoE 专家并行皆构建于 MoRI 的通用原语之上，可统一进行网络优先级管理。通过联合优化 KV 传输与 token 分发流量，促进协调的数据搬运与持续的网络效率。

基于以上优化与调优，AMD GPU 在 DeepSeek FP8 的分布式推理性能（InferenceX v2）在 7 天内获得显著提升，覆盖 1K/1K 与 8K/1K 两类场景。这一改进速度体现了栈的持续演进节奏。

图1：DSR1 FP8 SGLang 分布式推理（8K/1K）随时间的进展

III.单机与 MTP：定义新的交互标准

单机性能是推理的基石；Multi-Token Prediction（MTP）则是改善交互体验的关键特性。

单机性能

通过在AITER 库内进行内核融合与针对性优化，我们提升了单机配置下的计算效率与整体硬件利用率。对于具有代表性的大模型工作负载，单机推理相对框架基线可获得约 1.08x–1.2x 的吞吐提升。这些增益已在面向客户的 PoC 中验证，能够在实际部署环境中带来可衡量的性能改善。

例如，我们与社区在Qwen3 延迟优化的合作，展示了软硬协同如何转化为可复现的性能收益。Qwen3 延迟优化 [1]

MTP：交互体验的“代际跃升”

我们利用MTP 在保持模型精度的同时，降低有效 decode 时延。在评估的交互区间内，AMD GPU 结合 MTP 的每 GPU 吞吐表现更高。

IV. 从 Day-0 支持到持续优化

我们的目标非常明确：新模型Day-0 即可跑通，其后通过迭代持续提速。近期的 Qwen3 Coder Next 在 AMD GPU 上的 Day-0 支持，正是这一策略的体现。Day-0 支持文章 [2]

我们直接与vLLM、SGLang 集成，确保与标准开源工作流的即时兼容，同时在内核、通信与并行策略上持续优化。这样客户既能“即刻部署”，又能随软件演进获得持续的性能增益。

在分布式服务中，系统架构与工作负载特性同样重要。机架级系统在特定场景中具备优势，而高交互服务强调对时延的敏感性。我们的重点是：在全交互谱系上交付稳健、可生产的性能。

V. 路线图：生态普适与原生集成策略

我们坚持“原生集成”路线，优先与社区保持一致，避免生态碎片化。路线图将把 ATOM 的核心能力深度集成到主流开源框架中，确保客户通过标准工具即可发挥 AMD GPU 的峰值能力。

1. 双轨集成：性能与生态的双重对齐

vLLM 集成：与 vLLM 上游保持对齐，并通过 Out-of-Tree（OOT）路径交付优化内核，无需修改核心代码。既保留生态兼容，又实现 Day-0 性能。vLLM + ATOM 在吞吐上相对 vLLM 原生可获得最高约 1.2x 的提升。
SGLang 对齐：ATOM 作为新模型与新硬件的高速度后端，在 SGLang 中直接集成优化内核。功能与精度完成验证，并持续进行基准测试，确保无缝性能表现。