当前位置: 首页 > news >正文

速度即护城河:AMD GPU 上的推理性能

速度即护城河:AMD GPU 上的推理性能

原文作者:Andy Luo, Lingpeng Jin, Carlus Huang, Chuan (Richard) Li, Peng Sun, Emad Barsoum, Ramine Roane

在生成式AI 的现实场景中,推理性能的竞争正在从静态跑分转向“迭代速度”。InferenceX 作为我们软件栈迭代速度的“试炼场”,用可复现的工程改进来验证端到端推理的提速。

我们认为真正的“领先能力”不应依赖无法在生产复现的脚本化“快照性能”。我们正持续交付满足 FP8 生产需求、并兼具 FP4 能力的突破。而且这些改进是结构性的:通过对 vLLM、SGLang 等开源推理引擎的原生适配,让用户在标准工作流中直接享受性能提速。

I.核心突破:分布式推理(DI)的“速度曲线”上移

过去几周,在分布式场景中,我们通过计算与通信软件的大幅优化,使整体性能曲线明显上移。这些提升直接体现在端到端吞吐与交互体验的改善。

解决通信与Prefill 瓶颈

对于像DeepSeek R1(DSR1)这类大模型,分布式推理(DI)的效率决定了部署的成本与规模。

  • 预填充(Prefill)瓶颈消除:Prefill 曾是分布式推理端到端性能的主要限制。我们通过并行结构重构,将 prefill 吞吐约提升一倍,使 DSR1 FP8 8K/1K 的分布式每 GPU 吞吐从 2K 提升到 3K(在一周内)。该结果已达到或超过公开基线 ~2.2K。
  • 通信重叠(Communication Overlap):利用“通信气泡”与计算重叠,在中高交互区间实现对齐或更优表现。

II. MoRI:低时延互联的“引擎”

为实现上述分布式突破,我们工程化了MoRI(Modular RDMA Interface)。MoRI 作为通信性能与时延优化的架构“底座”,通过通用原语与内核调度,最大化带宽利用并降低端到端时延。

  • Expert Parallelism(MORI-EP):面向大规模MoE(Mixture-of-Experts)模型(如 DeepSeek-R1),提供高性能的专家分发与聚合内核。近期的内核级优化将时延降低至最多约 82%,使 HBM、XGMI、RDMA 等通信开销接近理论上限。
  • 自适应内核选择:MoRI 能自动切换高吞吐内核(用于prefill 与高并发 decode)与低时延内核(用于低并发场景)。预调度的启动配置确保最大化CU 利用率。
  • 统一流量控制:KV 传输引擎(MoRI-IO)与 MoE 专家并行皆构建于 MoRI 的通用原语之上,可统一进行网络优先级管理。通过联合优化 KV 传输与 token 分发流量,促进协调的数据搬运与持续的网络效率。

基于以上优化与调优,AMD GPU 在 DeepSeek FP8 的分布式推理性能(InferenceX v2)在 7 天内获得显著提升,覆盖 1K/1K 与 8K/1K 两类场景。这一改进速度体现了栈的持续演进节奏。

图1:DSR1 FP8 SGLang 分布式推理(8K/1K)随时间的进展

III.单机与 MTP:定义新的交互标准

单机性能是推理的基石;Multi-Token Prediction(MTP)则是改善交互体验的关键特性。

单机性能

通过在AITER 库内进行内核融合与针对性优化,我们提升了单机配置下的计算效率与整体硬件利用率。对于具有代表性的大模型工作负载,单机推理相对框架基线可获得约 1.08x–1.2x 的吞吐提升。这些增益已在面向客户的 PoC 中验证,能够在实际部署环境中带来可衡量的性能改善。

例如,我们与社区在Qwen3 延迟优化的合作,展示了软硬协同如何转化为可复现的性能收益。Qwen3 延迟优化 [1]

MTP:交互体验的“代际跃升”

我们利用MTP 在保持模型精度的同时,降低有效 decode 时延。在评估的交互区间内,AMD GPU 结合 MTP 的每 GPU 吞吐表现更高。

IV. 从 Day-0 支持到持续优化

我们的目标非常明确:新模型Day-0 即可跑通,其后通过迭代持续提速。近期的 Qwen3 Coder Next 在 AMD GPU 上的 Day-0 支持,正是这一策略的体现。Day-0 支持文章 [2]

我们直接与vLLM、SGLang 集成,确保与标准开源工作流的即时兼容,同时在内核、通信与并行策略上持续优化。这样客户既能“即刻部署”,又能随软件演进获得持续的性能增益。

在分布式服务中,系统架构与工作负载特性同样重要。机架级系统在特定场景中具备优势,而高交互服务强调对时延的敏感性。我们的重点是:在全交互谱系上交付稳健、可生产的性能。

V. 路线图:生态普适与原生集成策略

我们坚持“原生集成”路线,优先与社区保持一致,避免生态碎片化。路线图将把 ATOM 的核心能力深度集成到主流开源框架中,确保客户通过标准工具即可发挥 AMD GPU 的峰值能力。

1. 双轨集成:性能与生态的双重对齐

  • vLLM 集成:与 vLLM 上游保持对齐,并通过 Out-of-Tree(OOT)路径交付优化内核,无需修改核心代码。既保留生态兼容,又实现 Day-0 性能。vLLM + ATOM 在吞吐上相对 vLLM 原生可获得最高约 1.2x 的提升。
  • SGLang 对齐:ATOM 作为新模型与新硬件的高速度后端,在 SGLang 中直接集成优化内核。功能与精度完成验证,并持续进行基准测试,确保无缝性能表现。
  1. 2026 年上半年功能路线:从“冲刺”到“规模化”

我们将分阶段推进,从技术PoC 走向生产就绪的生态普适,使 FP4、disaggregation、WideEP 等能力完全可组合,支持大规模部署。

阶段目标与特性(2026 年上半年)

结语

速度是我们的护城河。我们会在推理软件栈的各层持续执行、每周推进性能。

这也是更大范围执行路线图的一部分。AMD系列GPU 与 Helios 已在实验室取得良好进展,我们正按计划推进软硬件验证,预计下半年实现量产爬坡与首批客户部署。

参考链接

[1] Qwen3 延迟优化:https://lmsys.org/blog/2026-02-11-Qwen-latency/

[2] 引用文章:AMD GPU 全面支持 Qwen 3.5:性能、上下文长度与多模态的新突破

http://www.jsqmd.com/news/697359/

相关文章:

  • ESP8266 I2C通信避坑指南:从SHT30读取失败到BH1750数据不准的常见问题排查
  • 明景裕达祥贴隐形车衣靠谱吗,客户案例来证明 - 工业品网
  • 白世贸花岗岩源头厂家怎么选?靠谱供应商筛选攻略来了 - 匠言榜单
  • 信创即时通讯怎么选?三个标准帮你判断
  • 修好三个老旧电源适配器后,我总结的12V开关电源常见故障排查指南(附实物图对照)
  • 终极Windows Defender禁用指南:开源工具defender-control的完整解决方案
  • 5步掌握Meshroom:开源3D重建软件终极指南
  • 从‘炼丹’到‘工程’:我的机器学习模型调优避坑指南(附SGD/过拟合实战)
  • Windows虚拟显示器终极指南:3分钟免费扩展无限屏幕空间
  • Hermes一键包:解压即用,有手就会!
  • 分析济南隐形车衣服务品牌,哪家性价比高? - 工业品牌热点
  • 蓝桥杯单片机比赛,用reg52.h还是STC15F2K60S2.h?一个选择可能让你多写几十行代码
  • Arduino新手必看:用一块面包板和几行代码,让你的第一个LED灯闪烁起来(附完整接线图)
  • STM32CubeMX配置GPIO输出模式避坑指南:推挽 vs 开漏,点亮LED时到底该选哪个?
  • Origin数据处理别再只会复制粘贴了!手把手教你用F(x)公式栏和筛选器搞定科研数据
  • 2026年聊聊前缘高速高清水墨印刷机推荐厂商,哪家性价比高 - 工业推荐榜
  • TNF-α蛋白的结构特征与信号转导机制研究
  • 酥饼机技术实力对比:核心技术与落地适配要点讲解
  • 从图片识别到灭火器交互:我是如何用Vuforia + HoloLens 2完成一个MR实体识别项目的
  • 从EEPROM到液晶屏:一个FPGA工程师的SPI实战踩坑记录(附Verilog代码)
  • MySQL 调优
  • Nintendo Switch大气层系统终极指南:如何在5分钟内完成专业级自制系统部署?
  • 2026年山东断桥铝门窗与系统阳光房选购完全指南:泰安峰睿门窗定制方案深度评测 - 企业名录优选推荐
  • 网易云音乐NCM格式终极解密:3分钟掌握免费转换技巧,彻底解放你的音乐库
  • 如何构建航班价格自动化监控系统以应对动态定价挑战?
  • Hotkey Detective:深入解析Windows热键冲突检测的技术实现与实战应用
  • AUTOSAR BswM模块深度解析:从“模式仲裁”到“动作列表”,如何像搭积木一样设计汽车ECU的大脑?
  • 2026年山东断桥铝门窗与系统阳光房选购避坑指南:找到官方直达渠道的正确姿势 - 企业名录优选推荐
  • 5分钟为Windows添加无限虚拟显示器:终极配置指南
  • 软件/游戏存档路径计算工具补充unity游戏引擎适配