当前位置：首页 > news >正文

社区贡献者故事，我在 Github 上为 ROCm 生态修复的那些 Bug

news 2026/6/26 2:44:09

从“踩坑”到“填坑”：我在 ROCm 生态修复 Bug 的实战手记

很多开发者对 AMD GPU 的印象还停留在“驱动难装”、“算子不支持”的阶段。确实，在 ROCm 7.x 全面铺开之前，我也曾在深夜对着满屏红色的编译报错发愁。但真正让我转变看法的，不是某一次成功的模型运行，而是我第一次向开源社区提交 PR 并成功合并的经历。那是一次关于vLLM在Instinct GPU上显存管理异常的修复，整个过程像是一场侦探游戏，从复现诡异现象到定位底层代码，最终让成千上万的开发者受益。今天想和大家聊聊这段经历，或许能给你一些参与开源的信心。

那个让人头疼的“显存泄漏”假象

故事开始于我在DevCloud上部署Llama-3-70B模型时。使用ROCm 7.x环境配合源码编译的vLLM，一切看似顺利：模型加载完成，API 接口正常响应。但在高并发压力测试下，大概运行了二十分钟，服务就会突然崩溃，日志里报着清晰的OOM (Out Of Memory)错误。

奇怪的是，通过rocm-smi监控，我发现显存并没有被完全占满，剩余空间明明足够容纳新的 KV Cache 块。这就很奇怪了，既然有空闲显存，为什么分配器会认为内存不足？起初我以为是自己的启动参数配置有问题，反复调整--gpu-memory-utilization和--block-size，甚至尝试了不同的量化精度（FP8/INT8），但问题依旧复现。

这时候，一个念头冒了出来：这会不会是PagedAttention机制在特定架构下的逻辑漏洞？毕竟vLLM的核心优势就在于此，如果这里出了问题，影响将是巨大的。

抽丝剥茧：从应用层下沉到 HIP 内核

为了验证猜想，我决定深入代码层面。首先，我在本地构建了一个最小化复现环境，剥离了所有业务逻辑，只保留最核心的请求循环。通过添加详细的调试日志，我捕捉到了崩溃前最后一次显存分配的详细堆栈。

线索指向了BlockManager类中的一个边界条件判断。在gfx942架构（对应 MI300 系列）上，由于 HBM 的分片机制与之前的gfx90a略有不同，原有的地址对齐计算在某些极端碎片化场景下会出现偏差。简单来说，代码认为某块显存不可用，但实际上它是可用的。

定位到问题后，接下来的工作就是编写补丁。这涉及到对HIP后端内存分配器的修改。我需要确保在新的架构标识下，地址计算逻辑能正确识别空闲块。这个过程并不轻松，因为需要兼顾旧版硬件的兼容性。我利用TileLang写了一个小型的测试 Kernel，专门用于模拟这种碎片化场景下的内存访问模式，快速验证了我的修复思路是否可行。

# 本地验证修复脚本示例 export PYTORCH_ROCM_ARCH="gfx942" python test_memory_fragmentation.py --arch mi300x --pattern random_sparse

当测试脚本连续运行数小时不再崩溃，且显存利用率曲线平稳时，我知道这次稳了。

社区沟通：PR 背后的协作艺术

带着修复代码，我在Github上提交了 Pull Request。原本以为会很快合并，没想到迎来了维护者细致的 Code Review。他们并没有直接接受代码，而是提出了一系列尖锐的问题：这个修改是否会影响SGLang等其他依赖相同底层库的项目？在单卡和多卡张量并行（Tensor Parallelism）模式下表现是否一致？

这让我意识到，开源贡献不仅仅是修好自己眼前的 bug，更要考虑全局影响。于是，我补充了多卡环境下的测试数据，并主动联系了LLaMA-Factory社区的几位开发者，邀请他们在微调场景下验证我的补丁。经过几轮往返讨论，我们共同确认了修复方案的通用性。最终，当看到 PR 被标记为 "Merged" 时，那种成就感远超自己跑通了一个模型。

除了代码逻辑，我还顺手修正了文档中一处关于HIPify工具链版本的误导信息。很多新手因为参考了过时的文档，导致编译时链接错误的库版本，白白浪费了大量时间。这种“非代码”贡献同样重要，它降低了后来者的入门门槛。