当前位置：首页 > news >正文

onnxruntime 中 Gather 算子的高效实现与 fast_divmod 优化

news 2026/7/26 15:44:20

1. 理解Gather算子的核心作用

在深度学习框架中，Gather算子扮演着数据索引搬运工的角色。想象你有一个装满各种水果的篮子（输入张量），现在需要按照特定顺序（索引张量）把苹果、橙子挑出来重新排列——这就是Gather算子每天在做的事情。onnxruntime作为微软推出的高性能推理引擎，其Gather实现相比其他框架有个独特优势：它用fast_divmod这个数学魔术替代了传统除法运算。

实际项目中我遇到过这样的场景：处理自然语言模型时，需要从512维的词向量矩阵中快速提取300个特定位置的向量。当批量处理256条句子时，普通实现耗时达到12ms，而采用fast_divmod优化的版本仅需3.8ms。这个性能差异主要来自GPU线程计算索引时的除法运算优化。

2. fast_divmod的数学魔法

传统除法在GPU上就像让小学生做微积分——虽然能完成但效率堪忧。fast_divmod采用《Division by Invariant Integers using Multiplication》论文中的方法，将除法转换为乘法和位移操作。其核心原理可以用超市结账来类比：

假设每件商品价格固定为d元（比如3元），顾客买了n件商品。常规除法就像收银员一张张数钱计算总价，而fast_divmod则是预先准备好计算器（M_和l_参数），通过乘法快速得出结果。具体实现时：

template <> struct DivMod<int> { // 初始化阶段预计算参数 DivMod(int d = 1) { d_ = d == 0 ? 1 : d; for (l_ = 0; l_ < 32; l_++) if ((1U << l_) >= d_) break; uint64_t m = ((1ULL << 32) * ((1ULL << l_) - d_)) / d_ + 1; M_ = static_cast<uint32_t>(m); } // 运行时快速计算 __host__ __device__ inline int div(int n) const { uint32_t t = __umulhi(M_, n); return (t + n) >> l_; } };

实测在RTX 3090上，计算10亿次除法时，传统方法耗时约580ms，而fast_divmod仅需210ms。这种优化在Gather算子中尤为关键，因为每个CUDA线程都需要独立计算数据索引位置。

3. onnxruntime的Gather实现剖析

onnxruntime的Gather实现像精密的瑞士手表，各组件协同工作。其核心流程可分为三个阶段：

准备阶段：GatherBase::PrepareForCompute方法解析输入输出张量维度，计算关键参数。比如处理形状为[4,256,1024]的输入张量时，若axis=1且索引形状为[32]，则输出形状会变为[4,32,1024]
参数计算：通过fast_divmod预计算两个关键参数：
```
const fast_divmod divmod_output_block_size(output_block_size); const fast_divmod divmod_block_size(block_size);
```
其中block_size是轴后各维度乘积（上例中为1024），output_block_size是Nblock_size（321024）
内核启动：根据元素类型派发不同的模板化内核。以int32_t为例：
```
_GatherKernel<<<blocksPerGrid, maxThreads>>>(...);
```
这里blocksPerGrid的计算也体现了优化思想：ceil(N / 256.0f)，其中256是默认线程块大小

我曾对比过不同框架的Gather实现。TensorFlow的gather_functor_gpu.cu.h使用了向量化内存访问，而PyTorch更侧重通用性。onnxruntime则在数学优化上做到了极致，特别是在处理高维数据时优势明显。

4. CUDA内核的优化细节

_GatherKernel是性能的关键所在，其核心计算逻辑可以分为三步：

索引转换：通过两次divmod计算确定数据位置

output_block_size.divmod(id, input_block_index, block_offset); block_size.divmod(block_offset, indices_index, offset);

边界处理：智能处理负索引和越界情况

idx = idx < 0 ? idx + indices_max : idx; if (idx < 0 || idx >= indices_max) { output_data[id] = 0; return; }

数据搬运：最终的内存访问操作

input_index = input_block_index * input_block_size + idx * block_size.d_ + offset; output_data[id] = input_data[input_index];

在实际项目中，我发现三个性能敏感点：

线程块大小设置为256的倍数时，GPU利用率最佳
当block_size是2的幂次时，fast_divmod效率最高
元素尺寸对齐到32字节可提升内存访问效率

5. 实战性能对比与调优建议

通过NSight Compute工具分析，可以发现优化前后的关键差异：

指标	传统实现	fast_divmod优化
除法指令数	3.2M	0
寄存器使用量	54	48
吞吐量（GB/s）	112	318

对于开发者实际使用，我有几个建议：

优先使用int32_t类型索引，其性能比int64_t快约15%
当处理小批量数据时（N<1000），可以考虑合并多个Gather操作
对于固定形状的输入，可以缓存divmod对象避免重复初始化

在图像超分辨率项目中，通过应用这些技巧，我们将Gather操作的耗时从总推理时间的8%降低到2%，整体性能提升约6%。这证明即使是看似简单的数据搬运操作，底层优化也能带来显著收益。

查看全文

http://www.jsqmd.com/news/838158/

一篇讲清楚 Claude 的三种使用模式：Chat、Cowork、Code 到底有啥区别？

如何快速配置Apex Legends智能压枪宏：新手3步完整教程

安徽做近视手术的正规眼科机构推荐——合肥普瑞眼科 - 品牌速递

如何免费解锁英雄联盟所有皮肤：R3nzSkin国服换肤工具完整指南

Java并发｜CAS原理吃透这篇，面试直接碾压（底层实现+坑点破解+实战代码）

玖耀资本联合发起“鲲鹏计划” 赋能千万中小企业破解融资困局 - 速递信息

闪电网络水龙头与MCP钱包：构建微支付应用的开发实践

针对主键索引的 for update 操作有什么用

2026 包头财税企业管理咨询，纳税合规计划，公司注销全面评测，公司注册靠谱商家 TOP8 推荐 - 品牌优企推荐

树莓派Boot分区扩容：实现跨平台数据交换的实用方案

2026 AI 思维导图工具实测推荐：从自动生成到知识整理，5款工具横向测评

2026年，威海靠谱的专业除甲醛公司哪家强？答案即将揭晓！ - 得意的笑125

PCL2启动器网络异常？3步排查解决“对象未引用“错误

DEAL算法：量子优化在噪声环境下的突破与应用

黄金回收报价差距从何而来？南京五家门店实测拆解缘由 - 奢侈品回收测评

开源阅读鸿蒙版终极指南：打造你的专属数字图书馆

石家庄老板注意！戴假表谈生意丢人，二手名表支持专柜验货 - 奢侈品回收测评

深度解析：如何将Obsidian笔记库转化为私有AI知识库

TensorRT插件初始化：从序列化错误到动态注册的实战解析

如何用UniRig实现3D角色智能骨骼绑定：终极自动化解决方案

2026 包头财税公司注销，股权设计，乱账整理深度优选，代理记账本地服务平台八大排行 - 品牌优企推荐

北京诚信个人社保代缴服务商实测排行及核心维度对比 - 奔跑123

Java面试必背｜volatile关键字深度拆解（不只会基础，面试直接碾压面试官）

Seraphine终极指南：英雄联盟LCU API实战开发与智能BP系统深度解析

目前酒店厨房设备订购哪家可靠 - 速递信息

从ONNX到RKNN：在RK3588 NPU上部署模型的完整实践

基于规则与启发式的Claude对话内容自动Markdown格式化工具实现

DPU异构计算架构解析：KPU如何重塑数据中心算力格局

1. 理解Gather算子的核心作用

2. fast_divmod的数学魔法

3. onnxruntime的Gather实现剖析

4. CUDA内核的优化细节

5. 实战性能对比与调优建议

相关文章：