当前位置：首页 > news >正文

AAAI大会：HiFloat8高效训推技术报告——HiFloat8：一种用于高效训练和推理的新型 8 位浮点数据格式

news 2026/6/14 0:07:45

[新加坡，新加坡市，2026年1月22日] AAAI（AAAI Conference on Artificial Intelligence，人工智能促进协会人工智能会议）是人工智能领域历史最悠久，最具学术影响力的国际学术会议之一。2026年来自中国的投稿数量提升至两万篇左右，占比2/3以上，表明AAAI已成为中国AI研究者的重要学术交流平台。

AAAI2026于1月20日至27日在新加坡博览中心举行。HiFloat8（HiF8）数据格式支持模型低比特高效训推，是华为下一代昇腾CANN支持的重要特性，也在本次会上展出。华为AI处理器算法领域王鑫博士发表HiF8高效训推技术报告，介绍在模型训练和推理上进行HiF8量化的实践。

以下是报告精华内容：

AI模型算法专家作HiFloat8高效训推技术报告

一、HiF8数据格式特点及优势

随着深度学习模型规模的不断增大，模型的训练和推理对计算效率、显存占用和能耗的要求也越来越高。低比特（8bit整型/8bit浮点）数据格式应运而生。其核心思想是使用更少的比特位来表示计算密集且对精度敏感度较低的模块，如模型参数（权重）和中间计算结果（激活值）等。

HiF8 是一种新型的 8 位浮点格式。它创新地提出点位域Dot设计，实现即时可译变长前缀码编码。这样的设计使得格式本身实现动态范围和精度平衡，摆脱了传统低比特数据格式对复杂细粒度缩放的依赖，实现更高效的模型训练和推理。下图展示了HiF8的数据格式及数值分布。

二、HiF8数据格式在模型训练中的优势

8比特浮点数 (Float8) 在训练中常难以直接覆盖张量的动态范围，需要通过缩放 (scaling) 算法把数值映射到Float8数据格式的可表示范围内。当前主流Float8训练方案常涉及两种缩放策略：current (in-time) scaling 和delayed scaling [1]。计算缩放系数 (scaling factor) 构成低比特训练的一项额外开销；计算系数的粒度越粗、频率越低、与其它运算的耦合性越弱，Float8训练的性能优势越显著。HiFloat8 (HiF8) 在保障数值主要分布（高概率密度）区域精度的前提下有优越的动态范围，支持粗粒度缩放与基于delayed scaling的训练，使计算缩放系数与后续运算解耦，充分释放Float8训练的性能潜力。

在Current Scaling策略下，HiF8在粗粒度下（Per-tensor）可实现稳定且等效的训练性能。在Delayed Scaling策略下，实验结果表明，HiF8在大规模模型预训练中能够保持与高精度 BF16相当的收敛性能，并在多项下游评测任务中实现无损或近乎无损的精度表现。在维持与BF16持平的训练质量的同时，HiF8显著提可提升端到端训练效率，展现出了作为下一代大模型训练核心技术路径的潜在价值。

三、HiF8数据格式在模型推理中的优势

受益于 HiF8 格式自身提供了足够的动态范围和平衡的精度，大多数推理任务可以直接采用粗粒度的量化策略，对整个张量（Per-Tensor）进行缩放，或者甚至进行无缩放（Scale-Free）转换。这相对需要进行复杂的转换，如Per-Token/Per-Channel（需在张量子维度维护和索引缩放因子）或 Per-Block(进一步地，在算子层面影响Matmul规约连续性，显著降低数据复用与计算吞吐)缩放，可以消除大量缩放因子的管理和应用，大幅简化了推理框架和硬件加速器的设计。无需执行频繁的缩放因子查找和乘法操作，也降低了内存带宽和计算开销，从而充分地发挥 8 位计算的加速潜力。

四、总结

总之，HiF8利用匹配数据分布的锥形精度特征，成功在8-bit限制下，在保证神经网络需求精度的前提下，显著扩大了格式的动态范围。进而为神经网络训练和推理，提供了能力更全面的8-bit单数据格式表达。我们相信这种优势最终会转换到神经网络E2E性能或者精度上。华为下一代昇腾处理器将原生支持HiF8数据格式，并将在CANN社区开源HiF8转换算子及训推recipe。欢迎学术界与产业界共同探索HiF8数据格式的优势场景，共同打造技术与模型生态。

查看全文

http://www.jsqmd.com/news/603894/