当前位置: 首页 > news >正文

AAAI大会:HiFloat8高效训推技术报告——HiFloat8:一种用于高效训练和推理的新型 8 位浮点数据格式

[新加坡,新加坡市,2026年1月22日] AAAI(AAAI Conference on Artificial Intelligence,人工智能促进协会人工智能会议)是人工智能领域历史最悠久,最具学术影响力的国际学术会议之一。2026年来自中国的投稿数量提升至两万篇左右,占比2/3以上,表明AAAI已成为中国AI研究者的重要学术交流平台。

AAAI2026于1月20日至27日在新加坡博览中心举行。HiFloat8(HiF8)数据格式支持模型低比特高效训推,是华为下一代昇腾CANN支持的重要特性,也在本次会上展出。华为AI处理器算法领域王鑫博士发表HiF8高效训推技术报告,介绍在模型训练和推理上进行HiF8量化的实践。

以下是报告精华内容:

AI模型算法专家作HiFloat8高效训推技术报告

一、HiF8数据格式特点及优势

随着深度学习模型规模的不断增大,模型的训练和推理对计算效率、显存占用和能耗的要求也越来越高。低比特(8bit整型/8bit浮点)数据格式应运而生。其核心思想是使用更少的比特位来表示计算密集且对精度敏感度较低的模块,如模型参数(权重)和中间计算结果(激活值)等。

HiF8 是一种新型的 8 位浮点格式。它创新地提出点位域Dot设计,实现即时可译变长前缀码编码。这样的设计使得格式本身实现动态范围和精度平衡,摆脱了传统低比特数据格式对复杂细粒度缩放的依赖,实现更高效的模型训练和推理。下图展示了HiF8的数据格式及数值分布。

二、HiF8数据格式在模型训练中的优势

8比特浮点数 (Float8) 在训练中常难以直接覆盖张量的动态范围,需要通过缩放 (scaling) 算法把数值映射到Float8数据格式的可表示范围内。当前主流Float8训练方案常涉及两种缩放策略:current (in-time) scaling 和delayed scaling [1]。计算缩放系数 (scaling factor) 构成低比特训练的一项额外开销;计算系数的粒度越粗、频率越低、与其它运算的耦合性越弱,Float8训练的性能优势越显著。HiFloat8 (HiF8) 在保障数值主要分布(高概率密度)区域精度的前提下有优越的动态范围,支持粗粒度缩放与基于delayed scaling的训练,使计算缩放系数与后续运算解耦,充分释放Float8训练的性能潜力。

在Current Scaling策略下,HiF8在粗粒度下(Per-tensor)可实现稳定且等效的训练性能。在Delayed Scaling策略下,实验结果表明,HiF8在大规模模型预训练中能够保持与高精度 BF16相当的收敛性能,并在多项下游评测任务中实现无损或近乎无损的精度表现。在维持与BF16持平的训练质量的同时,HiF8显著提可提升端到端训练效率,展现出了作为下一代大模型训练核心技术路径的潜在价值。

三、HiF8数据格式在模型推理中的优势

受益于 HiF8 格式自身提供了足够的动态范围和平衡的精度,大多数推理任务可以直接采用粗粒度的量化策略,对整个张量(Per-Tensor)进行缩放,或者甚至进行无缩放(Scale-Free)转换。这相对需要进行复杂的转换,如Per-Token/Per-Channel(需在张量子维度维护和索引缩放因子)或 Per-Block(进一步地,在算子层面影响Matmul规约连续性,显著降低数据复用与计算吞吐)缩放,可以消除大量缩放因子的管理和应用,大幅简化了推理框架和硬件加速器的设计。无需执行频繁的缩放因子查找和乘法操作,也降低了内存带宽和计算开销,从而充分地发挥 8 位计算的加速潜力。

四、总结

总之,HiF8利用匹配数据分布的锥形精度特征,成功在8-bit限制下,在保证神经网络需求精度的前提下,显著扩大了格式的动态范围。进而为神经网络训练和推理,提供了能力更全面的8-bit单数据格式表达。我们相信这种优势最终会转换到神经网络E2E性能或者精度上。华为下一代昇腾处理器将原生支持HiF8数据格式,并将在CANN社区开源HiF8转换算子及训推recipe。欢迎学术界与产业界共同探索HiF8数据格式的优势场景,共同打造技术与模型生态。

http://www.jsqmd.com/news/603894/

相关文章:

  • 电磁屏蔽材料选型指南:从原理到实战应用
  • Uni-App微信小程序分享页的“返回”逻辑优化:用getCurrentPages()精准控制返回首页还是上一页
  • 别再死记硬背了!用‘家族树’和‘电梯上楼’的比喻彻底搞懂LCA算法
  • DeepSeek总结的PAX:PostgreSQL存储引擎
  • MySQL实战:用存储过程批量生成1000条测试数据,告别手动造数据
  • 三维空间智能体与空间计算体系最难10问
  • D3作业2:K8s配置管理与镜像构建实验手册(实验5-6)
  • 在Vue3中推荐使用的函数定义方法
  • AI智能体揭秘:4大核心模块,让你秒懂AI如何“思考”与“行动”!
  • 终极指南:如何使用Waifu2x-Extension-GUI实现免费AI图像放大与视频补帧
  • 从一次线上故障复盘:C# HttpClient连接池耗尽和DNS缓存踩坑实录
  • MobaXterm传输大文件失败?别慌,教你快速定位并找回‘消失’的4G文件
  • 【全网最详细】MySQL安装教程:MySQL下载配置图文指南(2026最新) - xiema
  • GTE模型在智能合同条款比对中的精准应用
  • Reloaded-II深度剖析:重构Mod开发流程的自动化实践指南
  • C++:虚继承解决菱形继承难题
  • AUTOSAR CAN协议栈-数据收发实战-CanIf与PDUR协同配置-基于Davinci Configurator与TC397平台
  • 快看!2026广东有实力尾顶机品牌推荐及实用技能分享,双主轴双排刀/插补Y/排刀机/双主轴双刀塔,尾顶机采购推荐 - 品牌推荐师
  • 步进电机丢步的五大关键因素与优化策略
  • 【Java SE】对象的比较(==、equals()、Comparab和Comparator)
  • 告别染色差异焦虑:5分钟用pip安装wsi-normalizer,批量处理你的病理切片Patch
  • Halcon图片拼接避坑指南:特征点匹配常见问题与解决方案
  • 别再只会用*号了!手把手教你用Verilog实现4位乘法器(附Modelsim仿真与Vivado综合结果)
  • 进程同步与互斥——理发师问题多线程优化实践(sleeping barber problem)
  • 快速上手github项目:用快马一键生成标准开源仓库原型
  • iWrite 作文禁止粘贴时强行粘贴的方法
  • 轻量级跨平台安卓应用安装工具:APK-Installer极简高效使用指南
  • PCIe 5.0事务层深度解析:First/Last DW Byte Enables规则与TLP Header优化实践
  • 径向基RBF神经网络的故障分类与故障诊断的Matlab程序代码
  • Git学习