当前位置：首页 > news >正文

HiFloat4：优化语言模型推理的4位块浮点格式

news 2026/6/24 22:51:32

1. HiFloat4：专为语言模型优化的4位块浮点格式

在深度学习领域，数值表示格式的选择直接影响着模型的计算效率和内存占用。传统浮点格式（如FP32、FP16）虽然精度高，但存储和计算开销大；而纯定点格式（如INT8）虽然计算高效，但动态范围有限。块浮点（Block Floating-Point, BFP）格式通过在一组数值间共享指数，巧妙地平衡了精度和效率。

HiFloat4（HiF4）是华为团队最新提出的4位块浮点格式，专为大规模语言模型（LLM）推理优化。其核心创新在于：

三层次缩放元数据结构（E6M2 + 8-way E1_8 + 16-way E1_16）
64元素大分组设计
平均4.5位/值的存储开销
支持NaN和±0特殊值

这种设计在LLaMA、Qwen等模型上实现了比NVIDIA NVFP4更高的推理精度，同时硬件实现面积减少66%，功耗降低10%。

关键突破：HiF4通过层级化缩放元数据，将4位元素的动态范围扩展到4.81个二进制数量级（binades），而NVFP4仅为3.58。这使得模型权重和激活值的分布能被更精确地表示。

2. 块浮点格式的技术演进

2.1 传统块浮点的局限性

标准BFP格式采用单一共享指数，存在两个主要问题：

组内动态范围不足：当组内数值差异较大时，小数值会被量化噪声淹没
指数共享粒度粗：大组降低元数据开销但损失精度，小组提升精度但增加开销

2.2 现有4位BFP方案对比

格式	分组大小	元数据结构	平均位数	动态范围
MX4	16	8-bit指数+1-bit微指数	4.0	2.81
MXFP4	32	8-bit指数+2-bit微指数	4.25	3.58
NVFP4	16	E4M3浮点尺度	4.5	3.58
HiF4	64	三层次元数据	4.5	4.81

MX4因3位尾数精度不足已被业界弃用，而MXFP4目前仅用于权重量化。NVFP4虽然支持权重和激活值，但需要额外的每张量缩放（PTS）补偿其动态范围不足的问题。

3. HiF4核心技术解析

3.1 格式结构设计

HiF4单元包含：

32位元数据：
- 层级1：8位E6M2浮点（6位指数+2位尾数）
- 层级2：8个1位微指数（E1_8）
- 层级3：16个1位微指数（E1_16）
64个4位元素：采用S1P2（符号1位，整数1位，小数2位）表示

数学表达：

Vi = E6M2 × 2^(E1_8⌈i/8⌉ + E1_16⌈i/4⌉) × S1P2_i

3.2 关键硬件优化

树状归约计算：三层并行比较电路快速计算64元素的峰值幅度
专用指令集支持：
- BF16到E6M2的转换指令
- E6M2倒数指令（4-entry LUT实现）
- 乘-比较融合指令
移位吸收优化：将微指数转换为乘法器的输入位扩展，避免单独移位操作

3.3 点积计算流程

对于64长度点积A·B：

计算全局尺度：E6M2(A)×E6M2(B)
合并微指数：将E1_8和E1_16转换为5位整数(S2P2)
64路并行乘法累加
最终浮点缩放

相比NVFP4，HiF4节省了6个乘法器和复杂的浮点累加电路。

4. 语言模型推理实测

4.1 实验设置

模型：LLaMA2-7B、LLaMA3-8B、Qwen2.5-14B、Mistral-7B
基准测试：ARC-C/E、BoolQ、MMLU等8项
对比格式：NVFP4直接转换、NVFP4+PTS、HiF4直接转换、HiF4+HiGPTQ

4.2 关键结果

模型	BF16精度	NVFP4下降	HiF4下降
LLaMA2-7B	67.77	-1.28	-0.97
Mistral-7B	73.52	崩溃	-1.29
Qwen2.5-14B	77.24	-1.04	-0.50

特别地，Mistral-7B在NVFP4下因数值溢出导致精度崩溃，而HiF4保持稳定。Qwen2.5-14B结合HiGPTQ后甚至超过BF16基线（+0.24%）。

4.3 大模型测试

在DeepSeek-V3.1（671B）和LongCat（560B）上的表现：

DeepSeek-V3.1：HiF4比NVFP4精度高0.98%
LongCat：NVFP4在MMLU任务下降20.38%，HiF4仅降1.16%

5. 实现注意事项

硬件部署建议：
- 采用64元素对齐的内存访问模式
- 为E6M2转换设计专用流水线
- 微指数移位可与乘法器输入扩展合并

软件优化技巧：

# HiF4矩阵乘法伪代码 def hif4_matmul(A, B): # 尺度因子预计算 scale = einsum('ik,jk->ij', A.scale, B.scale) # 微指数预处理 A_exp = expand_exp(A.exp1_8, A.exp1_16) # 64->64 B_exp = expand_exp(B.exp1_8, B.exp1_16) # 整数矩阵乘 int_result = matmul_i8(A.data + A_exp, B.data + B_exp) return scale * int_result