当前位置：首页 > news >正文

Florence-2视觉模型在Inferentia2上的编译适配：Stage-wise拆分、Bucket策略与BF16优化的实现细节

news 2026/6/3 7:35:24

Neuron SDK静态图编译与动态形状模型的适配问题

将 PyTorch 模型部署到亚马逊云科技 Inferentia2 芯片时，Neuron SDK 编译器（neuronx-cc）基于 XLA 的静态图机制，要求所有 Tensor 形状在编译时完全确定。这个约束对于包含动态 reshape、自回归生成等操作的模型构成了编译障碍。

Florence-2 是微软开源的 0.23B 参数视觉语言模型，它的 DaViT 视觉编码器包含动态 window partition 操作，decoder 部分是自回归结构——两者都违反静态形状要求。本文详细记录了三种编译适配方案的实现过程和性能数据。

最终结果：BF16 精度下单核 4.09 QPS、双核 8.18 QPS，CAPTION 任务延迟 252ms。

为什么选 Florence-2

先说说为什么不用别的方案。

训练专用分类模型？ 1000 个品类 × 每类几百张训练图 = 标注成本爆炸。新增品类还得重新训练、重新部署。长尾分布问题也很严重——热门品类样本多，冷门品类根本凑不齐。

YOLO 系列？ 速度是快，但 1000 个品类的边界框标注工作量太恐怖了。50 万张标注图片，想想就头大。

Florence-2 的特别之处在于：

零样本能力——新增品类不用重新训练，改个 prompt 就行
极其轻量——0.23B 参数，一个加速器就能跑
多任务统一——图片描述、目标检测、OCR、区域描述、图像分割，一个模型全搞定
MIT 开源协议——商用无风险

为什么选 Inferentia2

一个字：省钱。

关键数据：BF16 Neuron 双核方案的每百万次推理成本比 GPU (T4) 方案低约 38%，比 CPU 方案低约 86%。

inf2.xlarge 的单价虽然比 g4dn.xlarge 高一些，但双核并行的吞吐量优势把价格差完全弥补了。日处理 50 万次的话，GPU 要 2 台实例，Neuron BF16 只要 1 台。

如果用 Savings Plan 或 Reserved Instance，Inf2 的折扣通常更大，实际节省比例更高。

Neuron SDK 的三个硬约束

亚马逊云科技的 Neuron SDK 编译器工作流程是：

PyTorch 模型 → torch_neuronx.trace → 静态计算图 → neuronx-cc 编译 → NeuronCore 可执行文件

三个硬性约束：

约束一：所有 Tensor 形状必须编译时确定。 XLA 编译器要在编译阶段就知道每个 tensor 的完整形状，不能有动态维度。

# ❌ 这种无法编译
output = model(input)  # input 的 shape 每次不同# ✅ 必须固定形状
input = torch.randn(1, 3, 768, 768)  # 编译时确定
output = model(input)

约束二：不支持依赖 Tensor 值的控制流。 torch.jit.trace 通过实际执行一次来记录计算图，所有 if/for 都会被展平。

约束三：算子覆盖不完整。 Neuron 支持的 PyTorch 算子是全集的子集，不常用的算子可能直接报错。

Florence-2 的三个编译障碍

Florence-2 用了 DaViT（Dual Attention Vision Transformer）作为视觉编码器，是个 4 阶段的层级结构：

Stage 0: 768×768 → 192×192, 128 channels
Stage 1: 192×192 → 96×96,  256 channels
Stage 2: 96×96  → 48×48,   512 channels
Stage 3: 48×48  → 24×24,   1024 channels

障碍一：DaViT 的动态操作。 DaViT 在阶段过渡中有动态的 reshape 和 window partition 操作，形状依赖输入，torch.jit.trace 无法正确捕获完整计算图。

障碍二：自回归 Decoder 的动态序列长度。 每生成一个 token，输入长度就加 1。第 1 步长度 1，第 2 步长度 2……每步形状都在变，直接违反静态形状要求。

障碍三：Encoder-Decoder 的交叉注意力。 Decoder 的 query 长度在变化，导致 cross-attention 的计算图也是动态的。

解决方案一：Stage-wise 编译拆解 DaViT

DaViT 整体没法 trace，那就拆开。每个 stage 单独提取成独立的 nn.Module 编译：

class DaViTStage0(nn.Module):"""stage0: (1, 3, 768, 768) -> (1, 192, 192, 128)"""def __init__(self, original_model):super().__init__()self.patch_embed = original_model.patch_embedself.stages_0 = original_model.stages[0]def forward(self, pixel_values):x = self.patch_embed(pixel_values)x = self.stages_0(x)return x

每个 stage 的输入输出形状完全固定：

Stage	输入形状	输出形状
stage0	(1, 3, 768, 768)	(1, 192, 192, 128)
stage1	(1, 192, 192, 128)	(1, 96, 96, 256)
stage2	(1, 96, 96, 256)	(1, 48, 48, 512)
stage3	(1, 48, 48, 512)	(1, 24, 24, 1024)

分别编译，推理时串联执行：

import torch_neuronxexample_stage0 = torch.randn(1, 3, 768, 768)
example_stage1 = torch.randn(1, 192, 192, 128)
example_stage2 = torch.randn(1, 96, 96, 256)
example_stage3 = torch.randn(1, 48, 48, 512)compiled_stage0 = torch_neuronx.trace(stage0_model, example_stage0)
compiled_stage1 = torch_neuronx.trace(stage1_model, example_stage1)
compiled_stage2 = torch_neuronx.trace(stage2_model, example_stage2)
compiled_stage3 = torch_neuronx.trace(stage3_model, example_stage3)

推理流水线：

x = compiled_stage0(pixel_values)  # 768->192
x = compiled_stage1(x)             # 192->96
x = compiled_stage2(x)             # 96->48
x = compiled_stage3(x)             # 48->24
# x shape: (1, 24, 24, 1024) -> reshape 为 (1, 576, 1024)

每个 stage 内部虽然有复杂的双注意力操作，但固定输入形状下，所有中间 tensor 形状也是确定的。这是拆分能成功的关键。

解决方案二：Bucket 策略解决动态序列长度

自回归 decoder 序列长度每步都变，但可以绕过——预编译多个固定长度的 decoder，运行时动态选择。

预定义一组"桶"大小：

BUCKET_SIZES = [1, 4, 8, 16, 32, 64]

为每个桶编译独立的 decoder：

compiled_decoders = {}
for bucket_size in BUCKET_SIZES:example_input = torch.zeros(1, bucket_size, dtype=torch.long)compiled_decoders[bucket_size] = torch_neuronx.trace(decoder_model, (example_input, encoder_output))

运行时选最小的 >= 当前长度的桶，不足部分 padding：

def select_bucket(current_length):for size in BUCKET_SIZES:if size >= current_length:return sizereturn BUCKET_SIZES[-1]current_tokens = [BOS_TOKEN]
for step in range(max_length):bucket = select_bucket(len(current_tokens))padded = pad_to_length(current_tokens, bucket)logits = compiled_decoders[bucket](padded, encoder_output)next_token = logits.argmax(-1)current_tokens.append(next_token)if next_token == EOS_TOKEN:break

6 个桶覆盖 1-64 所有长度，平均 padding 浪费约 15-25%。实测大多数 CAPTION 任务输出 10-30 tokens，主要命中 16 和 32 号桶。

解决方案三：BF16 优化

BF16 是 Inferentia2 NeuronCore 原生支持的数据类型。保留了 FP32 的指数位（8 bit），数值范围一致，尾数精度从 23 bit 降到 7 bit。

from transformers import AutoModelForCausalLM
import torchmodel = AutoModelForCausalLM.from_pretrained("microsoft/Florence-2-base",torch_dtype=torch.bfloat16
)

实测效果：

指标	FP32	BF16	提升
单核 QPS	2.82	4.09	+45%
双核 QPS	5.64	8.18	+45%
延迟 (CAPTION)	393ms	252ms	-36%
输出质量	基线	无明显差异	–

45% 的性能提升，主要来自内存带宽减半和 NeuronCore 对 BF16 矩阵乘法的硬件加速。

性能实测

测试环境：inf2.8xlarge（使用 2 个 NeuronCore），Neuron SDK 2.x，PyTorch 2.1+。

测试方法：预热 10 次丢弃，延迟取 100 次 P50，吞吐持续跑 5 分钟。

# 单核延迟测试
python -m models.florence2_bf16.benchmark --image test.jpg --warmup 10 --runs 100# 双核吞吐测试
python -m models.florence2_bf16.benchmark --stress --duration 300 --core 0 &
python -m models.florence2_bf16.benchmark --stress --duration 300 --core 1 &
wait

各任务延迟（BF16 单核）：

任务	Prompt	延迟
简短描述	`<CAPTION>`	~252ms
详细描述	`<DETAILED_CAPTION>`	~400ms
目标检测	`<OD>`	~350ms
OCR	`<OCR>`	~200ms

双核 vs 单核近乎线性扩展，因为 2 个 NeuronCore 完全独立，通过 NEURON_RT_VISIBLE_CORES 环境变量分别绑定进程，没有资源竞争。

快速上手

完整代码和配置文件可以在亚马逊云科技官方博客原文中找到

# 克隆项目
git clone <项目仓库地址>
cd neuronx-distributed-inference# 安装依赖（在 inf2 实例上）
pip install -r requirements.txt# 编译模型（首次需要较长时间）
python -m models.florence2_bf16.compile# 运行推理
python -m models.florence2_bf16.infer --image your_image.jpg

小结

本文的三个方案——Stage-wise 编译、Bucket 策略、BF16 优化——是一套通用的 Neuron SDK 适配方法论。核心思路是：用模块拆分消除动态形状，用预编译桶覆盖动态序列长度，用低精度数据类型换取吞吐提升。这套方法对其他需要在 Inferentia2 上运行的动态形状模型同样适用。