当前位置：首页 > news >正文

别把 SFT 里的 `packing` 当成白捡吞吐的开关：TRL 里 `bfd`、`bfd_split`、`wrapped` 真正卖掉的不是同一种东西

news 2026/7/10 16:51:13

别把 SFT 里的`packing`当成白捡吞吐的开关：TRL 里`bfd`、`bfd_split`、`wrapped`真正卖掉的不是同一种东西

很多人做 SFT 时，一看到packing=True就会把它理解成“把 padding 浪费收回来，几乎没有副作用”。但我把 TRL 现在的实现、警告和一个最小模拟实验放在一起看后，结论反而更像这样：packing 确实能把 token 利用率从 80% 左右拉到 95% 以上，但你到底是在卖掉超长样本尾部 token、卖掉对话边界，还是在错误 attention 实现下把不同样本混到一起，取决于你开的根本不是同一个开关。

这篇文章不讲 SFT 入门，也不复读“padding 少了所以更快”。我只想把 TRL 里最容易被忽略的 3 个事实讲清楚：bfd、bfd_split、wrapped语义不同；packing和padding_free不是一回事；如果你的 attention kernel 不认识文档边界，packing 还可能带来跨样本污染。

1. 常见说法为什么不完整：你以为只是少了 padding，官方实现其实还在替你做别的决策

很多教程会把 sequence packing 写成一句话：

http://www.jsqmd.com/news/782943/

相关文章：

62.RTOS调度原理

CANN/AMCT大模型Cast量化

CANN/sip信号处理加速库CalOperation

CANN/hixl LLM-DataDist数据结构

6G时代零接触式普适AI即服务架构：融合区块链与DRL的自动化AI交付

cann/runtime其他接口API文档

顶会论文模块复现与二次创新：二次创新：将 DETR 的查询式检测头蒸馏进 YOLOv11，打造混合式 Anchor-free 头

模型诊断：从冲突集到命中集，构建高效故障定位系统

CANN/catlass Gemm/Block类模板概述

DeepEP V2 为什么值得做 MoE 的团队现在就关注？真正先拖慢吞吐的，不是专家数，而是 EP 通信还在抢 SM

如何高效实现魔兽争霸3现代化兼容？WarcraftHelper实战指南

CANN/driver容器共享配置查询

CANN/cannbot-skills 模型审查专家代理

GD32中的DMA使用教程

HCOMM通信算子NPU环境测试

Kemptide (Phosphate Acceptor Peptide)；LRRASLG

【算法】小白也能懂 · 第 2 节：数组双指针技巧（快慢指针、左右指针）

CANN/atvoss向量算子库概述

别再盲目自学 CTF！零基础专属入门完整路线，看完直接上手实战

面向对象设计原则在Java开发中的应用

CANN/metadef GetAddr函数API文档

可解释AI在膝骨关节炎诊断中的应用：从黑盒模型到临床可信赖的决策伙伴

医疗生成式AI的伦理治理：GREAT PLEA框架下的公平、可靠与问责实践

CANN/tensorflow AOE调优配置

CANN/asc-devkit AllocTensor API

遥感图像分类可解释AI方法：定量评估与工程实践指南

显卡驱动冲突终极解决方案：Display Driver Uninstaller深度使用指南

第8天：常用数据结构之列表

AI安全新范式：从红蓝对抗到紫队协同的实战指南

3个核心功能让你轻松掌握QtScrcpy：免费开源的Android投屏控制终极指南