论文日报 2026-04-14
精选论文
In-Place Test-Time Training for Large Language Models
标签:测试时训练 长上下文 持续学习 推理优化 ICLR 2026 Oral
论文信息
- arXiv ID:2604.06169
- 发布日期:2026-04-07(v1)
- 收录会议:ICLR 2026 Oral Presentation
- 代码开源:已开源(论文中提供 GitHub 链接)
作者与机构
Guhao Feng、Shengjie Luo(通讯作者)、Kai Hua、Ge Zhang、Di He、Wenhao Huang、Tianle Cai
ByteDance Seed · 北京大学(Peking University)
一句话概括
In-Place TTT 将 MLP 块的最终投影矩阵原地复用为"快速权重",在推理时动态更新参数,无需改动架构或重新训练,首次让现有 LLM 获得测试时自适应能力,并在 128k 长上下文场景下显著超越同类方法。
研究背景与问题
当前大语言模型普遍遵循"训练后固定部署"的静态范式(static train-then-deploy),一旦部署,模型权重便无法随新信息动态更新,在需要持续学习、长程上下文理解的现实任务中存在本质局限。
测试时训练(Test-Time Training, TTT)通过在推理阶段更新模型参数的子集(称为"快速权重",fast weights)来解决这一问题,但现有 TTT 方法在 LLM 生态系统中面临三大瓶颈:
- 架构不兼容:大多数 TTT 方法需要在标准 Transformer 中插入专用的 TTT 层或 RNN 模块,无法直接应用于已部署的 LLM;
- 计算效率低:TTT 的更新开销在长上下文场景下急剧增大,缺乏可扩展的高效机制;
- 目标函数错位:TTT 常用的重建(reconstruction)目标与自回归语言建模的下一词预测(next-token-prediction, NTP)目标不一致,导致适配效果不佳。
核心创新
In-Place Test-Time Training(In-Place TTT) 框架,三大创新点环环相扣:
1. 原地快速权重:MLP 投影矩阵的复用
In-Place TTT 无需引入任何额外参数或专用层,而是将 MLP 模块中普遍存在的最终投影矩阵(final projection matrix)直接作为可适应的"快速权重"。在推理时,该矩阵会根据输入上下文动态更新,从而使模型具备即时自适应能力。
这一设计实现了真正的"即插即用"(drop-in enhancement):对现有 Transformer 架构零侵入,不需要从头重训,存量 LLM 可直接赋能。
标准 MLP 块:输入 x → 门控线性层 → 激活 → 最终投影矩阵 W_proj → 输出In-Place TTT:W_proj 在每个推理步骤中根据当前上下文动态更新↑这就是"原地(In-Place)"的含义——复用现有矩阵,而非新增层
2. 与 NTP 对齐的目标函数
传统 TTT 方法使用通用重建目标(如 masked autoencoding),与 LLM 的下一词预测训练目标存在根本性的不对齐。In-Place TTT 将快速权重的更新目标显式对齐到 NTP 任务,具备严格的理论推导支撑。
这意味着:快速权重的更新方向与语言建模本身的优化方向完全一致,从而消除了目标函数错位带来的性能损失。
3. 分块更新机制与上下文并行兼容
为处理超长上下文(实验中最长 128k tokens),In-Place TTT 提出分块(chunk-wise)更新机制:将长序列分割为若干块,逐块完成快速权重更新,每块的计算开销均匀且可预测。
更重要的是,该机制天然兼容上下文并行(Context Parallelism),可在多 GPU 上并行处理超长序列,为大规模生产部署奠定基础。
实验结果
论文进行了两组系统性实验,结论互相印证:
实验一:即插即用增强(已有模型直接赋能)
将 In-Place TTT 应用于已有的 4B 参数 LLM(无需重训),在多个长上下文基准测试上:
- 在上下文长度达 128k tokens 的任务中,显著超越原始模型及其他 TTT 增强方法;
- 表现优于参数量更大的竞争模型,体现出测试时动态适应的强大能力;
- 在短上下文任务上保持性能,无明显退化。
实验二:从零预训练(完整训练收益)
从头预训练集成 In-Place TTT 的模型,对比所有同类 TTT 相关方法:
- 在语言建模困惑度(perplexity)和下游任务准确率两个维度均一致领先;
- 在 MQAR(Multi-Query Associative Recall)、长上下文问答、上下文学习等多类任务上取得最优成绩;
- 消融实验证明,NTP 对齐目标函数和分块更新机制均为关键贡献,缺一不可。
方法论总结
| 维度 | 传统 TTT | In-Place TTT |
|---|---|---|
| 架构改动 | 需引入新层(TTT 层/RNN 模块) | 复用现有 MLP 投影矩阵,零新增参数 |
| 部署门槛 | 需从头训练 | 可直接增强已有 LLM |
| 目标函数 | 重建目标(与 NTP 错位) | 与 NTP 显式对齐,理论有据 |
| 长上下文效率 | 计算随长度线性/二次增长 | 分块更新,线性扩展,兼容 CP |
| 性能(4B 模型,128k) | 基线 | 显著超越所有对比方法 |
研究意义与启示
In-Place TTT 开创了一个值得深度关注的新方向:让 LLM 在推理时"自我更新",而非仅依赖上下文窗口内的隐式记忆。
从工程角度看,这一框架的无架构改动特性使其极具实用价值——任何基于标准 Transformer 构建的 LLM(包括 LLaMA、Qwen、DeepSeek 等开源系列)原则上均可通过 In-Place TTT 获得持续学习能力,且部署成本极低。
从学术角度看,NTP 对齐目标函数的理论框架为未来在线学习、持续预训练、个性化微调等方向提供了重要参考,分块更新与上下文并行的结合也为超长上下文时代的训练系统设计提供了新思路。
论文链接
- arXiv 主页:https://arxiv.org/abs/2604.06169
- PDF 全文:https://arxiv.org/pdf/2604.06169
- 代码仓库:见论文中 "Code is released at this https URL" 部分
扩展阅读
以下四篇论文来自本周(2026-04-07 ~ 2026-04-14),在推理加速、训练优化和量化方向各有突破。
01|Relax:面向全模态后训练的异步 RL 引擎
论文信息
- 标题:Relax: An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale
- arXiv ID:2604.11554(2026-04-13)
- 作者:Liujie Zhang、Benzhe Ning、Rui Yang 等 11 位(小红书 AI 团队)
- 代码:https://github.com/rednote-ai/Relax
核心内容
当前 RL 后训练(尤其是 RLVR)在扩展到全模态输入和多轮 Agent 工作流时,面临异构数据流、大规模容错和"陈旧度-吞吐量"三角权衡难题。Relax 通过三层协同设计应对:
- 全模态原生架构:在数据预处理、模态感知并行、推理生成等全栈环节内置多模态(图像、文本、音频、视频)支持,单系统覆盖 omni-modal 训练;
- 独立容错服务:每个 RL 角色作为独立服务运行,支持单独扩缩容、热升级和故障恢复,视频任务可稳定运行超 2000 步;
- TransferQueue 异步机制:服务级解耦,支持从同策(on-policy)到全异步(fully asynchronous)的平滑切换。
关键性能数据:相比 veRL,Relax 同策模式在 Qwen3-4B 上提速 1.20×,全异步模式在 Qwen3-4B 和 Qwen3-Omni-30B 上分别提速 1.76× 和 2.00×,且收敛奖励基本持平。MoE 模型 R3 训练(Rollout Routing Replay)额外开销仅 1.9%(veRL 为 32%)。
02|LVSpec:面向 Video-LLM 的松散推测解码
论文信息
- 标题:See the Forest for the Trees: Loosely Speculative Decoding via Visual-Semantic Guidance for Efficient Inference of Video LLMs
- arXiv ID:2604.05650(2026-04-07,v2 2026-04-08)
- 作者:Yicheng Ji、Jun Zhang 等 7 位
- 收录会议:ACL 2026 Main Conference
核心内容
Video-LLM 自回归生成存在高推理延迟,传统推测解码(Speculative Decoding)受严格精确匹配限制,加速效果有限。LVSpec 的关键洞察是:生成内容由视觉相关锚点(需严格验证)和视觉无关填充词(可宽松验证)两类构成,两者应差异化处理。
LVSpec 提出:
- 轻量级视觉相关标记识别:精确定位对视觉内容敏感的关键 token;
- 位置偏移容忍机制:对语义等价但位置不同的 token 放宽验证,大幅提升接受率。
实验结果:在保持 >99.8% 目标性能的前提下,Qwen2.5-VL-32B 加速 2.70×,LLaVA-OneVision-72B 加速 2.94×;相比现有无训练推测解码方法,平均接受长度提升 136%,加速比提升 35%,且无需额外训练。
03|NExt:RLVR 训练的低秩轨迹外推加速
论文信息
- 标题:Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration
- arXiv ID:2604.11446(2026-04-13)
- 作者:Zhipeng Chen、Tao Qian、Wayne Xin Zhao、Ji-Rong Wen(中国人民大学 AI Box 实验室)
- 代码:https://github.com/RUCAIBox/NExt
核心内容
RLVR 训练需要大量探索,计算开销极高。现有通过线性外推模型参数来减少训练步数的尝试效果有限,根本原因在于对参数更新动态规律认识不足。
NExt(Nonlinear Extrapolation of Low-rank Trajectories)的关键发现是:RLVR 训练中模型的 rank-1 子空间演化是非线性的,且在 LoRA 训练中其主导性进一步增强。基于此,NExt 通过:
- 使用 LoRA 训练并提取多步参数差异的 rank-1 子空间;
- 训练预测器对低秩参数轨迹进行非线性建模;
- 外推模型参数,跳过若干训练步骤。
实验结果:在 MATH500、AIME、AMC 等多个数学推理基准上,NExt 减少约 37.5% 的计算开销,与多种 RLVR 算法和任务兼容,鲁棒性强。
04|TurboQuant:近最优失真率的在线向量量化
论文信息
- 标题:TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
- arXiv ID:2504.19874(2025-04-28)
- 作者:Amir Zandieh、Majid Daliri、Majid Hadian、Vahab Mirrokni(Google Research)
核心内容
向量量化旨在压缩高维向量同时最小化几何失真,但现有方法难以在 MSE 和内积两个失真维度上同时达到理论最优。TurboQuant 提出数据无关的在线量化方法,同时优化两类失真:
- 通过随机旋转输入向量,在坐标上诱导集中 Beta 分布,利用高维空间坐标近独立性对每个坐标施加最优标量量化器;
- 针对内积估计偏差,提出两阶段无偏方案:先用 MSE 量化器,再对残差做 1-bit QJL 变换。
提供信息论下界的形式化证明,TurboQuant 与下界仅差约 2.7 倍常数因子。
实验结果:KV 缓存量化中,3.5 bit/channel 实现无损压缩,2.5 bit 仅有轻微质量下降;最近邻搜索中召回率优于现有乘积量化方法,且索引时间近乎为零,适合实时在线场景部署。
本期亮点速览
| 论文 | 方向 | 核心亮点 | 来源 |
|---|---|---|---|
| In-Place TTT(精选) | 测试时训练 / 长上下文 | 复用 MLP 投影矩阵,zero-overhead 赋予 LLM 在线适应能力 | ICLR 2026 Oral |
| Relax | RL 训练系统 | 全模态异步 RL 引擎,全异步模式提速 2× | arXiv 2026-04-13 |
| LVSpec | 推理加速 | 视觉感知松散推测解码,Video-LLM 提速 2.94× | ACL 2026 |
| NExt | RLVR 训练加速 | 非线性低秩轨迹外推,降低 37.5% 计算开销 | arXiv 2026-04-13 |
| TurboQuant | KV 缓存量化 | 近最优失真率向量量化,3.5 bit 无损 KV 压缩 | arXiv 2025-04-28 |
References
- In-Place Test-Time Training for Large Language Models
- Relax: An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale
- See the Forest for the Trees: Loosely Speculative Decoding via Visual-Semantic Guidance for Efficient Inference of Video LLMs (LVSpec)
- Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration (NExt)
- TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate
