当前位置: 首页 > news >正文

大模型能“原地”改参数了!字节Seed北大新论文:测试时推理无需加层重训练

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

字节Seed最新研究,让大模型能“原地改参数”了。

既不用改模型结构,也不用重新训练,还跑得很快。

具体是这么个情况。智能体时代嘛,大家都知道模型们面对的任务开始变得越来越复杂、上下文越来越长。

如何让大模型边干活边学习,不断适应新的信息,而不是在超长上下文中逐渐崩溃,已经成为AI圈研究的一大重点。

测试时训练(TTT)让模型能够在推理时更新部分参数,但实际应用时,问题仍然很复杂:

首先,架构不兼容。现有的TTT需要引入全新的网络层,甚至替换注意力机制,导致必须从头开始做预训练。

其次,计算效率低。现有的TTT采用一个Token一个Token的顺序更新,无法充分利用GPU/TPU的并行计算能力。

还有优化目标不匹配的问题。现有TTT多采用重建目标(reconstruction),只让模型记住当前的词,而不是为了预测下一个词设计。也就是说,与语言模型核心的“预测下一个Token”的任务不匹配。

针对这些问题,来自字节Seed和北京大学的研究团队想到了一个小妙招:

不新增层,也不改架构,直接把Transformer里本来就有的MLP模块,当成大模型的“临时小脑”。

这个名为In-Place TTT(原地测试时训练)的方案,让TTT可以作为即插即用的模块,无缝集成到现有的预训练大模型中。

实验证明,Qwen3-4B、Llama3.1-8B、Qwen3-14B在装备In-Place TTT之后,都原地变强了,并且在长文本任务上提升尤为明显。


这篇论文已经中了ICLR 2026 Oral。

让大模型在推理时“原地改参数”

话不多说,还是来看论文的详细内容。

In-Place TTT核心要解决的问题,是在不折腾模型架构的前提下,让大模型在推理/回答问题时,也能悄悄更新自己,适配当前的上下文。

实现即插即用,字节Seed和北大的研究人员主要做了3点创新。

原地架构设计

在In-Place TTT中,研究人员巧妙地复用了Transformer中无处不在的MLP(多层感知机)

他们将MLP的最后一个投影矩阵Wdown作为快速权重(fast weights),在推理时进行原地更新。

这样就无需引入新的专用层来处理快速权重。已经训好的大模型也可以拿来直接用,不必重新训练。

语言模型对齐的优化目标

原来的TTT只让模型“记住当前Token”,前文已经提到,这与语言模型的优化目标是不一致的。

为此,In-Place TTT设计了专门针对自回归语言模型的优化目标:

通过引入一维卷积(Conv1D)和投影矩阵,使TTT的目标值包含了未来 Token的信息,从而显式地与“预测下一个Token”的任务对齐。

研究人员还分析证明,这种做法能促使快速权重压缩对未来预测有用的信息,从而有效提升模型的上下文学习能力。

高效的块级更新机制

In-Place TTT是对MLP进行改造,保留了原有的注意力层,这就使得该方法可以实现分块更新,不用再逐Token去处理。

结合上下文并行技术,In-Place能实现更高的吞吐量和计算效率,支持更长的上下文。

实验表明,In-Place TTT能大幅提升现有模型(如Qwen3-4B)在128K甚至256K长上下文任务中的表现。

在从头训练的对比中,也优于其他TTT方法。

研究团队

In-Place TTT的论文一作是冯古豪和罗胜杰。

冯古豪目前就读于北京大学,是字节Seed的实习生。

罗胜杰同样毕业于北大,师从王立威教授和本文通讯作者贺笛教授。

本文的另一位通讯作者是字节Seed的Wenhao Huang。

论文地址:
https://arxiv.org/abs/2604.06169v1

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

🔹 谁会代表2026年的AI?

龙虾爆火,带动一波Agent与衍生产品浪潮。
但真正值得长期关注的AI公司和产品,或许不止于此。

如果你正在做,或见证着这些变化,欢迎申报。
让更多人看见你。👉 https://wj.qq.com/s2/25829730/09xz/

一键关注 👇 点亮星标

http://www.jsqmd.com/news/625380/

相关文章:

  • Mastodon推出Collections功能,重塑社交账户发现体验
  • AI原生研发岗缺口高达47.6万!:2026年前必须掌握的5项硬核能力清单(附企业真实JD对标表)
  • 高效音效管理方案:Teamspeak 3音效面板全面解析
  • 优化师资与课程体系,提升备考效率
  • py每日spider案例之盘sou资源搜索接口(无加密)
  • 【若依前后端分离】业务模块404排查:从依赖注入到包扫描的完整指南
  • AI Agent设计原理与开发入门:以Phi-3-mini-4k-instruct-gguf为核心构建智能体
  • Asian Beauty Z-Image Turbo 社区作品年鉴:年度最佳生成图像鉴赏
  • 计算机毕业设计:Python城市空气质量大数据分析平台 Django框架 Spark 线性回归 可视化 大数据 机器学习 深度学习(建议收藏)✅
  • 运维系列【仅供参考】:Centos7 后台执行(nohup命令)
  • 自进化的用户记忆-让AI Agent在多轮对话中更懂你
  • TCP/IP协议详解:高性能服务器开发的底层基石桌
  • 别再乱赋权了!深入理解SAP权限对象、字段与角色间的‘并集’陷阱
  • UE5 PCG实战:5个核心节点,轻松搞定程序化地形与植被
  • 解锁监控新境界:OpenIPC开源固件终极指南
  • 让开发流程更高效:为 Visual Studio 订阅用户解锁 Syncfusion湛
  • 突破消隐时间瓶颈:一种栅漏双电压协同检测的SiC MOSFET快速保护方案
  • 【2026奇点智能技术大会权威解读】:大模型API网关设计的5大反模式与3层防御架构实战指南
  • SkiaSharp 在 .NET 跨平台开发中的图形处理实战
  • 【独家披露】头部AIGC平台内部评估看板:12项可量化KPI+4级红黄蓝预警机制(附开源评估框架v2.3)
  • 【AI原生研发敏捷适配白皮书】:20年架构师亲授3大范式迁移路径与5个不可绕过的反模式陷阱
  • 3步解决ModOrganizer游戏兼容性问题:从《暗黑地牢》新版支持看模组管理器的技术演进
  • GLM-OCR与Qt框架集成:开发跨平台桌面端OCR工具
  • 【Basalt】measure 中关键帧管理与滑动窗口梳理
  • 实时通信选型踩过7个致命坑,才换来这份AI原生软件专用通信技术评估清单,第4条90%团队正在忽略
  • Burpsuite之暴力破解+验证码识别 | 添柴不加火世
  • Sunshine游戏流媒体服务器:5个关键技巧解决常见错误与性能优化
  • AI研发者正在签署的不是代码,而是伦理契约:SITS2026 2024实证报告揭示89%团队缺失伦理影响评估(附ISO/IEC 42001适配模板)
  • 别再踩坑了!用MinIO Operator v6.0.3在K8s上部署对象存储,这些PV和PVC的坑我帮你填了
  • WorkBuddy 教程系列 | 从入门到精通全网最全版