当前位置：首页 > news >正文

不用额外缓存！英伟达开源大模型记忆压缩方案，128K上下文提速2.7倍

news 2026/5/11 21:44:17

联合Astera研究所、斯坦福大学、UC伯克利、加州大学圣地亚哥分校等机构推出了TTT-E2E方法。

提高大模型记忆这块儿，美国大模型开源王者——英伟达也出招了。

联合Astera研究所、斯坦福大学、UC伯克利、加州大学圣地亚哥分校等机构推出了TTT-E2E方法。

在128K超长文本上处理速度比全注意力模型快2.7倍，处理2M上下文时提速达35倍，性能还不打折。

这项技术与前几天大火的DeepSeek条件记忆模块有所不同。

DeepSeek的Engram模块依赖的是“按需查表”的静态学习路径，而英伟达走的是动态学习的路子，关键在于上下文压缩。

通过实时学习将关键内容压缩到自身权重中，让模型在测试阶段依然保持学习状态。

这样既避免了额外缓存的负担，又能精准捕捉长文本中的核心逻辑。

给模型装上记忆压缩包

TTT-E2E并没有依赖复杂特殊架构，反而是基于带滑动窗口注意力的标准Transformer，容易部署。

这个方法的核心思路是将长文本建模从架构设计问题转化为「持续学习」任务。

在测试阶段，模型会基于当前读取的上下文进行下一个词预测。

每读取一段文本，就通过梯度下降更新自身参数，通过这种方式持续训练自身，把读到的文本信息动态压缩到权重中，这样就不用额外存储冗余数据。

在训练阶段，团队通过元学习为模型做初始化准备，让模型天生适应「测试时学习」的模式。

把每个训练序列都模拟成测试序列，先在内循环中对其进行测试时训练，再在外循环中优化模型的初始参数，确保初始状态就能快速适配测试时的学习需求，实现了训练与测试的端到端对齐优化。

为了平衡效率与稳定性，TTT-E2E还设计了三项关键优化。

一是采用「迷你批处理+滑动窗口」的组合策略。将测试时的训练数据分成多个迷你批，配合8K大小的滑动窗口注意力，既解决了单token梯度更新易爆炸的问题，又保证模型能记住批内上下文，提升计算并行度；

二是精准更新策略。只更新模型的MLP层（冻结嵌入层、归一化层和注意力层），并且只更新最后1/4的网络块，在减少计算成本的同时避免参数更新混乱；

三是双MLP设计。在需更新的网络块中加入一个静态MLP层，专门存储预训练知识，另一个动态MLP层负责吸收新上下文，来防治模型学新忘旧。

从实验数据来看，TTT-E2E的表现很亮眼。

在3B参数模型的测试中，TTT-E2E在128K上下文长度下的测试损失与全注意力Transformer持平甚至更优，而Mamba 2、Gated DeltaNet等同类模型在长文本场景下性能均出现明显下滑；

在延迟上，它的推理延迟不随上下文长度增加而变化，与RNN类似，在H100显卡上处理128K文本时，速度比全注意力模型快2.7倍。

在解码长序列任务中，经Qwen-8B模型评估，TTT-E2E生成的文本质量稳定，损失值持续低于传统模型。

通过实验结果也可以看出，该方法的推理延迟与上下文长度无关，始终保持恒定，这也意味着无论处理8K还是128K文本，用户都能获得一致的快速响应体验。

不过，TTT-E2E也存在一些小局限。

在大海捞针这类需要精准回忆细节的任务中，它的表现远不如全注意力模型。

这是因为它的核心是压缩记忆，会过滤掉看似无关的细节，而全注意力模型能近乎无损地召回所有信息。

另一方面，训练阶段的元学习需要计算梯度的梯度，目前实现比标准预训练要慢。

目前，TTT-E2E的代码和相关论文已完全开源。

这项研究的项目总负责人是斯坦福的博士后研究员Yu Sun，他同时是该研究的核心贡献者。

他研究的总体目标是让人工智能系统能够像人类一样持续学习。自2019年以来，他就在开发“测试时训练”的概念框架，TTT-E2E项目的早期构想就是他提出的。

如果你想更深入地学习大模型，以下是一些非常有价值的学习资源，这些资源将帮助你从不同角度学习大模型，提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量

查看全文

http://www.jsqmd.com/news/245602/

Qwen2.5-0.5B-Instruct供应链优化：需求预测AI系统实战

Z-Image-ComfyUI单卡部署教程：16G显存轻松运行指南

【RabbitMQ】消息确认机制持久化发布确认机制

降AI工具哪家强？2026年最新免费平台盘点，这10款高效好用别错过！

麦橘超然Flux能否替代Stable Diffusion？对比分析

DeepSeek-V4蓄势待发！梁文锋署名论文或开启第二个DeepSeek时刻

制造业企业如何构建高效数据采集系统：从挑战到实践

免费降AI工具精选：2026年10大平台横向评测，教你高效降低AI率！

1.什么是电子签名？

2026年免费降AI神器盘点：10款工具亲测对比，轻松应对各类AI检测系统！

Claude自己写出Claude！2小时干完两月活，人类在工位上多余了？

VSCode函数级开发与代码审计——核心操作全解析与落地实践

Qwen模型快速选型指南：3小时试遍主流方案不超30元

企业级开发环境中STM32CubeMX下载安装标准化流程

实现订单自动关闭机制——电商系统中的定时任务设计与实践

改进A星算法：剔除冗余节点与光滑转折点

2.Java实现电子签名的两种工具

Mac系统如何批量命名，Mac批量重命名软件工具

基于拉丁超立方采样与自适应核密度估计的电力系统概率潮流精准计算

GBDT 生态的未来演化：从技术竞争到协同标准的形成

adb 远程连接设备

Mac文件批量重命名工具：A Better Finder Rename

从 RPA 迈向智能自治，开启企业外部群运营的“自动驾驶”时代

大数据领域数据服务的数据分析工具选择

快讯｜DeepSeek Engram论文详解存算分离，华为SWE-Lego开源轻量级代码智能体全栈方案，

企业微信 RPA 外部群自动化实战：5 大技术瓶颈与解决方案

学Simulink--基础储能管理场景实例：基于Simulink的光储联合系统削峰填谷能量管理仿真

纳米级精准，实路见证：OBS-ONE SPN10车载废气测量系统项目实战全攻略

康养休闲旅游服务实训室教学应用与实践

给模型装上记忆压缩包

相关文章：