当前位置: 首页 > news >正文

仅0.04B!哈工深首创同层混合架构STILL,极低成本线性化LLM

随着大语言模型上下文长度增长,标准 Softmax Attention 的二次复杂度逐渐成为推理与部署的结构性瓶颈。

尤其在 prefill 阶段,计算与显存开销会随序列长度呈平方增长,导致吞吐下降与部署成本快速上升。

在这一背景下,“线性化预训练 LLM”成为高效长上下文推理的重要方向。

近日,哈工大深圳张正团队联合鹏城实验室、昆士兰大学 UQMM Lab、华为技术有限公司,提出业界首个实现长上下文能力恢复的同层混合注意力框架 STILL,彻底颠覆了现有的层间混合的固有范式。

仅用 0.04B token 实现大语言模型的线性化,显著改善同层混合方案在长上下文建模退化的问题,实现最高 86.2% 的长序列任务精度提升。

论文标题:

STILL: Selecting Tokens for Intra-Layer Hybrid Attention to Linearize LLMs

论文链接:

https://arxiv.org/abs/2602.02180

作者团队:

哈尔滨工业大学(深圳)SMULL Group、鹏城实验室、昆士兰大学UQMM Lab、华为技术有限公司

论文作者:

Weikang Meng, Liangyu Huo, Yadan Luo, Jiawen Guan, Jingyi Zhang, Yingjian Li, Zheng Zhang

目前行业主流的混合注意力方案,普遍以层间混合策略为主,多数层用线性注意力(LA)提速,间隔少量层用标准注意力(SA)补全局。

然而关键证据与全局关联在前序多层 LA 的压缩与近似中容易被不可逆削弱甚至丢失,后续即便插入 SA 也难以恢复,长上下文能力因此崩塌。

已有的同层混合往往过度依赖滑动窗口路由,难以覆盖长序列中分散的关键证据。

STILL 跳出“按层补救”的思路,在每一层内并行两条分支:基于内容选择的少量关键 token 走 SA 做全局精确建模,其余 token 走 LA 做线性汇聚,以“每层保关键、整体保效率”的方式避免关键信息提前丢失,从而成为首个在同层混合范式下系统性恢复长上下文能力的方案。

STILL三大创新:精准路由+模长保留+并行优化

STILL 针对上述痛点,提出“内容感知 token 选择+预训练 norm 保留+分块并”的三位一体方案:

Self-Saliency Score:局部计算搞定全局重要性

传统路由依赖全局注意力(二次复杂度),STILL 提出Self-Saliency Score,仅用滑动窗口局部计算就能用局部信息评估该 token 对全局的重要性。

通过对比“带自身对角线” 和 “不带自身对角线” 的滑动窗口注意力分布,计算 token 对自身注意力的敏感度 —— 敏感度越高,说明该 token 在全局上下文中的核心度越高(比如逻辑连接词、关键论点、长程关联的指代信息)。

最终实现了仅用局部滑动窗口,就能达到接近全局注意力的 token 筛选准确率,为同层内混合提供了精准、低开销的路由基础,彻底摆脱了位置路由的局限。

如下图所示,自显著得分的局部-全局一致性极强,最终实现了仅用局部滑动窗口,就能达到接近全局注意力的 token 筛选准确率,为同层内混合提供了精准、低开销的路由基础,彻底摆脱了位置路由的局限。

Norm-Preserved Feature Map(NP-Map):完美保留预训练 norm,解决性能失真

预训练大模型的 softmax 注意力,对 token 向量的 norm(模长,表征信息强度)高度敏感 ——“越重要的 token,向量模长越长”。

而此前几乎所有线性化方案,都会通过 MLP 等结构随意缩放向量 norm,直接导致预训练模型的注意力分布彻底失真,性能断崖式下跌。

对于同层混合方案来说,这个问题更致命:SA 和 LA 两个分支在同一层内融合,如果特征分布不一致,会直接导致模型能力崩塌。

STILL 的 NP-Map 通过解耦方向与模长,强制保留预训练模型的模长信息:

让线性注意力完美 “继承” 预训练模型的注意力“力度感”,实现了 SA 与 LA 分支的无缝融合,从根源上避免了线性化带来的性能失真。

Chunk-Wise并行+延迟选择:硬件友好的高效实现

Token 级路由会导致并行度低、硬件利用率差。

STILL 针对性提出了 chunk-wise 分块并行方案:将长序列按块切分,每一块内统一计算 saliency score 并批量筛选 token,再整批送入 SA/LA 分支并行计算。

解码阶段则采用 chunk 粒度的延迟选择,避免逐 token 计算带来的效率损耗。

最终在保证同层混合精度的同时,实现了真正的线性计算复杂度,且完全适配现有硬件的并行计算特性,让方案从理论创新真正走向了工程落地。

实验结果:碾压基线,逼近全注意力性能

STILL 在常识推理、长上下文理解、效率三大维度全面领先:

✅ 常识与推理任务:超越线性化基线

基于 Llama 3.1 8B 作为基座模型,STILL 仅用 0.04B 训练 token,就在 MMLU(5-shot)基准上达到 61.3%,远超 Liger-GLA 的 46.9%,平均性能领先主流方案 LoLCATs 4.5 %。

✅ 长上下文任务:超 85% 性能恢复

在 RULER 基准 S-NIAH 4K 上下文任务及其扩展任务中,STILL 在相同缓存 token 数下,实现 86.2% 准确率(标杆方法仅 8.8%),逼近全注意力模型。

✅ 效率碾压:内存降45%,解码加速28%,64K长序列推理不OOM

Prefilling:序列长度 64K 时,内存仅为 softmax 注意力的 20%;

Decoding:批量推理 64K 序列无内存溢出,解码延迟低于基线 28%。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

http://www.jsqmd.com/news/516633/

相关文章:

  • Ollama+granite-4.0-h-350m:开源轻量模型在学生编程作业辅导中的应用
  • 从入门到精通:MATLAB GUI界面开发核心要点与避坑指南
  • 三步搞定网易云音乐下载:为什么你需要这个命令行神器?
  • DeepSeek-R1-Distill-Qwen-7B数学推理能力实测:AIME竞赛题解题分析
  • IEEE33节点配电网Simulink模型 附带有详细节点数据以及文献出处来源,MATLAB
  • 从零开始:cv_resnet18_ocr-detection OCR模型环境搭建与测试
  • 如何在Windows下查看本机的IP地址
  • LeetCode 3643.子矩阵垂直翻转算法解析
  • 别再只聊天了!OpenClaw(养龙虾)让AI自己工作,附部署教程!
  • MySQL GTID深度解析:gtid_executed与gtid_purged的核心机制与应用场景
  • 2026年四大系列减速机专业定制厂哪家好,鑫钺传动值得选吗 - mypinpai
  • 嵌入式C语言宏定义工程规范与实战
  • ST-LINK升级失败?手把手教你用STM32 ST-LINK Utility搞定固件更新(附常见问题排查)
  • VMware群集搭建必看:如何用iSCSI共享存储实现EXSI主机互通?
  • 从零搭建一个AI摄像头:我用RK3576的6TOPS NPU跑通了YOLOv5s全流程(附模型转换与性能实测)
  • Ubuntu22.04下DPDK环境搭建全攻略:从源码编译到HelloWorld测试
  • lychee-rerank-mm在软件测试中的应用:自动化用例优先级排序
  • CAN总线信号示波器测试全流程指南
  • MCreator Link协议详解:轻量级Arduino串行通信设计
  • 手把手教你部署Qwen3-VL-2B:内网环境下的图片识别与OCR问答
  • 2026年东莞热门债务处理律师推荐,知名债务处理律师联系方式大盘点 - 工业设备
  • Faiss实战:用Python实现百万级向量相似搜索(附GPU加速技巧)
  • MATLAB新手也能搞定!鼠笼式电机矢量控制仿真全流程(附源码)
  • ERNIE-4.5-0.3B-PT镜像免配置教程:vLLM高性能推理与Web交互实操
  • 基于强化学习与LSTM的微网光伏负荷预测及优化调度研究
  • CarSim与Matlab联合仿真:从模型配置到接口联调的实战指南
  • 龙芯2K1000的ACPI电源管理机制与工程实现
  • 低成本玩转ESP8266:最小系统板烧录与智能家居项目实战
  • C#上位机与汇川全系列PLC走ModbusTCP通信实例源码 C#上位机读写PLC案例,TCP...
  • 内蒙好用的金属波纹涵管生产商有哪些,口碑怎么样 - myqiye