当前位置：首页 > news >正文

仅0.04B！哈工深首创同层混合架构STILL，极低成本线性化LLM

news 2026/3/27 1:24:48

随着大语言模型上下文长度增长，标准 Softmax Attention 的二次复杂度逐渐成为推理与部署的结构性瓶颈。

尤其在 prefill 阶段，计算与显存开销会随序列长度呈平方增长，导致吞吐下降与部署成本快速上升。

在这一背景下，“线性化预训练 LLM”成为高效长上下文推理的重要方向。

近日，哈工大深圳张正团队联合鹏城实验室、昆士兰大学 UQMM Lab、华为技术有限公司，提出业界首个实现长上下文能力恢复的同层混合注意力框架 STILL，彻底颠覆了现有的层间混合的固有范式。

仅用 0.04B token 实现大语言模型的线性化，显著改善同层混合方案在长上下文建模退化的问题，实现最高 86.2% 的长序列任务精度提升。

论文标题：

STILL: Selecting Tokens for Intra-Layer Hybrid Attention to Linearize LLMs

论文链接：

https://arxiv.org/abs/2602.02180

作者团队：

哈尔滨工业大学（深圳）SMULL Group、鹏城实验室、昆士兰大学UQMM Lab、华为技术有限公司

论文作者：

Weikang Meng, Liangyu Huo, Yadan Luo, Jiawen Guan, Jingyi Zhang, Yingjian Li, Zheng Zhang

目前行业主流的混合注意力方案，普遍以层间混合策略为主，多数层用线性注意力（LA）提速，间隔少量层用标准注意力（SA）补全局。

然而关键证据与全局关联在前序多层 LA 的压缩与近似中容易被不可逆削弱甚至丢失，后续即便插入 SA 也难以恢复，长上下文能力因此崩塌。

已有的同层混合往往过度依赖滑动窗口路由，难以覆盖长序列中分散的关键证据。

STILL 跳出“按层补救”的思路，在每一层内并行两条分支：基于内容选择的少量关键 token 走 SA 做全局精确建模，其余 token 走 LA 做线性汇聚，以“每层保关键、整体保效率”的方式避免关键信息提前丢失，从而成为首个在同层混合范式下系统性恢复长上下文能力的方案。

STILL三大创新：精准路由+模长保留+并行优化

STILL 针对上述痛点，提出“内容感知 token 选择+预训练 norm 保留+分块并行”的三位一体方案：

Self-Saliency Score：局部计算搞定全局重要性

传统路由依赖全局注意力（二次复杂度），STILL 提出Self-Saliency Score，仅用滑动窗口局部计算就能用局部信息评估该 token 对全局的重要性。

通过对比“带自身对角线” 和 “不带自身对角线” 的滑动窗口注意力分布，计算 token 对自身注意力的敏感度 —— 敏感度越高，说明该 token 在全局上下文中的核心度越高（比如逻辑连接词、关键论点、长程关联的指代信息）。

最终实现了仅用局部滑动窗口，就能达到接近全局注意力的 token 筛选准确率，为同层内混合提供了精准、低开销的路由基础，彻底摆脱了位置路由的局限。

如下图所示，自显著得分的局部-全局一致性极强，最终实现了仅用局部滑动窗口，就能达到接近全局注意力的 token 筛选准确率，为同层内混合提供了精准、低开销的路由基础，彻底摆脱了位置路由的局限。

Norm-Preserved Feature Map（NP-Map）：完美保留预训练 norm，解决性能失真

预训练大模型的 softmax 注意力，对 token 向量的 norm（模长，表征信息强度）高度敏感 ——“越重要的 token，向量模长越长”。

而此前几乎所有线性化方案，都会通过 MLP 等结构随意缩放向量 norm，直接导致预训练模型的注意力分布彻底失真，性能断崖式下跌。

对于同层混合方案来说，这个问题更致命：SA 和 LA 两个分支在同一层内融合，如果特征分布不一致，会直接导致模型能力崩塌。

STILL 的 NP-Map 通过解耦方向与模长，强制保留预训练模型的模长信息：

让线性注意力完美 “继承” 预训练模型的注意力“力度感”，实现了 SA 与 LA 分支的无缝融合，从根源上避免了线性化带来的性能失真。

Chunk-Wise并行+延迟选择：硬件友好的高效实现

Token 级路由会导致并行度低、硬件利用率差。

STILL 针对性提出了 chunk-wise 分块并行方案：将长序列按块切分，每一块内统一计算 saliency score 并批量筛选 token，再整批送入 SA/LA 分支并行计算。

解码阶段则采用 chunk 粒度的延迟选择，避免逐 token 计算带来的效率损耗。

最终在保证同层混合精度的同时，实现了真正的线性计算复杂度，且完全适配现有硬件的并行计算特性，让方案从理论创新真正走向了工程落地。

实验结果：碾压基线，逼近全注意力性能

STILL 在常识推理、长上下文理解、效率三大维度全面领先：

✅ 常识与推理任务：超越线性化基线

基于 Llama 3.1 8B 作为基座模型，STILL 仅用 0.04B 训练 token，就在 MMLU（5-shot）基准上达到 61.3%，远超 Liger-GLA 的 46.9%，平均性能领先主流方案 LoLCATs 4.5 %。

✅ 长上下文任务：超 85% 性能恢复

在 RULER 基准 S-NIAH 4K 上下文任务及其扩展任务中，STILL 在相同缓存 token 数下，实现 86.2% 准确率（标杆方法仅 8.8%），逼近全注意力模型。

✅ 效率碾压：内存降45%，解码加速28%，64K长序列推理不OOM

Prefilling：序列长度 64K 时，内存仅为 softmax 注意力的 20%；

Decoding：批量推理 64K 序列无内存溢出，解码延迟低于基线 28%。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

查看全文

http://www.jsqmd.com/news/516633/

Ollama+granite-4.0-h-350m：开源轻量模型在学生编程作业辅导中的应用

从入门到精通：MATLAB GUI界面开发核心要点与避坑指南

三步搞定网易云音乐下载：为什么你需要这个命令行神器？

DeepSeek-R1-Distill-Qwen-7B数学推理能力实测：AIME竞赛题解题分析

IEEE33节点配电网Simulink模型附带有详细节点数据以及文献出处来源，MATLAB

从零开始：cv_resnet18_ocr-detection OCR模型环境搭建与测试

如何在Windows下查看本机的IP地址

LeetCode 3643.子矩阵垂直翻转算法解析

别再只聊天了！OpenClaw（养龙虾）让AI自己工作，附部署教程！

MySQL GTID深度解析：gtid_executed与gtid_purged的核心机制与应用场景

2026年四大系列减速机专业定制厂哪家好，鑫钺传动值得选吗 - mypinpai

嵌入式C语言宏定义工程规范与实战

ST-LINK升级失败？手把手教你用STM32 ST-LINK Utility搞定固件更新（附常见问题排查）

VMware群集搭建必看：如何用iSCSI共享存储实现EXSI主机互通？

从零搭建一个AI摄像头：我用RK3576的6TOPS NPU跑通了YOLOv5s全流程（附模型转换与性能实测）

Ubuntu22.04下DPDK环境搭建全攻略：从源码编译到HelloWorld测试

lychee-rerank-mm在软件测试中的应用：自动化用例优先级排序

CAN总线信号示波器测试全流程指南

MCreator Link协议详解：轻量级Arduino串行通信设计

手把手教你部署Qwen3-VL-2B：内网环境下的图片识别与OCR问答

Faiss实战：用Python实现百万级向量相似搜索（附GPU加速技巧）

MATLAB新手也能搞定！鼠笼式电机矢量控制仿真全流程（附源码）

ERNIE-4.5-0.3B-PT镜像免配置教程：vLLM高性能推理与Web交互实操

基于强化学习与LSTM的微网光伏负荷预测及优化调度研究

CarSim与Matlab联合仿真：从模型配置到接口联调的实战指南

龙芯2K1000的ACPI电源管理机制与工程实现

低成本玩转ESP8266：最小系统板烧录与智能家居项目实战

C#上位机与汇川全系列PLC走ModbusTCP通信实例源码 C#上位机读写PLC案例，TCP...

内蒙好用的金属波纹涵管生产商有哪些，口碑怎么样 - myqiye

Self-Saliency Score：局部计算搞定全局重要性

相关文章：