当前位置：首页 > news >正文

美团龙猫LongCat技术升级！新注意力机制解码速度快十倍，还能处理1M超长文本

news 2026/3/26 20:08:37

美团龙猫LongCat系列新年出招，发布全新稀疏注意力机制LoZA（LongCat ZigZag Attention）。

256K文本预加载提速超50%，还解锁了1M上下文窗口。

美团龙猫LongCat系列新年出招，发布全新稀疏注意力机制LoZA（LongCat ZigZag Attention）。

新技术集中火力，重点解决长文本任务的理解、算力难题。

相比于LongCat系列之前的全注意力MLA机制，LoZA只改了一半的核心模块。

但模型长文本能力从256K扩展到1M，解码速度还快了不少。

甚至比同类型的Qwen-3模型表现还要好。

接下来看具体方案。

如何做到 “只算关键部分” ？

全注意力机制的算力瓶颈在于平方级的计算复杂度O (L²)，这导致模型在处理长文本任务时对显卡要求高，还会出现推理延迟问题。

LoZA的核心思路是专注于处理重要的内容，不重要的部分少花力气。

作为LongCat系列的核心技术升级，LoZA主要是在原来的MLA机制上做改造。

具体分两步。

首先，给模型里的多头潜在注意力模块MLA做一个全局“筛查”，找出哪些模块可以被改造。

在原来的MLA架构中，每个MLA模块都是处理注意力的核心单元，现在的新方案是给每个模块配一个可学习权重α。

α值越高，说明该模块额全注意力计算越关键，一旦简化就容易丢性能；α值越低就意味着模块的可替代性强，即便换成更轻量的计算方式，对整体的理解能力影响也不大。

在训练过程中，团队冻结模型其他参数，只更新α的梯度，通过这种专门的校准训练让模型自主学习α值，然后按α值从小到大排序，找出那些稀疏化后不影响性能的MLA模块，也就是后续的优化目标。

随后，将找出的50%低性能模块换成更轻巧的流式稀疏注意力SSA。

这样就形成了一种交错结构，团队将这种结构称为ZigZag。

SSA的计算复杂度是线性的O (L·S)（S为稀疏窗口大小，固定为1024Token），远低于全注意力的O (L²)。

所以这种交错结构让模型既不会因为过度简化而变笨，又能把计算复杂度降到线性级别，省不少算力。

为了让模型在关注局部细节的基础上不忽略整体逻辑，LoZA还设计了一个1024Token稀疏窗口。

每个窗口里有1个负责抓整体关联的“全局块”和7个负责盯附近内容的“局部块”，单块大小为128Token。

这样的改造也不需要从头训练，在中期训练阶段就能完成，成本也比较低。

从测试数据来看，LoZA的表现也不错，主要是“更快”的同时“没变笨”。

速度上，要是处理128K上下文，解码速度直接比原来快10倍；

256K上下文，模型预加载（读文本过程）速度快了50%，后续解码阶段生成内容时还能省30%的算力，相当于同样的硬件，现在能同时处理两倍多的长文本任务。

这也让LongCat-Flash-Exp解锁了1M上下文窗口。

性能上，LoZA也没因为简化而缩水。

处理回答问题、写代码这类日常任务时，和原版LongCat-Flash持平；处理长文本任务时，表现反而更好。

比如在MRCR测试里，反超了同样能处理1M长文本的Qwen-3模型，还更稳定。

接下来，团队还计划让LoZA支持动态稀疏比例。

短文本场景自动多用全注意力保证精度，长文本场景自动增加稀疏模块提升效率，甚至适配多模态模型处理长视频、长图文内容。

好一个新年新气象！

如果你想更深入地学习大模型，以下是一些非常有价值的学习资源，这些资源将帮助你从不同角度学习大模型，提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

查看全文

http://www.jsqmd.com/news/239956/

算法备案自评估不返工！高频驳回原因与核心要点解析

如何在开发中高效抓取美股 tick 数据？

SF Cinema 采用科视Christie激光放映技术升级观影体验

收藏！Java开发者转型AI不难，这份实战指南帮你快速入局

你家的电为何很少断电？秘密藏在地下电缆的在线监测中

Python 肢体动作追踪项目（基于 MediaPipe + OpenCV）

Flutter艺术探索-Flutter自定义组件：组合与封装技巧

循环神经网络与文本处理:编码器-解码器架构及其应用

Flutter艺术探索-Flutter调试工具：DevTools使用指南

循环神经网络与文本处理：深度循环神经网络的实现与应用

Promise 吞错太坑？前端老鸟教你揪出那些藏起来的错误

长尾关键词如何助力SEO策略优化与网站流量提升

【笔试真题】- 华子-2026.01.07-研发岗

Flutter device_info_plus库在鸿蒙端的设备信息获取适配实践

【笔试真题】- 华子-2026.01.07-算法岗

AI技术赋能SEO关键词优化策略新路径解析

Flutter艺术探索-Flutter状态管理入门：setState最佳实践

深度测评本科生必用的8个AI论文平台

长尾关键词在关键词优化中提升SEO效果的有效策略

Flutter艺术探索-Flutter响应式设计：MediaQuery与LayoutBuilder

黑客网站大全！都在这了！速看被删就没了

(9-1-01）自动驾驶中基于概率采样的路径规划：RRT算法介绍+RRT算法的定义与实现（1）

Linux 文本处理工具

别只盯酷炫形态，CES 2026逛展，我更关注AI硬件的落地底气

小白考CPA难吗？难度、通过率科目指南

嘈杂环境秒哑火？声网让AR眼镜走出实验室

GEO优化赛道的“隐形风险”：最新报告揭示服务商选择中的“安全红线”

釉匠水性釉面涂料防水性能深度解析：科技釉面打造长效屏障

甩掉软件内耗，靠国产CAD把效率拉满

CAXA 3D规范BOM源头数据，告别信息缺失扯皮

如何做到 “只算关键部分” ？

相关文章：