当前位置：首页 > news >正文

最新，国产大模型从架构到训练基础设施全部自研，美团的LongCat-2.0做到了

news 2026/7/1 0:44:46

就在刚刚，美团开源了一个叫 LongCat-2.0 的大模型。总参数量1.6万亿，每次算一个词只激活大约480亿参数。这是个混合专家架构，模型很大但每次只用其中一小部分干活。

网页链接：https://longcat.chat/blog/longcat-2.0/

但这次最值得聊的，不是参数量。

是整条链路，从模型架构到训练基础设施，美团自己走通了一条不依赖英伟达的路。

"国产自研"体现在哪

我把报告读完后，梳理了一下，这次的自研主要集中在三个层面。

第一层，训练硬件没走英伟达。

报告原文写的是，整个训练和部署都建立在 AI 专用芯片超级集群上。美团用了几万台规模的专用芯片集群来做预训练，吃下了超过35万亿词元的数据，跑完了数百万加速器小时。

这里有个背景，现在全球能训前沿级别大模型的团队，大多绑死在英伟达的 GPU 生态上。CUDA 生态发展了十几年，工具链成熟，社区庞大。换一套硬件，意味着从编译器、算子、并行策略到故障恢复，基本得自己重新搭。报告里也提到，相比成熟的英伟达生态，配套软件社区还不够成熟。

美团选择了这条路，而且训得还挺稳，全程没有回滚，没有出现不可恢复的损失值飙升。在大模型训练里，损失值飙升是常见的事，动不动就得回滚检查点重来。全程不回滚，说明这套专用芯片上的训练基础设施已经跑通了。

第二层，架构是自己设计的。

报告里重点提了两个架构创新，一个是 LongCat稀疏注意力，简称 LSA，一个是 N元嵌入。这两个不是拿开源方案直接套，是在已有方法上做了自己的改进。

LSA 是在 DeepSeek稀疏注意力基础上演进的，针对索引器的瓶颈做了三项改进，流感知索引、跨层索引、分层索引，目的是让长上下文处理更高效。N元嵌入是把词元做N元组合扩展嵌入空间，大概扩展了100倍，塞了1350亿参数进去，比例控制在总参数的10%以内。

这两个架构的具体机制，报告写得很细，我不在这展开。只需要知道，这是美团自己的架构设计，不是直接用现成方案。

第三层，训练和推理工程是自己搭的。

这部分报告着墨最多，六维并行、超级集群架构、专用芯片优化器、超级内核、权重预取、预填充-解码分离部署，一堆工程细节。核心就是，在专用芯片这种软件生态没那么成熟的前提下，美团自己搭了一套能跑1.6万亿参数模型的训练和推理工程体系。

这三层叠在一起，就是"从头到尾自研"的意思。模型是自己设计的，架构是自己创新的，训练基础设施是自己搭的，硬件没走英伟达的路。

技术方法，简单梳理

具体的技术实现，我这里只做个梳理，不展开。

LSA 三项改进：

流感知索引，把碎片化内存访问改成顺序读取，提升带宽利用率
跨层索引，相邻层共用一个索引结果，省重复计算
分层索引，先粗筛再精筛，缩小索引处理空间

N元嵌入：

在稀疏维度上扩展参数，而不是继续堆专家
稀疏度已经到97%左右，继续加专家收益很小
1350亿参数，比例控制在10%以内

1M 上下文：

用数千亿词元的百万级长上下文数据训练，就是一百万词元的窗口
为了训这个长度，做了几个配套工程，LSA的确定性算子、前向优化的稠密预热策略、能扩展到上下文并行512以上的全聚合并行方案
这些工程细节不展开，核心是一点，1M上下文这个能力不是架构搭好就自动有的，得专门用大量长上下文数据练出来
专门为智能体应用准备，因为智能体任务需要读整个代码库、读一堆文档、做长链路推理，上下文短了根本干不了活
这块和前面的 LSA 是呼应的，LSA 让长上下文处理更高效，1M上下文让模型能吃下足够长的输入，两个配合起来才撑得起智能体场景

后训练，三组专家：

智能体专家，专攻自主任务执行。覆盖代码、工作、搜索这些垂直领域，不光优化端到端任务成功率，还优化工具调用、参数解析、自我纠错这些原子能力，让模型在复杂任务里别陷入死循环和重复调用
推理专家，专攻逻辑推理。覆盖数学、理工科、多跳推理，还能根据问题难度自适应分配计算量，难题多算，简单题少算
交互专家，专攻人机交互。覆盖指令遵循、抑制事实幻觉、安全边界，但有一个原则，不为了安全把模型变得没用
三组各有分工，最后用多专家并行解耦架构融合到一起，让最终模型同时具备任务执行、深度推理和高质量交互三种能力
你想想这个分法，智能体、推理、交互，刚好对应了大模型落地最难的三件事，能不能干活、能不能想清楚、能不能让人用着舒服

这些只是梳理。如果你做技术，想搞懂 LSA 三项改进到底怎么实现的，N元嵌入为什么能扩展嵌入空间，后训练三组专家怎么融合的，建议直接看原文。

能力怎么样，看跑分

LongCat-2.0 这次跑了六个基准测试，对标的是 GPT-5.5、Gemini 3.1 Pro、Opus 4.6、4.7、4.8 这几组当前最强的模型。我把这六个测试分别测什么先说清楚。

终端基准2.1，测的是模型在命令行环境下的任务执行能力，比如能不能自主操作终端、跑脚本、处理系统任务。这个直接反映模型当智能体的实操水平。

软件工程基准Pro，测的是真实软件工程问题解决能力，给一个真实的代码仓库，让模型修 bug、加功能，看能不能跑通。这是目前评估代码能力最硬的测试之一。

软件工程基准多语言版，同样是软件工程问题，但扩展到多种编程语言，测的是跨语言泛化能力。

FORTE，测的是推理能力，重点看模型在复杂逻辑链路上的表现。

RWSearch，测的是真实网页搜索能力，模型需要联网检索信息、筛选、整合，这个能力对智能体做调研类任务很关键。

BrowseComp，测的是浏览理解对比，看模型能不能在浏览大量网页后做对比和判断。

这六个测试覆盖了智能体实操、代码工程、跨语言、推理、搜索、浏览对比六个维度，基本把一个大模型当前最重要的能力都测了一遍。

对标名单里 GPT-5.5、Gemini 3.1 Pro、Opus 4.6 到 4.8，都是当前第一梯队的模型。能放一起比，说明 LongCat-2.0 的能力定位是冲着前沿去的。

另外说一点实际可用性。LongCat-2.0 深度集成了 Claude Code、OpenClaw、Hermes 这些主流工具链。代码理解、仓库级编辑、自动化任务执行、智能体工作流都能跑。注意是深度集成，不是简单适配。对开发者来说，跑分是一回事，能不能直接上手用是另一回事，这块 LongCat-2.0 是实际可用的，不只是刷分。

回到开头那句话，美团自己走通了一条不依赖英伟达的路。

我需要客观说一点，英伟达的生态目前确实还是最成熟的，短期之内这个格局不会变。但 LongCat-2.0 的价值在于，它证明了一条替代路线是可行的。1.6万亿参数，专用芯片集群训练，35万亿词元零回滚，1M 上下文，两个自己的架构创新，最后能和第一梯队模型对标。

这在当下的算力格局里有实际意义。H100 缺货、出口管制、价格飞涨，如果不止一条路能走到前沿，那对整个行业来说，选择就多了。

这是个开源模型，代码在 GitHub 上。想研究技术细节的，建议直接看原文和代码：https://github.com/meituan-longcat/LongCat-2.0

如果你对大模型这些方向感兴趣，也欢迎来群里一起学习交流。扫码即可加入：

查看全文

http://www.jsqmd.com/news/1099234/