当前位置: 首页 > news >正文

最新,国产大模型从架构到训练基础设施全部自研,美团的LongCat-2.0做到了

就在刚刚,美团开源了一个叫 LongCat-2.0 的大模型。总参数量1.6万亿,每次算一个词只激活大约480亿参数。这是个混合专家架构,模型很大但每次只用其中一小部分干活。

网页链接:https://longcat.chat/blog/longcat-2.0/

但这次最值得聊的,不是参数量。

是整条链路,从模型架构到训练基础设施,美团自己走通了一条不依赖英伟达的路。

"国产自研"体现在哪

我把报告读完后,梳理了一下,这次的自研主要集中在三个层面。

第一层,训练硬件没走英伟达。

报告原文写的是,整个训练和部署都建立在 AI 专用芯片超级集群上。美团用了几万台规模的专用芯片集群来做预训练,吃下了超过35万亿词元的数据,跑完了数百万加速器小时。

这里有个背景,现在全球能训前沿级别大模型的团队,大多绑死在英伟达的 GPU 生态上。CUDA 生态发展了十几年,工具链成熟,社区庞大。换一套硬件,意味着从编译器、算子、并行策略到故障恢复,基本得自己重新搭。报告里也提到,相比成熟的英伟达生态,配套软件社区还不够成熟。

美团选择了这条路,而且训得还挺稳,全程没有回滚,没有出现不可恢复的损失值飙升。在大模型训练里,损失值飙升是常见的事,动不动就得回滚检查点重来。全程不回滚,说明这套专用芯片上的训练基础设施已经跑通了。

第二层,架构是自己设计的。

报告里重点提了两个架构创新,一个是 LongCat稀疏注意力,简称 LSA,一个是 N元嵌入。这两个不是拿开源方案直接套,是在已有方法上做了自己的改进。

LSA 是在 DeepSeek稀疏注意力 基础上演进的,针对索引器的瓶颈做了三项改进,流感知索引、跨层索引、分层索引,目的是让长上下文处理更高效。N元嵌入 是把词元做N元组合扩展嵌入空间,大概扩展了100倍,塞了1350亿参数进去,比例控制在总参数的10%以内。

这两个架构的具体机制,报告写得很细,我不在这展开。只需要知道,这是美团自己的架构设计,不是直接用现成方案。

第三层,训练和推理工程是自己搭的。

这部分报告着墨最多,六维并行、超级集群架构、专用芯片优化器、超级内核、权重预取、预填充-解码分离部署,一堆工程细节。核心就是,在专用芯片这种软件生态没那么成熟的前提下,美团自己搭了一套能跑1.6万亿参数模型的训练和推理工程体系。

这三层叠在一起,就是"从头到尾自研"的意思。模型是自己设计的,架构是自己创新的,训练基础设施是自己搭的,硬件没走英伟达的路。

技术方法,简单梳理

具体的技术实现,我这里只做个梳理,不展开。

LSA 三项改进:

  • 流感知索引,把碎片化内存访问改成顺序读取,提升带宽利用率

  • 跨层索引,相邻层共用一个索引结果,省重复计算

  • 分层索引,先粗筛再精筛,缩小索引处理空间

N元嵌入:

  • 在稀疏维度上扩展参数,而不是继续堆专家

  • 稀疏度已经到97%左右,继续加专家收益很小

  • 1350亿参数,比例控制在10%以内

1M 上下文:

  • 用数千亿词元的百万级长上下文数据训练,就是一百万词元的窗口

  • 为了训这个长度,做了几个配套工程,LSA的确定性算子、前向优化的稠密预热策略、能扩展到上下文并行512以上的全聚合并行方案

  • 这些工程细节不展开,核心是一点,1M上下文这个能力不是架构搭好就自动有的,得专门用大量长上下文数据练出来

  • 专门为智能体应用准备,因为智能体任务需要读整个代码库、读一堆文档、做长链路推理,上下文短了根本干不了活

  • 这块和前面的 LSA 是呼应的,LSA 让长上下文处理更高效,1M上下文让模型能吃下足够长的输入,两个配合起来才撑得起智能体场景

后训练,三组专家:

  • 智能体专家,专攻自主任务执行。覆盖代码、工作、搜索这些垂直领域,不光优化端到端任务成功率,还优化工具调用、参数解析、自我纠错这些原子能力,让模型在复杂任务里别陷入死循环和重复调用

  • 推理专家,专攻逻辑推理。覆盖数学、理工科、多跳推理,还能根据问题难度自适应分配计算量,难题多算,简单题少算

  • 交互专家,专攻人机交互。覆盖指令遵循、抑制事实幻觉、安全边界,但有一个原则,不为了安全把模型变得没用

  • 三组各有分工,最后用多专家并行解耦架构融合到一起,让最终模型同时具备任务执行、深度推理和高质量交互三种能力

  • 你想想这个分法,智能体、推理、交互,刚好对应了大模型落地最难的三件事,能不能干活、能不能想清楚、能不能让人用着舒服

这些只是梳理。如果你做技术,想搞懂 LSA 三项改进到底怎么实现的,N元嵌入为什么能扩展嵌入空间,后训练三组专家怎么融合的,建议直接看原文。

能力怎么样,看跑分

LongCat-2.0 这次跑了六个基准测试,对标的是 GPT-5.5、Gemini 3.1 Pro、Opus 4.6、4.7、4.8 这几组当前最强的模型。我把这六个测试分别测什么先说清楚。

终端基准2.1,测的是模型在命令行环境下的任务执行能力,比如能不能自主操作终端、跑脚本、处理系统任务。这个直接反映模型当智能体的实操水平。

软件工程基准Pro,测的是真实软件工程问题解决能力,给一个真实的代码仓库,让模型修 bug、加功能,看能不能跑通。这是目前评估代码能力最硬的测试之一。

软件工程基准多语言版,同样是软件工程问题,但扩展到多种编程语言,测的是跨语言泛化能力。

FORTE,测的是推理能力,重点看模型在复杂逻辑链路上的表现。

RWSearch,测的是真实网页搜索能力,模型需要联网检索信息、筛选、整合,这个能力对智能体做调研类任务很关键。

BrowseComp,测的是浏览理解对比,看模型能不能在浏览大量网页后做对比和判断。

这六个测试覆盖了智能体实操、代码工程、跨语言、推理、搜索、浏览对比六个维度,基本把一个大模型当前最重要的能力都测了一遍。

对标名单里 GPT-5.5、Gemini 3.1 Pro、Opus 4.6 到 4.8,都是当前第一梯队的模型。能放一起比,说明 LongCat-2.0 的能力定位是冲着前沿去的。

另外说一点实际可用性。LongCat-2.0 深度集成了 Claude Code、OpenClaw、Hermes 这些主流工具链。代码理解、仓库级编辑、自动化任务执行、智能体工作流都能跑。注意是深度集成,不是简单适配。对开发者来说,跑分是一回事,能不能直接上手用是另一回事,这块 LongCat-2.0 是实际可用的,不只是刷分。


回到开头那句话,美团自己走通了一条不依赖英伟达的路。

我需要客观说一点,英伟达的生态目前确实还是最成熟的,短期之内这个格局不会变。但 LongCat-2.0 的价值在于,它证明了一条替代路线是可行的。1.6万亿参数,专用芯片集群训练,35万亿词元零回滚,1M 上下文,两个自己的架构创新,最后能和第一梯队模型对标。

这在当下的算力格局里有实际意义。H100 缺货、出口管制、价格飞涨,如果不止一条路能走到前沿,那对整个行业来说,选择就多了。

这是个开源模型,代码在 GitHub 上。想研究技术细节的,建议直接看原文和代码:https://github.com/meituan-longcat/LongCat-2.0


如果你对大模型这些方向感兴趣,也欢迎来群里一起学习交流。 扫码即可加入:

http://www.jsqmd.com/news/1099234/

相关文章:

  • AI大模型应用开发实战:从Prompt工程到RAG与低代码平台全栈指南
  • Windows窗口放大难题如何破解?Magpie三大核心技术让模糊变清晰
  • Pearcleaner:3个简单技巧彻底解决macOS系统清理难题,快速释放磁盘空间的免费终极方案
  • 摆脱造模失败、数据漂移!武汉云克隆犬椎间盘纤维环细胞,精准服务椎间盘退变研究
  • OpenSSL 3.5.2实战:C++集成SM2国密算法完整指南
  • 金融APP测试实战:基于MAI-UI-8B的智能UI自动化框架应用
  • 降级——“丢卒保车“的艺术
  • MySQL数据分析实战:零基础入门到电商案例全流程解析
  • 专业的芯片测试治具选哪家
  • 免费开源图片元数据批量编辑终极指南:ExifToolGUI完全教程
  • Codex++ 配置 Codex 模型教程
  • 告别手忙脚乱!SAP EWM RF手持终端从登录到拣货发货的保姆级实操指南
  • 渗透测试实战指南:从PTES标准到法律合规的全流程解析
  • 终极指南:开源实验室信息管理系统SENAITE LIMS的深度解析与实施策略
  • 如何3步搞定多GPU服务器监控:Zabbix智能监控方案终极指南
  • 保姆级教程:手把手教你用SurroundOcc跑通NuScenes数据集(从数据加载到可视化全流程)
  • 嵌入式Linux开发避坑:手把手教你为Rockchip平台适配Realtek RTL8211F PHY驱动
  • 传统男装风格单一无细节,编程拆分日系,工装,国风,极简男装细分市场容量,挖掘细分蓝海。
  • 明日方舟素材资源库:开启你的创作新纪元
  • UI自动化测试实战:从Selenium到Playwright,构建稳定高效的测试体系
  • kes的两地三中心的主备切换
  • 3种创新方法彻底解决Zotero Style插件兼容性挑战:从崩溃到优雅运行的完整指南
  • 为什么需要将 PDF 转换为 PDF/A?
  • EDA 工业软件|技术管理完整晋升线直达 CTO路径、薪资、和关键领域
  • 终极指南:3步掌握阴阳师自动化脚本的完整使用方案
  • 小月子多久可以洗头洗澡?结合休养禁忌科学把控洗护时间
  • 为什么你的OVF导入总超时?揭秘VMware 7.0+底层存储校验机制与3种绕过策略(仅限内部测试环境)
  • 快速上手:微信单向好友检测工具完整使用指南
  • 游戏名 - 资源分析笔记
  • 011、RCAN通道注意力:残差通道注意力机制与长距离依赖建模