当前位置：首页 > news >正文

20岁写出Transformer的人，真开源了2180亿大模型

news 2026/7/13 17:33:52

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用！发论文/搞科研/涨薪，强烈推荐！

转载自：新智元

【导读】刚刚，Cohere放出2180亿参数的MoE大模型Command A+，单张B200可跑，支持48种语言，还带原生引用能力。但这次发布最炸的，不在参数表上，而在那一个许可证：Apache 2.0。

「Attention Is All You Need」，正是这篇著名的论文，催生了今天所有的大模型。

5月20日，该论文的一位共同作者Aidan Gomez，在X上宣布推出首个完全开源的Apache 2.0许可的模型：Cohere Command A+。

Gomez是前谷歌研究员，如今是Cohere的联合创始人兼CEO。

Command A+是Command A家族的最后一个模型，也是Cohere的第一个MoE（混合专家）模型。218B总参数，25B激活参数：一次性把视觉输入、推理、翻译和AI智能体能力，全部塞进了同一个模型。

最低部署配置：1张NVIDIA B200，或者2张H100。许可证：Apache 2.0。

https://cohere.com/blog/command-a-plus

据VentureBeat报道，这是Cohere历史上第一个真正可商用的开源旗舰。联合创始人Nick Frosst称它是「我们发过最好的模型」。

2180亿参数

每次干活的只有250亿

2180亿参数，听起来就是个吞算力的巨兽。但Command A+每次生成，真正被激活的只有250亿参数。

这正是MoE架构的精髓。

一个MoE模型，会将进来的问题只路由给最擅长处理它的那几个「专家」神经网络，其余部分保持休眠。这样的设计，既让模型保留了「巨头级」的知识储备和推理能力，但运行时的算力和能耗，却接近一个小得多的模型。

VentureBeat报道，据第三方观察估计，OpenAI的GPT-5.5、Anthropic的Claude Opus 4.7参数量都在万亿级别，而Command A+每次激活的参数只有250亿。

靠MoE省算力，如今是大多数头部模型的惯常做法。但Cohere在这个基础上又叠了第二层压缩：量化。

Command A+提供BF16、FP8和高度压缩的W4A4三种版本，其中W4A4是这次发布的技术核心。

通常，推理模型一旦被压缩，复杂问题上的表现会肉眼可见地退步，业内称之为「量化税」。

Cohere的做法，是只将MoE专家压到4-bit，关键的注意力通路保留全精度，再叠加一项叫量化感知蒸馏（Quantization-Aware Distillation）的技术。

Cohere称其W4A4量化方案接近无损。据Cohere发布的性能数据显示，W4A4版本在低并发下达到每秒375个token，首token延迟仅113毫秒。

正是靠这套方案，让一个2180亿参数的模型，能跑在单张NVIDIA B200上，或者两张H100上。

不同并发与量化下，Command A+与前代Command A Reasoning的速度和延迟对比。TOPS为每秒生成token数，TTFT为首token延迟。数据由Cohere发布。

这里所谓「单卡运行」，指的是一张数据中心级的Blackwell B200，并非消费级显卡。

过去一个千亿级模型要一整个GPU集群伺候，现在一台机器搞定。

这正是Cohere这次想讲的故事：大参数，不再等于烧钱。

Apache 2.0

一张通往真开源的许可证

如果只看参数和速度，Command A+是一次强大的工程升级。但更值得开发者们注意的，是一张Apache 2.0许可证。

在今天的AI圈，「开源」是一个早被「玩坏」的词。

很多领先的AI公司放出权重，却套着限制性的商用条款：大企业不许拿去做商业用途，也不许用它训练竞品模型。下载可以，研究可以，真要赚钱，回来买授权。

Cohere过去在这个方向上也摇摆了很久。

据VentureBeat报道，它此前的Command R、Command R+，采用的是CC-BY-NC 4.0，也就是「知识共享-非商业」许可。研究者和开发者能下载、能折腾、能评测，但严禁商用。

也就是说：开放一半，留一半。但到了Command A+，另一半也松开了。

它采用了Apache 2.0，一个OSI认可的真正开源许可证。从独立开发者到世界500强企业，任何人都可以使用、修改、分发并商业化这个模型，不付授权费，也没有竞业条款。

这是Cohere首次这么做，它在一位写出Transformer的人的带领下，全面倒向了真正的开源。

据VentureBeat报道，这个决定由联合创始人Nick Frosst力主推动。

Frosst是Cohere三位联合创始人之一，曾在谷歌大脑多伦多实验室做研究员，是AI教父Geoffrey Hinton在那里最早的雇员之一。

Cohere将旗舰模型从CC-BY-NC 4.0转到Apache 2.0，意味着企业彻底不必再被供应商捆住。

一家公司可以下载Command A+的权重，用自己高度机密的内部数据做微调，部署在私有服务器甚至气隙网络里，从此不再被Cohere的基础设施、定价变动或API稳定性绑住。

Command A+

把「可追溯」做成模型的原生能力

能跑和敢用，完全是两回事。

一个模型要真正进入金融、医疗、法律的生产环境，真正的瓶颈不是模型能力，而是可信。

Command A+在这件事上，做了一个原生层面的设计：原生引用（native citation）生成。

当Command A+从外部工具检索信息时，它不只是把答案合成出来，还会生成所谓的「grounding spans（溯源标记）」。

通过在输出里嵌入特殊标签，模型把它给出的每一条事实声明，直接链接到它所引用的那份具体文档或那一行数据库记录。

举个场景。你让它出一份当日销售报告，它给出总销售额的同时，会明确标出提供这个数字的那一次数据库查询结果。出处一目了然，幻觉风险被压到最低。

这种可追溯性，对于受到严格监管的行业尤为重要。

智能体能力，也是这次发布的一个重点。

Command A+支持标准chat template下的对话式工具调用，可以无缝对接内部API、搜索引擎或SQL数据库。

它还是全多模态的，在128K输入上下文里原生处理文本和图像，适合分析扫描发票、图表和技术手册。

Command A+与Command A Vision的多模态能力对比，Command A+是Cohere首个多模态推理模型。数据由Cohere发布。

据Cohere发布的性能数据显示，在测试复杂推理的²-Bench Telecom上，Command A+从前代的37%跳到85%；在衡量智能体编码能力的Terminal-Bench Hard上，从3%爬到25%；在AIME 25数学测试上，从57%升到90%。

Command A+与前代Command A Reasoning在五项开源基准上的表现对比。数据由Cohere发布。

这些都是VentureBeat援引Cohere自己发布的数据，并非第三方独立评测。

VentureBeat认为，Command A+以250亿激活参数的体量，在纯推理和数学上可以媲美体量大出许多的模型；但在深度智能体编码和综合智能的广度上，它目前仍落后于DeepSeek等中国头部开源模型。

比跑分更重要的，是Command A+把「可追溯」做成了模型的原生能力。

Transformer作者联手辛顿门徒

让Cohere真开源了

最后，再说一说Command A+背后的两个人。

https://arxiv.org/pdf/1706.03762

2017年，Transformer论文《Attention Is All You Need》在谷歌诞生。八位作者中，最年轻的Aidan Gomez当时只有 20 岁，还是Google Brain实习生，还在多伦多大学读计算机和数学本科。

Aidan Gomez

据TIME报道，为了赶上一个重要AI会议的截稿，他和同事们甚至睡在办公室里。后来他对TIME坦言，那时没人能预料到，这篇论文会把整个AI行业带到今天。

Gomez擅长把底层架构变成能落地的东西。2017年他还发起了FOR.ai，一个让研究者共享机器学习知识的协作项目，后来演化成Cohere For AI。

2019年，他从谷歌大脑离开，和Ivan Zhang、Nick Frosst一起在多伦多创办了Cohere。三个人选了一条和OpenAI不一样的路：不做面向大众的聊天机器人，只为企业做模型。

Nick Frosst

Frosst是Cohere联合创始人，曾在AI教父Geoffrey Hinton的谷歌大脑多伦多实验室做研究员，是那里最早的雇员之一，业内常视他为Hinton的得意门生。研究方向是胶囊网络和模型可解释性。

一个写出Transformer，一个师承Hinton。Cohere从第一天起，就具备了「把前沿研究做成企业能用的产品」的基因。

到了Command A+，在Frosst的力主推动下，Gomez拍板，Cohere彻底松手把旗舰模型的许可证翻到Apache 2.0。

据Cohere官方表示，Command A+是Command A家族的最后一个模型，这往往也意味着下一个家族已经在路上了。

长期以来，数据隐私和成本控制，把企业死死卡在这样一个瓶颈上：想用前沿AI，就必须依赖中心化的大型算力集群。

这一次，Command A+把前沿级的推理、稳健的智能体工具调用、多模态能力，和一套专为硬件效率设计的架构绑在了一起，这一转变正在重写企业采纳AI的成本账。

首先，部署的门槛降了。过去一个千亿级模型要一整个GPU集群，现在最低1张B200或2张H100就够。

其次，推理的开销也降了。W4A4版本的输出速度较前代Command A Reasoning最高提升63%，延迟降低17%。算力时间就是金钱，速度上去，单位成本就下来。

第三，多语言的账也降了。新的分词器让非欧洲语言更省token：阿拉伯语少20%，日语少18%，韩语少16%。推理按token计费，token少了，跨国和多语言部署的账单就跟着薄了。

近期，Cohere还宣布与德国AI公司Aleph Alpha合并。两家公司方向一致：不押注聊天机器人，而是为政府和大企业做能装进自家机房的AI。

开源大模型的竞争，已经进入下半场。上半场比的是参数规模，下半场比的是另一件事：谁能让企业把模型，真正搬进自己的机房。

参考资料：

https://cohere.com/blog/command-a-plus

https://venturebeat.com/technology/cohere-cracks-lossless-quantization-and-native-citations-with-first-full-apache-2-0-licensed-open-model-command-a

编辑：元宇

本文系学术转载，如有侵权，请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载566页课件PPT！大家赶紧学起来！

CVPR 2026 所有论文和代码下载

在CVer公众号后台回复：CVPR2026，即可下载CVPR 2026 所有论文和代码！

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群 CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！ ▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号 整理不易，请点赞和在看

查看全文

http://www.jsqmd.com/news/877992/

如何用Backtrader构建坚不可摧的风险管理系统：5种实用止损策略全解析

革命性图形化Fastboot工具：Fastboot Enhance让Android设备管理变得智能高效

Topit：让Mac窗口置顶变得如此简单，工作学习效率翻倍

百余人未携定位卡致救援受阻，无感定位筑牢井下生命防线

揭秘Gemini ESG引擎底层逻辑：3大AI模型协同如何将人工撰写耗时压缩90%？

2026年腾讯云OpenClaw/Hermes Agent配置Token Plan集成全解

在 Node.js 后端服务中接入 Taotoken 实现多轮对话与流式响应

【紧急避坑】ChatGPT安卓端权限滥用警告：3类高危行为已致23万账号异常（附检测+修复脚本）

DeepSeek-R1、V2、V3如何选？：3分钟掌握版本差异与业务匹配公式

三分钟掌握roop-unleashed：零门槛AI换脸终极指南

泉盛UV-K5/K6固件深度改造：4大核心技术突破与完全实战指南

py每日spider案例之某you道翻译接口（基于deepseek v4 pro完美逆向）

League Akari：基于LCU API的终极自动化工具配置完整指南

BetterNCM安装器完整指南：3分钟让你的网易云音乐变身超级播放器

Sora 2视频音频不同步？深度解析OpenAI未公开的时间戳嵌入机制，3分钟强制同步方案（含Python自动校准工具）

还在为Windows窗口无法调整大小而烦恼？WindowResizer终极解决方案

3分钟解锁你的B站视频宝藏：让缓存内容重获新生的魔法工具

STL到STEP格式转换：如何打破3D数据孤岛，实现工程级互操作性

Cursor破解工具深度指南：5步实现永久免费使用的完整解决方案

【DeepSeek生产级负载均衡黄金配置】：从连接池超时、健康探针间隔到熔断阈值，12项参数调优清单（附Prometheus监控看板模板）

如何用League Akari实现英雄联盟游戏效率的全面自动化提升

淘金币自动化脚本：5分钟搞定淘宝日常任务的终极指南

独立开发者使用 Taotoken 统一管理多个 AI 项目成本

10分钟掌握AppImageLauncher：Linux应用集成终极解决方案

从GNOME到Xfce：我的CentOS 7服务器桌面环境“瘦身”记与VNC性能对比

【导读】刚刚，Cohere放出2180亿参数的MoE大模型Command A+，单张B200可跑，支持48种语言，还带原生引用能力。但这次发布最炸的，不在参数表上，而在那一个许可证：Apache 2.0。

相关文章：