国产新模王Qwen3.7-Max,海外开发者已经沸腾了
Qwen3.7-Max,自主跑 35 小时,连续 1158 次工具调用,完成内核优化,不掉线。
正如 X 用户 @FakeMaidenMaker 所说:“Qwen3.7-Max 这一波真正的看点不是它在 benchmark 上又超了谁,是它把"长任务自主执行"这件事推到了产品级——35 小时不间断、1158 次工具调用、从没见过的硬件上做内核优化,这个 case 比任何一项分数都更接近"agent 真的能干活"的体验。”
有开发者将它与 Gemini 3.5-Flash 做了对比,对谷歌失望了。
还有开发者直接上手做实验,用 Qwen3.7-Max 击败了 Claude Opus 4.7 和 GPT-5.5。而且比 Claude 便宜 9 倍,比 GPT 便宜 2 倍。
还有开发者表示前沿闭源模型危险了(他不知道 Qwen3.7-Max 也没开源😏)。
阿里通义千问团队发布的 Qwen3.7-Max,可能是阿里真正面向 Agent 时代的旗舰模型。
它写代码、调内核、做报表、跑长线任务,而且跨框架通用,从编程到办公到自动驾驶全栈覆盖。
全科成绩单
Qwen3.7-Max 在六大类评测中跟 Opus-4.6 Max、K2.6 Thinking、GLM-5.1 Thinking、DS-V4-Pro Max 同台竞技,部分还跟上一代 Qwen3.6-Plus 做了对比。
几个亮点值得单独拎出来说。
编程 Agent 方面,Terminal Bench 2.0 上拿到 69.7,超过 DS-V4-Pro Max 的 67.9。SWE-Pro 得分 60.6,全场最高。SWE-Multilingual 拿到 78.3,SciCode 53.5,QwenSVG 1608,多项领先或持平。
通用 Agent 方面,MCP-Mark 得分 60.8,超过 GLM-5.1 的 57.5。MCP-Atlas 拿到 76.4,比 Opus-4.6 的 75.8 还高。Skillsbench 59.2,领先 K2.6 的 56.2。Kernel Bench L3 上实现了 1.98 倍中位加速,96% 的场景通过,仅次于 Opus-4.6。办公场景的 SpreadSheetBench-v1 拿到 87,一线水准。
推理能力上,GPQA Diamond 92.4 超过 Opus-4.6 的 91.3。HLE 41.4 领先。HMMT 2026 Feb 97.1、IMOAnswerBench 90.0、Apex 44.5,多项拿到全场最高。
通用能力和多语言也扎实。IFBench 79.1 领先,WMT24++ 拿到 85.8,MAXIFE 89.2,PolyMATH 86.5。长上下文检索 MRCR-v2 128k 得分 90.4,远超第二名 Qwen3.6-Plus 的 85.9。
而且,这些成绩来自不同的 Agent 框架,Claude Code、OpenClaw、Qwen Code 等都有覆盖。
Qwen3.7-Max 没有针对某个特定框架做专项优化,它对各种 Agent 脚手架保持了通用性。
在Artificial Analysis Intelligence Index上,排到了全球第五。
环境扩展驱动能力泛化
Qwen3.5 引入了环境扩展(environment scaling)的思路,Qwen3.7 在这条路上走得更远。
核心想法跟预训练的扩展律类似:语言模型从多样化的文本中泛化能力,Agent 模型从多样化的训练环境中泛化能力。
从上图可以清楚看到,随着训练环境的质量和多样性不断提升,Qwen3.7-Max 的平均排名稳步上升,逼近 Claude-4.6-Opus-Max。
这种扩展有可预测性。在任意子集上的性能提升,都能可靠地预测其余基准上的相对增益。说明环境扩展带来的是真正的能力泛化。
团队还做了一个有意思的设计:Rollout 环境基础设施把每个训练实例拆成三个正交组件,Task(任务)、Harness(脚手架)、Verifier(验证器),自由重组。
同一任务搭配不同的 Harness 和 Verifier,模型被迫学习通用的解题策略。在 QwenClawBench 和 CoWorkBench 上,Qwen3.7-Max 无论用什么 Harness 评估,表现都稳定一致。
换框架不用换模型,Qwen3.7-Max 在不同脚手架下都能稳定发挥。
35 小时自主狂奔
官方最有故事性的一段实验,是让 Qwen3.7-Max 去优化一个叫 Extend Attention 的内核。
这个内核来自 SGLang,负责计算新生成 token 与前缀 KV-cache 之间的注意力分数,是 LLM 推理中一个访存密集、延迟敏感的关键算子。
有意思的地方在于,测试跑在一台搭载 T-Head ZW-M890 PPU 的 ECS 实例上,这个硬件平台 Qwen3.7-Max 从未见过。没有历史性能数据,没有硬件文档,没有参考内核。起始条件只有一个空工作区,里面放着任务描述、SGLang 的原始 Triton 实现和一个评估脚本。
接下来发生的事,持续了约 35 小时。
模型执行了 1158 次工具调用,评估了 432 个内核版本。它自己写代码、编译、运行、分析性能瓶颈、改架构、修 bug,全程没人干预。30 小时之后它还在找到有意义的改进,持续进步,没有陷入原地踏步。
最终成绩:几何平均加速比 10.0 倍,对比原始 Triton 实现。
同一个任务,其他模型的表现:GLM 5.1 达到 7.3 倍,Kimi K2.6 达到 5.0 倍,DeepSeek V4 Pro 达到 3.3 倍,Qwen3.6-Plus 只有 1.1 倍。
在 NVIDIA GPU 上,Qwen3.7-Max 同样能生成高质量的内核。KernelBench L3 上,96% 的场景产出加速内核,Opus-4.6 是 98%,GLM 5.1 是 78%,K2.6 是 80%,DS-V4-Pro 是 54%。
这段实验展示了 Qwen3.7-Max 两个核心特质:长程推理的持续性,跨越上千次工具调用依然保持连贯的优化策略;以及强大的上下文泛化能力,面对从未见过的硬件架构,靠运行时反馈而非记忆中的硬件知识就产出了有竞争力的内核。
长程规划与自我进化
长程能力不止体现在内核优化。团队还做了两件事来验证 Qwen3.7-Max 在更长链条上的表现。
一件是奖励作弊监控。
团队把 Qwen3.7-Max 接入 SWE 任务的 RL 监控流程,让它自己监控自己。
在超过 80 小时的 RL 实验中,模型自主检索、回放训练轨迹,执行超过 10000 次调用,系统性地识别潜在的作弊模式,比如试图绕过约束去 GitHub 拿标准答案。同时它还做规则验证、反例挖掘和迭代优化。
结果,Qwen3.7-Max 完成了多轮规则自演化,新增 13 条启发式规则,精准标记了 1618 个作弊案例。这件事保证了 RL 奖励的稳定性,也让模型作为 SWE Agent 持续自我改进。
另一件是创业模拟 YC-Bench。
在这个模拟完整一年创业周期的基准里,Agent 要面对数百轮决策,涉及人员管理、合同筛选、识别恶意客户,还得在人力成本上涨的压力下维持利润率。
Qwen3.7-Max 拿到 208 万美元总营收,是 Qwen3.6-Plus(105 万美元)的两倍,Qwen3.5-Plus(35.2 万美元)的 5.9 倍,完成了 237 个任务。
更有意思的是过程。模型主动探索潜在客户,识别并拉黑恶意陷阱,优先稳定收入来源,在中期危机中自主恢复,最终收敛到一个稳定高效的执行循环。
跨越上千步的决策轨迹中,它始终保持了策略一致性,没有出现上下文腐化或指令漂移。
除了硬核基准,Qwen3.7-Max 在实际场景里也展现了丰富的能力。
办公场景,它通过 MCP(Model Context Protocol,模型上下文协议)集成,能自主完成论文格式修复这类繁琐工作。读取格式规范文件,自动修正页面布局、标题样式、字体、页边距、目录和参考文献格式,全程自主调用工具完成。
前端开发,一条提示词就能生成 Three.js 3D 场景、Canvas 动画、完整页面布局和动态 SVG。比如用手势控制 3D 粒子系统的网页,摄像头检测手掌张合控制粒子扩散和收缩,不同手势让粒子组成不同文字,实时响应。
游戏开发,一句话就能生成 3D 赛车游戏。
更远一点,Qwen3.7-Max 还能操控机器狗。通过 Qwen-RobotClaw 脚手架和导航基础模型 Qwen-RobotNav,加上视觉工具,它在物理环境中进行理解、规划、记忆和决策。
Qwen3.7-Max 已通过阿里云 Model Studio 上线,兼容 OpenAI 和 Anthropic 的 API 协议,可以直接接入 Claude Code、OpenClaw、Qwen Code 等主流编程助手和 Agent 框架。
它支持 preserve_thinking 特性,在多轮 Agent 任务中保留前序轮次的思考内容,这对长链推理任务有实际帮助。
Qwen3.7-Max 是不是可以代替 Claude 和 GPT 了?赶紧接入你的工作流试试。
参考资料:
https://qwen.ai/blog?id=qwen3.7
