当前位置：首页 > news >正文

国产新模王Qwen3.7-Max，海外开发者已经沸腾了

news 2026/7/14 22:39:14

Qwen3.7-Max，自主跑 35 小时，连续 1158 次工具调用，完成内核优化，不掉线。

正如 X 用户 @FakeMaidenMaker 所说：“Qwen3.7-Max 这一波真正的看点不是它在 benchmark 上又超了谁，是它把"长任务自主执行"这件事推到了产品级——35 小时不间断、1158 次工具调用、从没见过的硬件上做内核优化，这个 case 比任何一项分数都更接近"agent 真的能干活"的体验。”

有开发者将它与 Gemini 3.5-Flash 做了对比，对谷歌失望了。

还有开发者直接上手做实验，用 Qwen3.7-Max 击败了 Claude Opus 4.7 和 GPT-5.5。而且比 Claude 便宜 9 倍，比 GPT 便宜 2 倍。

还有开发者表示前沿闭源模型危险了（他不知道 Qwen3.7-Max 也没开源😏）。

阿里通义千问团队发布的 Qwen3.7-Max，可能是阿里真正面向 Agent 时代的旗舰模型。

它写代码、调内核、做报表、跑长线任务，而且跨框架通用，从编程到办公到自动驾驶全栈覆盖。

全科成绩单

Qwen3.7-Max 在六大类评测中跟 Opus-4.6 Max、K2.6 Thinking、GLM-5.1 Thinking、DS-V4-Pro Max 同台竞技，部分还跟上一代 Qwen3.6-Plus 做了对比。

几个亮点值得单独拎出来说。

编程 Agent 方面，Terminal Bench 2.0 上拿到 69.7，超过 DS-V4-Pro Max 的 67.9。SWE-Pro 得分 60.6，全场最高。SWE-Multilingual 拿到 78.3，SciCode 53.5，QwenSVG 1608，多项领先或持平。

通用 Agent 方面，MCP-Mark 得分 60.8，超过 GLM-5.1 的 57.5。MCP-Atlas 拿到 76.4，比 Opus-4.6 的 75.8 还高。Skillsbench 59.2，领先 K2.6 的 56.2。Kernel Bench L3 上实现了 1.98 倍中位加速，96% 的场景通过，仅次于 Opus-4.6。办公场景的 SpreadSheetBench-v1 拿到 87，一线水准。

推理能力上，GPQA Diamond 92.4 超过 Opus-4.6 的 91.3。HLE 41.4 领先。HMMT 2026 Feb 97.1、IMOAnswerBench 90.0、Apex 44.5，多项拿到全场最高。

通用能力和多语言也扎实。IFBench 79.1 领先，WMT24++ 拿到 85.8，MAXIFE 89.2，PolyMATH 86.5。长上下文检索 MRCR-v2 128k 得分 90.4，远超第二名 Qwen3.6-Plus 的 85.9。

而且，这些成绩来自不同的 Agent 框架，Claude Code、OpenClaw、Qwen Code 等都有覆盖。

Qwen3.7-Max 没有针对某个特定框架做专项优化，它对各种 Agent 脚手架保持了通用性。

在Artificial Analysis Intelligence Index上，排到了全球第五。

环境扩展驱动能力泛化

Qwen3.5 引入了环境扩展（environment scaling）的思路，Qwen3.7 在这条路上走得更远。

核心想法跟预训练的扩展律类似：语言模型从多样化的文本中泛化能力，Agent 模型从多样化的训练环境中泛化能力。

从上图可以清楚看到，随着训练环境的质量和多样性不断提升，Qwen3.7-Max 的平均排名稳步上升，逼近 Claude-4.6-Opus-Max。

这种扩展有可预测性。在任意子集上的性能提升，都能可靠地预测其余基准上的相对增益。说明环境扩展带来的是真正的能力泛化。

团队还做了一个有意思的设计：Rollout 环境基础设施把每个训练实例拆成三个正交组件，Task（任务）、Harness（脚手架）、Verifier（验证器），自由重组。

同一任务搭配不同的 Harness 和 Verifier，模型被迫学习通用的解题策略。在 QwenClawBench 和 CoWorkBench 上，Qwen3.7-Max 无论用什么 Harness 评估，表现都稳定一致。

换框架不用换模型，Qwen3.7-Max 在不同脚手架下都能稳定发挥。

35 小时自主狂奔

官方最有故事性的一段实验，是让 Qwen3.7-Max 去优化一个叫 Extend Attention 的内核。

这个内核来自 SGLang，负责计算新生成 token 与前缀 KV-cache 之间的注意力分数，是 LLM 推理中一个访存密集、延迟敏感的关键算子。

有意思的地方在于，测试跑在一台搭载 T-Head ZW-M890 PPU 的 ECS 实例上，这个硬件平台 Qwen3.7-Max 从未见过。没有历史性能数据，没有硬件文档，没有参考内核。起始条件只有一个空工作区，里面放着任务描述、SGLang 的原始 Triton 实现和一个评估脚本。

接下来发生的事，持续了约 35 小时。

模型执行了 1158 次工具调用，评估了 432 个内核版本。它自己写代码、编译、运行、分析性能瓶颈、改架构、修 bug，全程没人干预。30 小时之后它还在找到有意义的改进，持续进步，没有陷入原地踏步。

最终成绩：几何平均加速比 10.0 倍，对比原始 Triton 实现。

同一个任务，其他模型的表现：GLM 5.1 达到 7.3 倍，Kimi K2.6 达到 5.0 倍，DeepSeek V4 Pro 达到 3.3 倍，Qwen3.6-Plus 只有 1.1 倍。

在 NVIDIA GPU 上，Qwen3.7-Max 同样能生成高质量的内核。KernelBench L3 上，96% 的场景产出加速内核，Opus-4.6 是 98%，GLM 5.1 是 78%，K2.6 是 80%，DS-V4-Pro 是 54%。

这段实验展示了 Qwen3.7-Max 两个核心特质：长程推理的持续性，跨越上千次工具调用依然保持连贯的优化策略；以及强大的上下文泛化能力，面对从未见过的硬件架构，靠运行时反馈而非记忆中的硬件知识就产出了有竞争力的内核。

长程规划与自我进化

长程能力不止体现在内核优化。团队还做了两件事来验证 Qwen3.7-Max 在更长链条上的表现。

一件是奖励作弊监控。

团队把 Qwen3.7-Max 接入 SWE 任务的 RL 监控流程，让它自己监控自己。

在超过 80 小时的 RL 实验中，模型自主检索、回放训练轨迹，执行超过 10000 次调用，系统性地识别潜在的作弊模式，比如试图绕过约束去 GitHub 拿标准答案。同时它还做规则验证、反例挖掘和迭代优化。

结果，Qwen3.7-Max 完成了多轮规则自演化，新增 13 条启发式规则，精准标记了 1618 个作弊案例。这件事保证了 RL 奖励的稳定性，也让模型作为 SWE Agent 持续自我改进。

另一件是创业模拟 YC-Bench。

在这个模拟完整一年创业周期的基准里，Agent 要面对数百轮决策，涉及人员管理、合同筛选、识别恶意客户，还得在人力成本上涨的压力下维持利润率。

Qwen3.7-Max 拿到 208 万美元总营收，是 Qwen3.6-Plus（105 万美元）的两倍，Qwen3.5-Plus（35.2 万美元）的 5.9 倍，完成了 237 个任务。

更有意思的是过程。模型主动探索潜在客户，识别并拉黑恶意陷阱，优先稳定收入来源，在中期危机中自主恢复，最终收敛到一个稳定高效的执行循环。

跨越上千步的决策轨迹中，它始终保持了策略一致性，没有出现上下文腐化或指令漂移。

除了硬核基准，Qwen3.7-Max 在实际场景里也展现了丰富的能力。

办公场景，它通过 MCP（Model Context Protocol，模型上下文协议）集成，能自主完成论文格式修复这类繁琐工作。读取格式规范文件，自动修正页面布局、标题样式、字体、页边距、目录和参考文献格式，全程自主调用工具完成。

前端开发，一条提示词就能生成 Three.js 3D 场景、Canvas 动画、完整页面布局和动态 SVG。比如用手势控制 3D 粒子系统的网页，摄像头检测手掌张合控制粒子扩散和收缩，不同手势让粒子组成不同文字，实时响应。

游戏开发，一句话就能生成 3D 赛车游戏。

更远一点，Qwen3.7-Max 还能操控机器狗。通过 Qwen-RobotClaw 脚手架和导航基础模型 Qwen-RobotNav，加上视觉工具，它在物理环境中进行理解、规划、记忆和决策。

Qwen3.7-Max 已通过阿里云 Model Studio 上线，兼容 OpenAI 和 Anthropic 的 API 协议，可以直接接入 Claude Code、OpenClaw、Qwen Code 等主流编程助手和 Agent 框架。

它支持 preserve_thinking 特性，在多轮 Agent 任务中保留前序轮次的思考内容，这对长链推理任务有实际帮助。

Qwen3.7-Max 是不是可以代替 Claude 和 GPT 了？赶紧接入你的工作流试试。

参考资料：

https://qwen.ai/blog?id=qwen3.7

查看全文

http://www.jsqmd.com/news/884274/

SciDownl：三步告别学术文献下载烦恼，科研效率提升500%

太阳能供电PM2.5监测仪：从传感器选型到云端上传的完整物联网实践

Windows 11终极优化指南：一键清理系统，释放51%性能潜力

Vue2-Verify：让前端验证码实现变得如此简单的完整指南

树莓派+Edge Impulse实战：从零构建智能物体检测与计数系统

3天从零到精通：用microeco轻松搞定微生物组学数据分析的完整指南

微信小程序包体积优化与分包实战：从2M困境到优雅突破

Frida动态插桩实战：Java与Native层Hook原理与工程落地

DIY面包板专用5V电源：低成本改造Micro USB转接板

058组合总和

Taotoken 的用量看板与成本管理功能如何帮助团队控制 AI 支出

除甲醛怎么选？2026年行业口碑企业推荐指南 - 品牌排行榜

Obsidian PDF++解决方案：构建原生双向链接的知识管理生态系统

基于树莓派与ModBus协议实现高端新风系统接入HomeKit智能家居

基于ESP32的智能调酒机：物联网Web服务器与电磁阀控制实践

武商一卡通回收指南：轻松选择回收平台，快速变现 - 团团收购物卡回收

标准混合气体定制找哪类供应商：广东大特气体给两广实验室与检测客户的采购清单 - 华旭传媒

对比直接使用厂商API与通过Taotoken聚合调用的成本体感

RFold：通过作业折叠与拓扑重构协同优化AI集群资源调度

微信小程序AR与3D全景开发实战指南：揭秘Three.js在移动端的终极应用

通过curl命令快速测试Taotoken多模型API的连通性与返回格式

Skeptical Learning：人机协作式数据清洗框架的原理、实践与挑战

Ansys中国区授权伙伴 - 品牌2025

FM5057H 二合一锂电池保护 IC

RFID手持终端机有哪些功能？选购指南帮你理清需求 - 资讯纵览

2026年成都电缆桥架与抗震支架采购指南：模块化预制如何降低工程成本30%-50% - 优质企业观察收录

【Sora 2 HDR视频生成技术白皮书】：20年AIGC架构师首曝4K/60fps动态色调映射实战参数与避坑清单

AlwaysOnTop：5分钟掌握Windows窗口置顶神器，工作效率翻倍！

【Midjourney图像锐化终极指南】：20年AI视觉工程师亲测的7种精准锐化参数组合，避开92%的过冲伪影

图神经网络在粒子径迹重建中的应用：从原理到LHCb实验实践

全科成绩单

环境扩展驱动能力泛化

35 小时自主狂奔

长程规划与自我进化

相关文章：