当前位置: 首页 > news >正文

国产新模王Qwen3.7-Max,海外开发者已经沸腾了

Qwen3.7-Max,自主跑 35 小时,连续 1158 次工具调用,完成内核优化,不掉线。

正如 X 用户 @FakeMaidenMaker 所说:“Qwen3.7-Max 这一波真正的看点不是它在 benchmark 上又超了谁,是它把"长任务自主执行"这件事推到了产品级——35 小时不间断、1158 次工具调用、从没见过的硬件上做内核优化,这个 case 比任何一项分数都更接近"agent 真的能干活"的体验。”

有开发者将它与 Gemini 3.5-Flash 做了对比,对谷歌失望了。

还有开发者直接上手做实验,用 Qwen3.7-Max 击败了 Claude Opus 4.7 和 GPT-5.5。而且比 Claude 便宜 9 倍,比 GPT 便宜 2 倍。

还有开发者表示前沿闭源模型危险了(他不知道 Qwen3.7-Max 也没开源😏)。

阿里通义千问团队发布的 Qwen3.7-Max,可能是阿里真正面向 Agent 时代的旗舰模型。

它写代码、调内核、做报表、跑长线任务,而且跨框架通用,从编程到办公到自动驾驶全栈覆盖。

全科成绩单

Qwen3.7-Max 在六大类评测中跟 Opus-4.6 Max、K2.6 Thinking、GLM-5.1 Thinking、DS-V4-Pro Max 同台竞技,部分还跟上一代 Qwen3.6-Plus 做了对比。

几个亮点值得单独拎出来说。

编程 Agent 方面,Terminal Bench 2.0 上拿到 69.7,超过 DS-V4-Pro Max 的 67.9。SWE-Pro 得分 60.6,全场最高。SWE-Multilingual 拿到 78.3,SciCode 53.5,QwenSVG 1608,多项领先或持平。

通用 Agent 方面,MCP-Mark 得分 60.8,超过 GLM-5.1 的 57.5。MCP-Atlas 拿到 76.4,比 Opus-4.6 的 75.8 还高。Skillsbench 59.2,领先 K2.6 的 56.2。Kernel Bench L3 上实现了 1.98 倍中位加速,96% 的场景通过,仅次于 Opus-4.6。办公场景的 SpreadSheetBench-v1 拿到 87,一线水准。

推理能力上,GPQA Diamond 92.4 超过 Opus-4.6 的 91.3。HLE 41.4 领先。HMMT 2026 Feb 97.1、IMOAnswerBench 90.0、Apex 44.5,多项拿到全场最高。

通用能力和多语言也扎实。IFBench 79.1 领先,WMT24++ 拿到 85.8,MAXIFE 89.2,PolyMATH 86.5。长上下文检索 MRCR-v2 128k 得分 90.4,远超第二名 Qwen3.6-Plus 的 85.9。

而且,这些成绩来自不同的 Agent 框架,Claude Code、OpenClaw、Qwen Code 等都有覆盖。

Qwen3.7-Max 没有针对某个特定框架做专项优化,它对各种 Agent 脚手架保持了通用性。

在Artificial Analysis Intelligence Index上,排到了全球第五。

环境扩展驱动能力泛化

Qwen3.5 引入了环境扩展(environment scaling)的思路,Qwen3.7 在这条路上走得更远。

核心想法跟预训练的扩展律类似:语言模型从多样化的文本中泛化能力,Agent 模型从多样化的训练环境中泛化能力。

从上图可以清楚看到,随着训练环境的质量和多样性不断提升,Qwen3.7-Max 的平均排名稳步上升,逼近 Claude-4.6-Opus-Max。

这种扩展有可预测性。在任意子集上的性能提升,都能可靠地预测其余基准上的相对增益。说明环境扩展带来的是真正的能力泛化。

团队还做了一个有意思的设计:Rollout 环境基础设施把每个训练实例拆成三个正交组件,Task(任务)、Harness(脚手架)、Verifier(验证器),自由重组。

同一任务搭配不同的 Harness 和 Verifier,模型被迫学习通用的解题策略。在 QwenClawBench 和 CoWorkBench 上,Qwen3.7-Max 无论用什么 Harness 评估,表现都稳定一致。

换框架不用换模型,Qwen3.7-Max 在不同脚手架下都能稳定发挥。

35 小时自主狂奔

官方最有故事性的一段实验,是让 Qwen3.7-Max 去优化一个叫 Extend Attention 的内核。

这个内核来自 SGLang,负责计算新生成 token 与前缀 KV-cache 之间的注意力分数,是 LLM 推理中一个访存密集、延迟敏感的关键算子。

有意思的地方在于,测试跑在一台搭载 T-Head ZW-M890 PPU 的 ECS 实例上,这个硬件平台 Qwen3.7-Max 从未见过。没有历史性能数据,没有硬件文档,没有参考内核。起始条件只有一个空工作区,里面放着任务描述、SGLang 的原始 Triton 实现和一个评估脚本。

接下来发生的事,持续了约 35 小时。

模型执行了 1158 次工具调用,评估了 432 个内核版本。它自己写代码、编译、运行、分析性能瓶颈、改架构、修 bug,全程没人干预。30 小时之后它还在找到有意义的改进,持续进步,没有陷入原地踏步。

最终成绩:几何平均加速比 10.0 倍,对比原始 Triton 实现。

同一个任务,其他模型的表现:GLM 5.1 达到 7.3 倍,Kimi K2.6 达到 5.0 倍,DeepSeek V4 Pro 达到 3.3 倍,Qwen3.6-Plus 只有 1.1 倍。

在 NVIDIA GPU 上,Qwen3.7-Max 同样能生成高质量的内核。KernelBench L3 上,96% 的场景产出加速内核,Opus-4.6 是 98%,GLM 5.1 是 78%,K2.6 是 80%,DS-V4-Pro 是 54%。

这段实验展示了 Qwen3.7-Max 两个核心特质:长程推理的持续性,跨越上千次工具调用依然保持连贯的优化策略;以及强大的上下文泛化能力,面对从未见过的硬件架构,靠运行时反馈而非记忆中的硬件知识就产出了有竞争力的内核。

长程规划与自我进化

长程能力不止体现在内核优化。团队还做了两件事来验证 Qwen3.7-Max 在更长链条上的表现。

一件是奖励作弊监控。

团队把 Qwen3.7-Max 接入 SWE 任务的 RL 监控流程,让它自己监控自己。

在超过 80 小时的 RL 实验中,模型自主检索、回放训练轨迹,执行超过 10000 次调用,系统性地识别潜在的作弊模式,比如试图绕过约束去 GitHub 拿标准答案。同时它还做规则验证、反例挖掘和迭代优化。

结果,Qwen3.7-Max 完成了多轮规则自演化,新增 13 条启发式规则,精准标记了 1618 个作弊案例。这件事保证了 RL 奖励的稳定性,也让模型作为 SWE Agent 持续自我改进。

另一件是创业模拟 YC-Bench。

在这个模拟完整一年创业周期的基准里,Agent 要面对数百轮决策,涉及人员管理、合同筛选、识别恶意客户,还得在人力成本上涨的压力下维持利润率。

Qwen3.7-Max 拿到 208 万美元总营收,是 Qwen3.6-Plus(105 万美元)的两倍,Qwen3.5-Plus(35.2 万美元)的 5.9 倍,完成了 237 个任务。

更有意思的是过程。模型主动探索潜在客户,识别并拉黑恶意陷阱,优先稳定收入来源,在中期危机中自主恢复,最终收敛到一个稳定高效的执行循环。

跨越上千步的决策轨迹中,它始终保持了策略一致性,没有出现上下文腐化或指令漂移。

除了硬核基准,Qwen3.7-Max 在实际场景里也展现了丰富的能力。

办公场景,它通过 MCP(Model Context Protocol,模型上下文协议)集成,能自主完成论文格式修复这类繁琐工作。读取格式规范文件,自动修正页面布局、标题样式、字体、页边距、目录和参考文献格式,全程自主调用工具完成。

前端开发,一条提示词就能生成 Three.js 3D 场景、Canvas 动画、完整页面布局和动态 SVG。比如用手势控制 3D 粒子系统的网页,摄像头检测手掌张合控制粒子扩散和收缩,不同手势让粒子组成不同文字,实时响应。

游戏开发,一句话就能生成 3D 赛车游戏。

更远一点,Qwen3.7-Max 还能操控机器狗。通过 Qwen-RobotClaw 脚手架和导航基础模型 Qwen-RobotNav,加上视觉工具,它在物理环境中进行理解、规划、记忆和决策。

Qwen3.7-Max 已通过阿里云 Model Studio 上线,兼容 OpenAI 和 Anthropic 的 API 协议,可以直接接入 Claude Code、OpenClaw、Qwen Code 等主流编程助手和 Agent 框架。

它支持 preserve_thinking 特性,在多轮 Agent 任务中保留前序轮次的思考内容,这对长链推理任务有实际帮助。

Qwen3.7-Max 是不是可以代替 Claude 和 GPT 了?赶紧接入你的工作流试试。

参考资料:

https://qwen.ai/blog?id=qwen3.7

http://www.jsqmd.com/news/884274/

相关文章:

  • SciDownl:三步告别学术文献下载烦恼,科研效率提升500%
  • 太阳能供电PM2.5监测仪:从传感器选型到云端上传的完整物联网实践
  • Windows 11终极优化指南:一键清理系统,释放51%性能潜力
  • Vue2-Verify:让前端验证码实现变得如此简单的完整指南
  • 树莓派+Edge Impulse实战:从零构建智能物体检测与计数系统
  • 3天从零到精通:用microeco轻松搞定微生物组学数据分析的完整指南
  • 微信小程序包体积优化与分包实战:从2M困境到优雅突破
  • Frida动态插桩实战:Java与Native层Hook原理与工程落地
  • DIY面包板专用5V电源:低成本改造Micro USB转接板
  • 058组合总和
  • Taotoken 的用量看板与成本管理功能如何帮助团队控制 AI 支出
  • 除甲醛怎么选?2026年行业口碑企业推荐指南 - 品牌排行榜
  • Obsidian PDF++解决方案:构建原生双向链接的知识管理生态系统
  • 基于树莓派与ModBus协议实现高端新风系统接入HomeKit智能家居
  • 基于ESP32的智能调酒机:物联网Web服务器与电磁阀控制实践
  • 武商一卡通回收指南:轻松选择回收平台,快速变现 - 团团收购物卡回收
  • 标准混合气体定制找哪类供应商:广东大特气体给两广实验室与检测客户的采购清单 - 华旭传媒
  • 对比直接使用厂商API与通过Taotoken聚合调用的成本体感
  • RFold:通过作业折叠与拓扑重构协同优化AI集群资源调度
  • 微信小程序AR与3D全景开发实战指南:揭秘Three.js在移动端的终极应用
  • 通过curl命令快速测试Taotoken多模型API的连通性与返回格式
  • Skeptical Learning:人机协作式数据清洗框架的原理、实践与挑战
  • Ansys中国区授权伙伴 - 品牌2025
  • FM5057H 二合一锂电池保护 IC
  • RFID手持终端机有哪些功能?选购指南帮你理清需求 - 资讯纵览
  • 2026年成都电缆桥架与抗震支架采购指南:模块化预制如何降低工程成本30%-50% - 优质企业观察收录
  • 【Sora 2 HDR视频生成技术白皮书】:20年AIGC架构师首曝4K/60fps动态色调映射实战参数与避坑清单
  • AlwaysOnTop:5分钟掌握Windows窗口置顶神器,工作效率翻倍!
  • 【Midjourney图像锐化终极指南】:20年AI视觉工程师亲测的7种精准锐化参数组合,避开92%的过冲伪影
  • 图神经网络在粒子径迹重建中的应用:从原理到LHCb实验实践