当前位置: 首页 > news >正文

Qwen3.6‑35B‑A3B:30B 激活参数的“全能编码智能体”来了!

Qwen3.6‑35B‑A3B 深度解析

一、前言:Qwen3.6‑35B‑A3B 是什么?

Qwen3.6‑35B‑A3B 是阿里巴巴通义千问团队在 Hugging Face 上开源的Qwen3.6 系列首款中型 MoE 视觉语言模型,模型权重与配置文件均以Hugging Face Transformers 格式提供,可与 Transformers、vLLM、SGLang、KTransformers 等主流推理框架无缝兼容,适合本地部署与云服务集成。

作为 Qwen3.5‑35B‑A3B 的升级版本,Qwen3.6‑35B‑A3B 在稳定性、智能体编程能力与实际工程适用性上做了重点优化,目标是在仅激活约 30B 参数的条件下,实现接近甚至超越更大稠密模型(如 Qwen3.5‑27B、Gemma4‑31B)在编码、多模态与 Agent 任务上的表现。

二、核心亮点:为何值得关注?

1. 智能体编程与编码能力大幅提升

Qwen3.6‑35B‑A3B 的一大亮点是Agentic Coding(智能体编码)能力的增强,尤其在多轮、多工具、长上下文的开发场景中表现突出:

  • SWE‑bench Verified、SWE‑bench Multi‑language、SWE‑bench Pro等仓库级代码修复任务中,得分显著高于 Qwen3.5‑35B‑A3B,部分指标接近或超过 Qwen3.5‑27B 和 Gemma4‑31B。
  • Terminal‑bench 2.0测试中,Qwen3.6‑35B‑A3B 的表现优于前代,说明其在多步终端操作、代码仓库搜索、自动化测试与部署等长周期任务上更稳定。

此外,该模型在前端工程、多文件协同、多语言项目(如 JS/TS + Python + SQL 的组合)中,具备更强的上下文理解与生成一致性,可作为“问题拆解 → 多轮修复 → 自动测试 → 部署”这类工作流的核心推理引擎。

2. 思维保留(preserve_thinking):历史推理链可复用

Qwen3.6‑35B‑A3B 默认在生成最终响应前会先输出“思考”内容(即 Thinking 模式),并保留最近一条消息的推理链;在此基础上,Qwen 引入了preserve_thinking选项,允许在多轮对话中保留并复用历史消息中的推理轨迹:

  • 通过 API 配置chat_template_kwargs={"preserve_thinking": True},模型可以在后续消息中复用之前的推理路径;
  • 这一特性特别适合:
    • 长周期的调试、代码重构、多轮迭代;
    • Code Agent 工作流(如 Qwen‑Agent、Qwen‑Code),可减少重复推理消耗,提升多步决策一致性。

三、模型架构与关键技术细节

Qwen3.6‑35B‑A3B 是一个带视觉编码器的因果语言模型,采用Gated Delta‑Network + MoE 混合结构,关键参数如下:

  • 总参数量约350 亿,推理时仅激活约30 亿(35B‑A3B 中的“3B 激活”);
  • 隐藏维度 2048,Token 词表248,320(已填充 Padded);
  • 共 40 层,每层结构为:
    • 10 组:3×(Gated DeltaNet → MoE)+1×(Gated Attention → MoE)

MoE 部分特点:

  • 专家总数 256,每次激活 8 个路由专家与 1 个共享专家,专家中间层维度 512;
  • 该结构保证在较低激活参数量下,依然维持 MoE 路由的稀疏性与高表达能力。

此外,Qwen3.6‑35B‑A3B 采用旋转位置编码(RoPE),支持262,144 原生上下文,并可通过 YaRN 等 RoPE‑scaling 技术扩展至 1,010,000 tokens,适合长周期代码、文档、视频等多模态任务。

四、性能概览:编码、多模态与通用能力

官方发布的 Benchmark 中,Qwen3.6‑35B‑A3B 在多个维度上表现优秀,下面选取几个关键指标加以说明。

在这里插入图片描述

1. 编码与智能体任务(部分示例)

基准 / 任务Qwen3.6‑35B‑A3B前代 Qwen3.5‑35B‑A3BQwen3.5‑27B / Gemma4‑31B
SWE‑bench Verified~73.4~70.075.0 / 52.0
SWE‑bench Multi‑language~67.2~60.369.3 / 51.7
Terminal‑bench 2.0~51.5~40.541.6 / 42.9
QwenClawBench(真实用户 Agent)~52.6~47.752.2 / 41.7
QwenWebBench(前端多模态生成)~1397~9781068 / 1197

从上表可以看出,Qwen3.6‑35B‑A3B 在SWE‑bench 系列、Terminal‑bench 2.0、QwenClawBench等代理任务中,不仅大幅领先前代中型 MoE,甚至与更大规模的稠密模型处于同一水平,是“30B 激活参数,接近 27B–31B 能力”的典型代表。

2. 知识与长程推理能力

  • MMLU‑Pro:约85.2
  • GPQA(钻石级):约86.0
  • AIME 2026:92.7

在知识与复杂推理、数学竞赛题上,Qwen3.6‑35B‑A3B 与 Qwen3.5‑27B 基本处于同一梯队,远超 Gemma4 系列,适用于需要较强学术与工程能力的场景。

3. 多模态与视觉理解

作为带视觉编码器的多模态模型,Qwen3.6‑35B‑A3B 在视觉理解与视频任务中也表现不俗:

  • MMMU / MMMU‑Pro:在多模态理解与视觉‑文本推理任务中,分数接近并略优于 Qwen3.5‑27B,显著高于 Gemma4‑31B 等纯文本模型;
  • RealWorldQA、MMBench‑EN 等真实世界 VQA 任务中,得分在 80–90 区间,适合 UI 截图、表格、图表理解等场景;
  • 视频理解(VideoMME、VideoMMMU、MLVU 等)中,模型可对一小时左右的长视频实现事件定位与问答,支持视频帧率自适应采样(如通过 vLLM/SGLang 配置fpsdo_sample_frames)。

五、快速部署与推理框架实战

Qwen3.6‑35B‑A3B 支持多种主流推理框架,官方推荐在生产环境使用SGLang、vLLM、KTransformers等高性能服务引擎。

1. 使用 SGLang 启动服务

推荐版本:sglang>=0.5.10

安装命令:

uv pipinstallsglang[all]

启动标准服务(8 GPU,262K 上下文,启用思考模式):

python-msglang.launch_server\--model-path Qwen/Qwen3.6-35B-A3B\--port8000\--tp-size8\--mem-fraction-static0.8\--context-length262144\--reasoning-parser qwen3
  • 工具调用(Agent 场景):增加--tool-call-parser qwen3_coder
  • 多 Token 预测(MTP):启用--speculative-algo NEXTN等流水线解码选项,可显著提升吞吐量。

2. 使用 vLLM 部署

推荐版本:vllm>=0.19.0

安装命令:

uv pipinstallvllm --torch-backend=auto

启动命令:

vllm serve Qwen/Qwen3.6-35B-A3B\--port8000\--tensor-parallel-size8\--max-model-len262144\--reasoning-parser qwen3
  • 工具调用:--enable-auto-tool-choice --tool-call-parser qwen3_coder
  • 仅文本模式(跳过视觉编码器,节省显存):--language-model-only

3. Transformers 与 KTransformers

  • 通过transformers serve可在单节点快速搭建本地测试与中等负载服务:
transformers serve Qwen/Qwen3.6-35B-A3B\--port8000\--continuous-batching
  • KTransformers 提供更灵活的 CPU‑GPU 混合推理方案,适合边缘设备与资源受限环境,其 Qwen3.5 部署文档可作为 Qwen3.6‑35B‑A3B 配置的参考。

六、采样参数与最佳实践建议

官方为不同场景提供了采样参数推荐,开发者可按需选择:

  • 思考模式(一般任务)
temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
  • 精确编码任务(如 Web 开发)
temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
  • 指令(非思考)模式,通用任务
temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
  • 推理任务(非思考)
temperature=1.0, top_p=1.0, top_k=40, min_p=0.0, presence_penalty=2.0, repetition_penalty=1.0

此外,建议一般查询输出长度为32,768 tokens,复杂数学/编程/长周期任务可设置为81,920 tokens,以保留充足空间供模型逐步推理与生成代码。

七、适用场景与开发者建议

  • 若你是本地或私有化部署开发者,希望在有限算力(如 2–4 张 20–24GB 显存卡)下获得接近 Qwen3.5‑27B 的能力,Qwen3.6‑35B‑A3B 是一个非常有性价比的选择
  • 若你正在构建 Code Agent、终端自动化、RAG 与代码知识库、多模态 UI 智能体等系统,可将 Qwen3.6‑35B‑A3B 作为“核心推理引擎”,配合工具调用与长上下文管理,搭建更复杂的智能工作流。

如果你有具体的部署平台(如 Docker、K8s、vLLM 集群)或与 Qwen‑Agent / Qwen‑Code 的集成需求,也可以基于此模型进一步定制服务架构。

http://www.jsqmd.com/news/658785/

相关文章:

  • 从8051到RISC-V:用蜂鸟E203开源核做IoT项目,这份Windows环境搭建指南请收好
  • 深入RK3588启动流程:从Maskrom到Linux,揭秘每个固件镜像的职责与交互
  • 别再手动Review AI代码了!这套基于CodeBERT+RuleGraph的实时风格校验流水线,仅剩最后47个Early Access名额
  • OpenClaw部署与调用本地部署的大模型
  • 混合储能蓄电池、超级电容三相并网+电池管理simulink仿真模型
  • 构建智能能源管理系统的7个关键技术突破:OpenEMS实战指南
  • 简单理解:M-Bus (Meter-Bus,仪表总线)
  • mysql如何配置监听IP_mysql bind-address多地址设置
  • PeerConnection深度解析一:CreateOffer
  • 对比分析DeerFlow和Hermes的记忆/技能进化系统
  • 别再手动炒股了!清华博士教你用 AI Agent 搭建量化交易系统(附源码)
  • 对话开发者:除了爆款,我们还能拿出什么样来对抗大环境的冷?
  • Fastjson的AutoType:从‘得力助手’到‘安全噩梦’,我们该如何用SafeMode优雅收场?
  • noi-2026年4月14号作业
  • 实操分享:为什么【灵智AI站群】能实现百万收录?亲自测试
  • 手把手拆解记分牌(Scoreboard)硬件:如何用Python模拟一个简单的ILP调度器?
  • 单片机串口通信入门:手把手教你配置TMOD、SCON和SBUF寄存器(附代码)
  • 从“完全或无”到IND-CCA2:公钥加密安全模型的演进与实战解析
  • 解决‘找不到.so文件’:GCC动态链接库编译成功后运行报错的三种终极解决方案
  • 苏州2026年,探秘苏州灌装机工厂的智造新篇章
  • 简单理解:NFC(近场通信)
  • ESP BLE 安全实战:从配对到加密的代码实现与场景解析
  • 从零到一:手把手教你用conda与pip实现开发环境的无缝迁移与国内源加速
  • 从BUUCTF一道RSA难题看e与φ不互素问题的AMM算法实战解析
  • Unity中Dropdown与TMP_Dropdown的OnValueChange事件优化:解决单选项点击无响应问题
  • 从零到一:基于Keil uVision5与LPC17XX的嵌入式工程构建实战
  • Kafka: 一条消息的完整“生命之旅”
  • 基于EOF分析的PDO指数计算与Python实践指南
  • 简单理解:MTK(联发科)、中兴微(中兴微电子)、ASR(翱捷科技)
  • [Simulink实战] 基于STM32的永磁同步电机无传感FOC控制:从模型到代码的完整开发流程