当前位置：首页 > news >正文

Qwen3.6‑35B‑A3B：30B 激活参数的“全能编码智能体”来了！

news 2026/6/6 10:29:19

Qwen3.6‑35B‑A3B 深度解析

一、前言：Qwen3.6‑35B‑A3B 是什么？

Qwen3.6‑35B‑A3B 是阿里巴巴通义千问团队在 Hugging Face 上开源的Qwen3.6 系列首款中型 MoE 视觉语言模型，模型权重与配置文件均以Hugging Face Transformers 格式提供，可与 Transformers、vLLM、SGLang、KTransformers 等主流推理框架无缝兼容，适合本地部署与云服务集成。

作为 Qwen3.5‑35B‑A3B 的升级版本，Qwen3.6‑35B‑A3B 在稳定性、智能体编程能力与实际工程适用性上做了重点优化，目标是在仅激活约 30B 参数的条件下，实现接近甚至超越更大稠密模型（如 Qwen3.5‑27B、Gemma4‑31B）在编码、多模态与 Agent 任务上的表现。

二、核心亮点：为何值得关注？

1. 智能体编程与编码能力大幅提升

Qwen3.6‑35B‑A3B 的一大亮点是Agentic Coding（智能体编码）能力的增强，尤其在多轮、多工具、长上下文的开发场景中表现突出：

在SWE‑bench Verified、SWE‑bench Multi‑language、SWE‑bench Pro等仓库级代码修复任务中，得分显著高于 Qwen3.5‑35B‑A3B，部分指标接近或超过 Qwen3.5‑27B 和 Gemma4‑31B。
在Terminal‑bench 2.0测试中，Qwen3.6‑35B‑A3B 的表现优于前代，说明其在多步终端操作、代码仓库搜索、自动化测试与部署等长周期任务上更稳定。

此外，该模型在前端工程、多文件协同、多语言项目（如 JS/TS + Python + SQL 的组合）中，具备更强的上下文理解与生成一致性，可作为“问题拆解 → 多轮修复 → 自动测试 → 部署”这类工作流的核心推理引擎。

2. 思维保留（preserve_thinking）：历史推理链可复用

Qwen3.6‑35B‑A3B 默认在生成最终响应前会先输出“思考”内容（即 Thinking 模式），并保留最近一条消息的推理链；在此基础上，Qwen 引入了preserve_thinking选项，允许在多轮对话中保留并复用历史消息中的推理轨迹：

通过 API 配置chat_template_kwargs={"preserve_thinking": True}，模型可以在后续消息中复用之前的推理路径；
这一特性特别适合：
- 长周期的调试、代码重构、多轮迭代；
- Code Agent 工作流（如 Qwen‑Agent、Qwen‑Code），可减少重复推理消耗，提升多步决策一致性。

三、模型架构与关键技术细节

Qwen3.6‑35B‑A3B 是一个带视觉编码器的因果语言模型，采用Gated Delta‑Network + MoE 混合结构，关键参数如下：

总参数量约350 亿，推理时仅激活约30 亿（35B‑A3B 中的“3B 激活”）；
隐藏维度 2048，Token 词表248,320（已填充 Padded）；
共 40 层，每层结构为：
- 10 组：3×(Gated DeltaNet → MoE)+1×(Gated Attention → MoE)；

MoE 部分特点：

专家总数 256，每次激活 8 个路由专家与 1 个共享专家，专家中间层维度 512；
该结构保证在较低激活参数量下，依然维持 MoE 路由的稀疏性与高表达能力。

此外，Qwen3.6‑35B‑A3B 采用旋转位置编码（RoPE），支持262,144 原生上下文，并可通过 YaRN 等 RoPE‑scaling 技术扩展至 1,010,000 tokens，适合长周期代码、文档、视频等多模态任务。

四、性能概览：编码、多模态与通用能力

官方发布的 Benchmark 中，Qwen3.6‑35B‑A3B 在多个维度上表现优秀，下面选取几个关键指标加以说明。

在这里插入图片描述

1. 编码与智能体任务（部分示例）

基准 / 任务	Qwen3.6‑35B‑A3B	前代 Qwen3.5‑35B‑A3B	Qwen3.5‑27B / Gemma4‑31B
SWE‑bench Verified	~73.4	~70.0	75.0 / 52.0
SWE‑bench Multi‑language	~67.2	~60.3	69.3 / 51.7
Terminal‑bench 2.0	~51.5	~40.5	41.6 / 42.9
QwenClawBench（真实用户 Agent）	~52.6	~47.7	52.2 / 41.7
QwenWebBench（前端多模态生成）	~1397	~978	1068 / 1197

从上表可以看出，Qwen3.6‑35B‑A3B 在SWE‑bench 系列、Terminal‑bench 2.0、QwenClawBench等代理任务中，不仅大幅领先前代中型 MoE，甚至与更大规模的稠密模型处于同一水平，是“30B 激活参数，接近 27B–31B 能力”的典型代表。

2. 知识与长程推理能力

MMLU‑Pro：约85.2
GPQA（钻石级）：约86.0
AIME 2026：92.7

在知识与复杂推理、数学竞赛题上，Qwen3.6‑35B‑A3B 与 Qwen3.5‑27B 基本处于同一梯队，远超 Gemma4 系列，适用于需要较强学术与工程能力的场景。

3. 多模态与视觉理解

作为带视觉编码器的多模态模型，Qwen3.6‑35B‑A3B 在视觉理解与视频任务中也表现不俗：

MMMU / MMMU‑Pro：在多模态理解与视觉‑文本推理任务中，分数接近并略优于 Qwen3.5‑27B，显著高于 Gemma4‑31B 等纯文本模型；
RealWorldQA、MMBench‑EN 等真实世界 VQA 任务中，得分在 80–90 区间，适合 UI 截图、表格、图表理解等场景；
视频理解（VideoMME、VideoMMMU、MLVU 等）中，模型可对一小时左右的长视频实现事件定位与问答，支持视频帧率自适应采样（如通过 vLLM/SGLang 配置fps与do_sample_frames）。

五、快速部署与推理框架实战

Qwen3.6‑35B‑A3B 支持多种主流推理框架，官方推荐在生产环境使用SGLang、vLLM、KTransformers等高性能服务引擎。

1. 使用 SGLang 启动服务

推荐版本：sglang>=0.5.10

安装命令：

uv pipinstallsglang[all]

启动标准服务（8 GPU，262K 上下文，启用思考模式）：

python-msglang.launch_server\--model-path Qwen/Qwen3.6-35B-A3B\--port8000\--tp-size8\--mem-fraction-static0.8\--context-length262144\--reasoning-parser qwen3

工具调用（Agent 场景）：增加--tool-call-parser qwen3_coder
多 Token 预测（MTP）：启用--speculative-algo NEXTN等流水线解码选项，可显著提升吞吐量。

2. 使用 vLLM 部署

推荐版本：vllm>=0.19.0

安装命令：

uv pipinstallvllm --torch-backend=auto

启动命令：

vllm serve Qwen/Qwen3.6-35B-A3B\--port8000\--tensor-parallel-size8\--max-model-len262144\--reasoning-parser qwen3

工具调用：--enable-auto-tool-choice --tool-call-parser qwen3_coder
仅文本模式（跳过视觉编码器，节省显存）：--language-model-only

3. Transformers 与 KTransformers

通过transformers serve可在单节点快速搭建本地测试与中等负载服务：

transformers serve Qwen/Qwen3.6-35B-A3B\--port8000\--continuous-batching

KTransformers 提供更灵活的 CPU‑GPU 混合推理方案，适合边缘设备与资源受限环境，其 Qwen3.5 部署文档可作为 Qwen3.6‑35B‑A3B 配置的参考。

六、采样参数与最佳实践建议

官方为不同场景提供了采样参数推荐，开发者可按需选择：

思考模式（一般任务）

temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

精确编码任务（如 Web 开发）

temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

指令（非思考）模式，通用任务

temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0

推理任务（非思考）

temperature=1.0, top_p=1.0, top_k=40, min_p=0.0, presence_penalty=2.0, repetition_penalty=1.0

此外，建议一般查询输出长度为32,768 tokens，复杂数学/编程/长周期任务可设置为81,920 tokens，以保留充足空间供模型逐步推理与生成代码。

七、适用场景与开发者建议

若你是本地或私有化部署开发者，希望在有限算力（如 2–4 张 20–24GB 显存卡）下获得接近 Qwen3.5‑27B 的能力，Qwen3.6‑35B‑A3B 是一个非常有性价比的选择。
若你正在构建 Code Agent、终端自动化、RAG 与代码知识库、多模态 UI 智能体等系统，可将 Qwen3.6‑35B‑A3B 作为“核心推理引擎”，配合工具调用与长上下文管理，搭建更复杂的智能工作流。

如果你有具体的部署平台（如 Docker、K8s、vLLM 集群）或与 Qwen‑Agent / Qwen‑Code 的集成需求，也可以基于此模型进一步定制服务架构。

查看全文

http://www.jsqmd.com/news/658785/