当前位置：首页 > news >正文

Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled在GSM8K和MMLU-Pro基准测试中的表现分析

news 2026/7/24 15:51:33

Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled在GSM8K和MMLU-Pro基准测试中的表现分析

【免费下载链接】Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled项目地址: https://ai.gitcode.com/hf_mirrors/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled

Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled是Qwen3.6-35B-A3B的推理蒸馏变体，旨在模仿Anthropic的前沿推理模型Claude Opus 4.7的思维链风格。该模型的目标是将Claude级别的推理行为移植到一个允许个人实际运行的宽松许可的混合专家模型中。

模型概述：为什么选择这款推理模型？

这款模型具有以下显著特点：

Claude风格推理，开放权重：Claude Opus 4.7是目前可用的最强推理模型之一，但只能通过专有API使用。此模型在约8k高质量推理轨迹上进行了微调，这些轨迹由Opus 4.7生成，教导基础模型在回答前"思考"——使用明确的</think>…</think>块——采用Claude的结构和节奏。
稀疏激活，密集知识：基础模型是一个35B参数的MoE（混合专家模型），具有256个专家，8个路由专家+1个共享专家，每个令牌仅激活约3B参数。您可以以小型密集模型的推理成本获得35B模型的容量。全质量bf16推理可在单个80GB A100或H100上运行。
支持长思考：64k令牌上下文。该模型通常在给出最终答案之前，会在难题上发出5–30k令牌的</think>推理——这是推理模型的全部意义所在，也是为什么这个模型专门使用同样明确推理的上游教师进行端到端训练的原因。

GSM8K和MMLU-Pro基准测试表现

评估方法

该模型通过lm-evaluation-harness（v0.4.9）进行评估，使用vLLM后端，上下文为64k，采用bf16精度。自定义评估路径在过滤管道之前从生成中剥离<RichMediaReference>…superscript:，使用每个任务的常规fewshot计数，并设置fewshot_as_multiturn=True，因此few-shot示例是适当的聊天轮次，而不是连接的提示文本。原始结果JSON是公开的：lordx64/qwen3-6-distill-evals。

核心基准测试结果

基准测试	设置	分数
GSM8K CoT	8-shot multiturn, limit 300	84.3%(flexible-extract) / 76.7% (strict-match)
MMLU-Pro	5-shot multiturn, limit 500	74.9%

GSM8K（Grade School Math 8K）是一个包含8000多个小学数学问题的数据集，专门用于测试模型的多步推理能力。该模型在GSM8K上的灵活提取分数达到84.3%，严格匹配分数为76.7%，展示了其强大的数学推理能力。

MMLU-Pro（Massive Multitask Language Understanding Professional）是一个更具挑战性的基准测试，包含多个学科的专业级问题。该模型在MMLU-Pro上获得了74.9%的分数，表明其在广泛知识领域的推理能力。

MMLU-Pro各学科细分表现

标准推理模型特征：STEM（科学、技术、工程、数学）领域表现强劲，法律/工程领域相对较弱。所有学科均以limit 500、5-shot multiturn进行评估。

学科	准确率	学科	准确率
生物学	86.0%	化学	78.8%
心理学	83.4%	健康	73.8%
数学	83.6%	商业	74.4%
经济学	83.0%	其他	72.6%
物理学	81.0%	哲学	71.3%
计算机科学	79.0%	历史	70.9%
工程学	54.8%
法学	55.6%

从细分数据可以看出，该模型在生物学（86.0%）、数学（83.6%）和经济学（83.0%）等学科表现尤为突出，而在工程学（54.8%）和法学（55.6%）方面还有提升空间。

如何使用该模型进行推理任务

Python代码示例

from transformers import AutoModelForCausalLM, AutoTokenizer import torch repo = "lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled" tok = AutoTokenizer.from_pretrained(repo) model = AutoModelForCausalLM.from_pretrained( repo, torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True, ) messages = [{"role": "user", "content": "How many positive integers less than 1000 have digits that sum to 20?"}] inputs = tok.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device) out = model.generate(inputs, max_new_tokens=32768, do_sample=False) print(tok.decode(out[0][inputs.shape[-1]:], skip_special_tokens=True))

使用vLLM服务

推荐后端：vLLM用于服务——MoE路由+KV缓存从连续批处理中显著受益。

vllm serve lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled \ --dtype bfloat16 --max-model-len 65536 --gpu-memory-utilization 0.9

GGUF格式（LM Studio / llama.cpp）

量化的GGUF权重可用于llama.cpp和LM Studio：

IQ4_XS(18.9 GB) — 最小，LM Studio的默认选择
Q5_K_M(~25 GB) — 平衡质量/大小
Q8_0(~35 GB) — 近乎无损

模型局限性

尽管Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled在推理任务中表现出色，但仍有一些局限性需要注意：

推理≠知识：蒸馏转移的是"如何推理"，而不是新知识。基础Qwen3.6-35B-A3B不知道的任何信息，这个模型仍然不知道。
仅注意力LoRA：专家FFN与基础模型保持一致——Claude和Qwen3.6在事实先验方面存在分歧的领域可能会看到不均衡的改进。
长生成：模型确实会在难题上使用数万个令牌。相应地规划您的max_new_tokens，并在推理时提供max_model_len ≥ 32k。
蒸馏来源：训练数据是通过API使用Anthropic的Claude Opus 4.7生成的。下游用户应确认其特定用例是否符合Anthropic的使用政策。

总结

Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled在GSM8K和MMLU-Pro等关键推理基准测试中表现出色，展示了其作为开源推理模型的强大能力。84.3%的GSM8K灵活提取分数和74.9%的MMLU-Pro分数证明了该模型成功移植了Claude Opus 4.7的推理风格。

对于需要强大推理能力的应用场景，如研究生级STEM问题、竞赛数学、代码推理和多步逻辑谜题，该模型提供了一个高性能且可访问的解决方案。通过稀疏激活的MoE架构，它在保持高推理能力的同时，降低了计算资源需求，使个人研究者和开发者也能使用这一先进模型。

随着后续版本可能加入专家LoRA等改进，我们有理由期待该模型在工程学和法学等当前较弱领域的表现也将得到提升，进一步扩展其在各知识领域的推理能力。

【免费下载链接】Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled项目地址: https://ai.gitcode.com/hf_mirrors/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/907507/