当前位置: 首页 > news >正文

Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled在GSM8K和MMLU-Pro基准测试中的表现分析

Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled在GSM8K和MMLU-Pro基准测试中的表现分析

【免费下载链接】Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled项目地址: https://ai.gitcode.com/hf_mirrors/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled

Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled是Qwen3.6-35B-A3B的推理蒸馏变体,旨在模仿Anthropic的前沿推理模型Claude Opus 4.7的思维链风格。该模型的目标是将Claude级别的推理行为移植到一个允许个人实际运行的宽松许可的混合专家模型中。

模型概述:为什么选择这款推理模型?

这款模型具有以下显著特点:

  • Claude风格推理,开放权重:Claude Opus 4.7是目前可用的最强推理模型之一,但只能通过专有API使用。此模型在约8k高质量推理轨迹上进行了微调,这些轨迹由Opus 4.7生成,教导基础模型在回答前"思考"——使用明确的</think>…</think>块——采用Claude的结构和节奏。

  • 稀疏激活,密集知识:基础模型是一个35B参数的MoE(混合专家模型),具有256个专家,8个路由专家+1个共享专家,每个令牌仅激活约3B参数。您可以以小型密集模型的推理成本获得35B模型的容量。全质量bf16推理可在单个80GB A100或H100上运行。

  • 支持长思考:64k令牌上下文。该模型通常在给出最终答案之前,会在难题上发出5–30k令牌的</think>推理——这是推理模型的全部意义所在,也是为什么这个模型专门使用同样明确推理的上游教师进行端到端训练的原因。

GSM8K和MMLU-Pro基准测试表现

评估方法

该模型通过lm-evaluation-harness(v0.4.9)进行评估,使用vLLM后端,上下文为64k,采用bf16精度。自定义评估路径在过滤管道之前从生成中剥离<RichMediaReference>…superscript:,使用每个任务的常规fewshot计数,并设置fewshot_as_multiturn=True,因此few-shot示例是适当的聊天轮次,而不是连接的提示文本。原始结果JSON是公开的:lordx64/qwen3-6-distill-evals。

核心基准测试结果

基准测试设置分数
GSM8K CoT8-shot multiturn, limit 30084.3%(flexible-extract) / 76.7% (strict-match)
MMLU-Pro5-shot multiturn, limit 50074.9%

GSM8K(Grade School Math 8K)是一个包含8000多个小学数学问题的数据集,专门用于测试模型的多步推理能力。该模型在GSM8K上的灵活提取分数达到84.3%,严格匹配分数为76.7%,展示了其强大的数学推理能力。

MMLU-Pro(Massive Multitask Language Understanding Professional)是一个更具挑战性的基准测试,包含多个学科的专业级问题。该模型在MMLU-Pro上获得了74.9%的分数,表明其在广泛知识领域的推理能力。

MMLU-Pro各学科细分表现

标准推理模型特征:STEM(科学、技术、工程、数学)领域表现强劲,法律/工程领域相对较弱。所有学科均以limit 500、5-shot multiturn进行评估。

学科准确率学科准确率
生物学86.0%化学78.8%
心理学83.4%健康73.8%
数学83.6%商业74.4%
经济学83.0%其他72.6%
物理学81.0%哲学71.3%
计算机科学79.0%历史70.9%
工程学54.8%
法学55.6%

从细分数据可以看出,该模型在生物学(86.0%)、数学(83.6%)和经济学(83.0%)等学科表现尤为突出,而在工程学(54.8%)和法学(55.6%)方面还有提升空间。

如何使用该模型进行推理任务

Python代码示例

from transformers import AutoModelForCausalLM, AutoTokenizer import torch repo = "lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled" tok = AutoTokenizer.from_pretrained(repo) model = AutoModelForCausalLM.from_pretrained( repo, torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True, ) messages = [{"role": "user", "content": "How many positive integers less than 1000 have digits that sum to 20?"}] inputs = tok.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device) out = model.generate(inputs, max_new_tokens=32768, do_sample=False) print(tok.decode(out[0][inputs.shape[-1]:], skip_special_tokens=True))

使用vLLM服务

推荐后端:vLLM用于服务——MoE路由+KV缓存从连续批处理中显著受益。

vllm serve lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled \ --dtype bfloat16 --max-model-len 65536 --gpu-memory-utilization 0.9

GGUF格式(LM Studio / llama.cpp)

量化的GGUF权重可用于llama.cpp和LM Studio:

  • IQ4_XS(18.9 GB) — 最小,LM Studio的默认选择
  • Q5_K_M(~25 GB) — 平衡质量/大小
  • Q8_0(~35 GB) — 近乎无损

模型局限性

尽管Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled在推理任务中表现出色,但仍有一些局限性需要注意:

  • 推理≠知识:蒸馏转移的是"如何推理",而不是新知识。基础Qwen3.6-35B-A3B不知道的任何信息,这个模型仍然不知道。

  • 仅注意力LoRA:专家FFN与基础模型保持一致——Claude和Qwen3.6在事实先验方面存在分歧的领域可能会看到不均衡的改进。

  • 长生成:模型确实会在难题上使用数万个令牌。相应地规划您的max_new_tokens,并在推理时提供max_model_len ≥ 32k

  • 蒸馏来源:训练数据是通过API使用Anthropic的Claude Opus 4.7生成的。下游用户应确认其特定用例是否符合Anthropic的使用政策。

总结

Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled在GSM8K和MMLU-Pro等关键推理基准测试中表现出色,展示了其作为开源推理模型的强大能力。84.3%的GSM8K灵活提取分数和74.9%的MMLU-Pro分数证明了该模型成功移植了Claude Opus 4.7的推理风格。

对于需要强大推理能力的应用场景,如研究生级STEM问题、竞赛数学、代码推理和多步逻辑谜题,该模型提供了一个高性能且可访问的解决方案。通过稀疏激活的MoE架构,它在保持高推理能力的同时,降低了计算资源需求,使个人研究者和开发者也能使用这一先进模型。

随着后续版本可能加入专家LoRA等改进,我们有理由期待该模型在工程学和法学等当前较弱领域的表现也将得到提升,进一步扩展其在各知识领域的推理能力。

【免费下载链接】Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled项目地址: https://ai.gitcode.com/hf_mirrors/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/907507/

相关文章:

  • 如何永久保存微信聊天记录并生成年度报告:WeChatMsg完整指南
  • JADE算法:基于DTW的鲁棒瞬时频率估计技术解析
  • 2026年加强型地坪铠装缝/金属铠装缝/铠装缝长期合作厂家推荐 - 行业平台推荐
  • 告别Putty!Tabby终端保姆级安装与SSH/SFTP配置全攻略(附快捷键秘籍)
  • Python网页抓取入门:从零构建IMDb电影数据采集器
  • 从DBC文件到AUTOSAR COM信号:手把手教你用ISOLAR-A的ConfGen工具自动生成配置
  • 如何通过开源智能自动化工具Seraphine优化英雄联盟游戏决策体验
  • MindIE/FramePack模型权重管理:HuggingFace模型下载与配置完整指南
  • 构建智能物联网系统:掌握Arduino-ESP32核心开发实战指南
  • 开源项目 vue-office 的扩展与二次开发潜力
  • Smoothieware固件中X-PAXES和mm_per_arc_segment配置项详解:从代码搜索到功能验证
  • 2026年热门的江西动力锂离子电池负极材料/江西锂离子电池负极材料/江西储能锂离子电池负极材料/快充锂离子电池负极材料推荐厂家精选 - 品牌宣传支持者
  • Scenema Audio 零样本语音克隆教程:10 秒参考音频实现完美声线转移
  • 从PLL到Divider:手把手教你用Synopsys DC/PT搞定一个带异步时钟MUX的完整时钟约束流程
  • 别再只会用PEC了!CST材料库实战指南:从Normal介质到Lossy Metal的完整配置流程
  • 2026年性价比高的铠甲缝变形缝/铠甲缝横向对比厂家推荐 - 品牌宣传支持者
  • 从DBC文件到AUTOSAR COM信号映射:手把手教你用ISOLAR-A自动生成通信栈配置
  • 别再搞混了!Xilinx FPGA的HP BANK和HR BANK到底怎么选?从视频接口到DDR布线实战避坑
  • 从LEF到NDM:给后端新手的Innovus和ICC2数据准备入门指南(7nm实战)
  • OLMo-1.7-7B-hf-openmind模型安全与伦理考量:负责任AI开发终极指南
  • Qt多线程实战:用moveToThread给界面‘减负’,实现一个后台日志分析工具(Qt5/C++)
  • 5个实用技巧:优化Qwen3.5-35B-A3B-REAP的推理速度与内存使用
  • NuminaMath-7B-CoT-openmind推理引擎核心技术详解:数学解题AI的完整指南
  • 三菱PLC软元件 定时器 计数器 状态继电器 编码器
  • ETL与AI:数据工程与智能应用协同实战指南
  • FPGA工程师必看:手把手教你用两级同步器搞定跨时钟域亚稳态
  • 告别卡顿!Qt Quick 6.5实战:用QML Behavior和State实现丝滑的按钮交互动效
  • 革命性零样本分类模型deberta-v3-base-zeroshot-v1.1-all-33:33个数据集训练的终极文本分类解决方案
  • 航天仿真进阶:除了改注册表,STK-MATLAB互联还有哪些高效玩法与避坑指南?
  • MindSpeed-LLM数据预处理教程:高效准备Qwen3-0.6B训练数据集的完整指南