当前位置：首页 > news >正文

极限性能基准Qwen3-235B-A22B-Thinking-2507-FP8：全面评测报告

news 2026/7/24 7:42:06

极限性能基准Qwen3-235B-A22B-Thinking-2507-FP8：全面评测报告

【免费下载链接】Qwen3-235B-A22B-Thinking-2507-FP8项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8

Qwen3-235B-A22B-Thinking-2507-FP8是阿里云通义千问团队推出的最新一代开源大语言模型，专为复杂推理任务设计，在数学、科学、编程等需要深度思考的领域表现出色。这款模型采用了先进的MoE架构和FP8量化技术，为开发者和研究人员提供了强大的推理能力支持。

🚀 模型架构与技术亮点

Qwen3-235B-A22B-Thinking-2507-FP8采用创新的混合专家架构，总参数量达到2350亿，其中激活参数量为220亿。模型包含128个专家，每次推理激活8个专家，这种设计在保证性能的同时显著降低了计算成本。

核心配置参数：

模型类型：因果语言模型
隐藏层维度：4096
注意力头数：64（查询）/4（键值）
专家数量：128个（每次激活8个）
上下文长度：原生支持262,144个令牌
层数：94层

🎯 性能表现全面评测

推理能力评测结果

在数学竞赛AIME25测试中，Qwen3-235B-A22B-Thinking-2507-FP8取得了92.3分的优异成绩，超越了多个主流模型。在HMMT25数学竞赛中更是达到了83.9分，展现了强大的数学推理能力。

编程能力表现

在编程评估方面，模型在LiveCodeBench v6测试中获得了74.1分，CFEval编程竞赛中达到2134分，显示出卓越的代码生成和问题解决能力。

知识理解与对齐

MMLU-Pro知识测试中取得84.4分，在IFEval指令跟随测试中获得87.8分，说明模型既能理解复杂知识，又能准确遵循人类指令。

⚡ FP8量化技术优势

Qwen3-235B-A22B-Thinking-2507-FP8采用了细粒度的FP8量化技术，块大小为128。这种量化方法在保持模型性能的同时，显著减少了内存占用和推理延迟。

量化配置特点：

激活方案：动态量化
块大小：128
精度：FP8（8位浮点数）
不转换的模块：lm_head和特定层的前馈网络门控层

🔧 快速部署指南

一键安装步骤

使用最新版本的Hugging Face Transformers库即可快速部署：

from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507-FP8" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype="auto", device_map="auto" )

推理框架支持

SGLang：支持v0.4.6.post1及以上版本
vLLM：支持v0.8.5及以上版本
本地部署：Ollama、LMStudio、MLX-LM、llama.cpp等工具均已支持

最佳推理参数设置

温度：0.6
Top-P：0.95
Top-K：20
Min-P：0
最大输出长度：复杂任务建议81,920令牌，普通任务32,768令牌

📊 硬件要求与优化建议

内存优化配置

由于模型支持262K超长上下文，建议使用以下配置：

GPU内存：至少4张80GB显存显卡
系统内存：128GB以上
上下文长度：建议保持131,072以上以获得最佳推理效果

推理性能优化

使用张量并行技术（tensor-parallel-size=4）
启用推理模式（--enable-reasoning）
使用DeepSeek-R1解析器（--reasoning-parser deepseek_r1）

🛠️ 智能体应用开发

Qwen3-235B-A22B-Thinking-2507-FP8在工具调用和智能体开发方面表现出色。推荐使用Qwen-Agent框架来充分发挥模型的智能体能力。

工具调用示例

from qwen_agent.agents import Assistant # 定义可用工具 tools = ['code_interpreter', 'web_search', 'time_query'] # 创建智能体助手 bot = Assistant(llm=llm_cfg, function_list=tools)