当前位置：首页 > news >正文

知识问答能力测试：Mellum2-12B-A2.5B-Instruct在MMLU-Redux和GPQA的卓越表现

news 2026/6/5 17:46:10

知识问答能力测试：Mellum2-12B-A2.5B-Instruct在MMLU-Redux和GPQA的卓越表现

【免费下载链接】Mellum2-12B-A2.5B-Instruct项目地址: https://ai.gitcode.com/hf_mirrors/JetBrains/Mellum2-12B-A2.5B-Instruct

你是否在寻找一个能在复杂知识问答任务中表现出色的大语言模型？🤔 今天，我们将深入探讨JetBrains Mellum2-12B-A2.5B-Instruct模型在MMLU-Redux和GPQA等权威知识问答基准测试中的惊人表现。这款由JetBrains开发的12B参数模型，凭借其独特的混合专家架构和131K上下文长度，在知识问答领域展现了令人印象深刻的能力。

📊 Mellum2-12B-A2.5B-Instruct的核心优势

Mellum2-12B-A2.5B-Instruct是一款基于混合专家架构的指令调优模型，拥有64个专家和每令牌激活8个专家的设计。该模型采用了滑动窗口和全注意力层的组合，支持高达131,072个令牌的上下文长度。在知识问答能力测试中，它在多个基准测试中都取得了优异的成绩。

🎯 MMLU-Redux测试：78.1%的准确率

在MMLU-Redux知识问答基准测试中，Mellum2-12B-A2.5B-Instruct取得了78.1%的准确率，这一成绩在同类模型中表现突出。MMLU-Redux是一个涵盖57个学科领域的综合性知识问答数据集，测试模型在各个领域的专业知识掌握程度。

MMLU-Redux测试的关键特点：

涵盖STEM、人文、社会科学等多个学科
测试模型的多领域知识理解能力
评估模型的推理和判断能力

🔬 GPQA Diamond测试：40.9%的准确率

在更具挑战性的GPQA Diamond知识问答测试中，Mellum2-12B-A2.5B-Instruct同样表现出色，达到了40.9%的准确率。GPQA Diamond是一个专门针对研究生水平专业知识设计的测试集，难度极高，对模型的深度知识理解能力提出了严峻挑战。

GPQA Diamond测试的独特价值：

专注于研究生级别的专业知识
测试模型的深度专业理解
评估复杂概念的掌握程度

⚙️ 技术架构支撑卓越表现

Mellum2-12B-A2.5B-Instruct的卓越知识问答能力源于其先进的技术架构：

模型规格详情：

层数：28层
隐藏大小：2304
中间大小：7168
MoE中间大小：896
注意力头数：32个Q头和4个KV头
词汇表大小：98,304
精度：bfloat16

📈 与其他模型的对比表现

在知识问答能力测试方面，Mellum2-12B-A2.5B-Instruct与竞品模型相比表现如何？

模型	MMLU-Redux	GPQA Diamond
Mellum2-12B-A2.5B-Instruct	78.1%	40.9%
Qwen3.5 (4B)	87.5%	76.8%
Qwen3.5 (9B)	91.1%	79.8%
OLMo-3 (7B)	71.8%	40.9%
Ministral 3 (14B)	85.9%	58.6%

虽然在某些基准测试中略逊于更大的模型，但考虑到其参数规模，Mellum2-12B-A2.5B-Instruct在知识问答能力测试中的表现仍然相当出色。

🚀 快速开始使用Mellum2进行知识问答

想要体验Mellum2-12B-A2.5B-Instruct的强大知识问答能力？以下是一个简单的使用示例：

from openai import OpenAI client = OpenAI() messages = [ {"role": "user", "content": "请解释量子纠缠的基本原理及其在量子计算中的应用。"}, ] response = client.chat.completions.create( model="JetBrains/Mellum2-12B-A2.5B-Instruct", messages=messages, max_tokens=81920, temperature=0.6, top_p=0.95, ) print("知识问答结果：", response)