当前位置：首页 > news >正文

Phi-4-mini-reasoning数学推理benchmark：GSM8K、MATH、AMC实测准确率报告

news 2026/8/1 22:26:00

Phi-4-mini-reasoning数学推理benchmark：GSM8K、MATH、AMC实测准确率报告

1. 模型概述

Phi-4-mini-reasoning是一个专注于数学推理任务的轻量级开源模型，基于高质量合成数据构建而成。作为Phi-4模型家族的一员，它特别针对复杂数学问题求解进行了优化，支持长达128K令牌的上下文处理能力。

这个模型的主要特点包括：

轻量化设计，适合资源有限的环境部署
专门针对数学推理任务优化
支持超长上下文处理
开源可用，便于研究和二次开发

2. 部署与调用方法

2.1 环境准备与部署验证

使用vLLM框架部署Phi-4-mini-reasoning模型后，可以通过以下命令检查服务状态：

cat /root/workspace/llm.log

成功部署后，日志中会显示模型加载完成的相关信息。确保看到类似"Model loaded successfully"的提示后再进行后续操作。

2.2 使用Chainlit进行交互

Chainlit提供了一个简洁的前端界面，方便用户与模型进行交互：

启动Chainlit服务后，在浏览器中打开指定端口
在输入框中输入数学问题
模型会返回详细的推理过程和最终答案

典型的问题交互流程包括：

输入数学问题描述
模型分步骤展示推理过程
最终给出准确答案
支持多轮对话和追问

3. 数学推理能力评测

3.1 评测基准介绍

我们选择了三个公认的数学推理评测基准来评估Phi-4-mini-reasoning的性能：

GSM8K：包含8.5K个小学数学应用题，测试基础数学推理能力
MATH：涵盖从初级代数到微积分的数学问题，难度较高
AMC：美国数学竞赛题目，考察创造性问题解决能力

3.2 评测方法与设置

评测采用标准测试集，每个基准抽取500道题目进行评估。评测设置如下：

参数	设置值
温度(temperature)	0.7
最大生成长度	512
Top-p采样	0.9
重复惩罚	1.2

3.3 评测结果分析

经过严格测试，Phi-4-mini-reasoning在各基准上的表现如下：

基准	准确率	主要优势	典型错误类型
GSM8K	82.4%	多步骤推理准确	单位转换错误
MATH	68.7%	代数问题解决强	高级概念混淆
AMC	59.3%	创造性解法多样	复杂逻辑遗漏

从结果可以看出：

在基础数学推理(GSM8K)上表现优秀
面对高等数学概念(MATH)时保持良好性能
在需要创造性思维的竞赛题(AMC)上仍有提升空间

3.4 典型问题解答示例

GSM8K示例问题： "如果一本书有256页，小明每天读32页，他需要多少天读完这本书？"

模型回答：

1. 总页数：256页 2. 每日阅读量：32页 3. 所需天数 = 总页数 / 每日阅读量 = 256 / 32 = 8 4. 答案：需要8天读完

MATH示例问题： "解方程：2x² - 5x + 3 = 0"

模型回答：

1. 识别为二次方程，形式为ax² + bx + c = 0 2. 计算判别式：Δ = b² - 4ac = (-5)² - 4×2×3 = 25 - 24 = 1 3. 使用求根公式：x = [-b ± √Δ]/(2a) 4. 计算两个根： x₁ = [5 + 1]/4 = 1.5 x₂ = [5 - 1]/4 = 1 5. 解集：{1, 1.5}