当前位置：首页 > news >正文

HMMT25高难度测试表现亮眼：VibeThinker得分超预期

news 2026/3/27 3:27:57

HMMT25高难度测试表现亮眼：VibeThinker得分超预期

在当前大模型军备竞赛愈演愈烈的背景下，一个仅15亿参数的小型语言模型却悄然在数学与编程推理领域掀起波澜。VibeThinker-1.5B-APP 并非来自科技巨头或顶级实验室，而是由微博团队推出的一款实验性开源模型。它没有试图成为“全能助手”，也没有堆叠千亿参数，却在HMMT25、AIME等极具挑战性的推理基准上交出了令人瞠目结舌的成绩单——以不足八千美元的训练成本，击败了参数量超过其数百倍的对手。

这不禁让人重新思考：我们是否过度迷信“规模即智能”？当资源有限时，能否通过更聪明的设计让小模型实现“越级挑战”？

小模型也能有大智慧：从VibeThinker说起

VibeThinker-1.5B 是一个密集型架构的语言模型（Dense LLM），专注于解决高强度逻辑任务，尤其是数学竞赛题和算法编程问题。它的设计哲学很明确：不追求泛化能力，而是将全部算力押注在结构化推理这一垂直赛道上。

这种“专精特新”的思路，使其在多项权威评测中展现出惊人的单位参数效率。例如，在HMMT25测试中，它取得了50.4分，大幅领先于DeepSeek R1（41.7分），而后者参数量是它的400多倍。同样，在AIME25上，VibeThinker达到74.4分，超出基准模型4.4个百分点。这些数字背后，是一套高度优化的训练策略与任务对齐机制的胜利。

更值得称道的是其极低的训练成本——总计约7,800美元。相比之下，许多中大型模型动辄需要百万美元级别的投入。这意味着，哪怕是在学术机构或个人开发者手中，这样的模型也具备复现和迭代的可能性。

它是怎么做到的？核心技术拆解

两阶段训练：先广博后精深

VibeThinker采用典型的两阶段训练流程，但每一阶段都经过精心设计：

第一阶段为自监督预训练，使用大量高质量的英文代码库、数学教材、竞赛题解作为语料。这一阶段的目标不是记住答案，而是建立对形式化语言的基本理解——比如变量命名习惯、常见算法模板、标准证明结构等。

第二阶段则是关键所在：指令微调（Instruction Tuning）。这里使用的数据不再是通用文本，而是来自AMC、AIME、HMMT、Codeforces等真实竞赛场景的题目及其详细解答。更重要的是，这些样本都经过人工清洗与重构，确保每一道题都配有完整的思维链（Chain-of-Thought）推导过程。

这样一来，模型学到的不仅是“答案是什么”，更是“为什么这样想”。这种训练方式显著提升了它在多跳推理任务中的表现稳定性。

推理链增强：强制“写出草稿”

传统小模型常犯的错误是“跳步”——直接输出结果而不展示中间逻辑。这在简单任务中可能蒙混过关，但在复杂推理中极易出错。

VibeThinker通过引入强化学习信号和监督式CoT样本，强制模型在生成答案前必须先展开推导路径。例如面对一道组合计数题，它会显式地写出递推关系式、边界条件，并进行数值验证。这种“写草稿”式的输出模式，不仅提高了准确性，也为后续人工审核提供了可解释性支持。

实验表明，启用思维链机制后，其在HMMT类问题上的准确率提升超过15%。

英文优先：语言选择影响推理质量

有趣的是，尽管中文用户占比极高，VibeThinker在英文输入下的表现始终优于中文。这一点在多个测试集中得到验证。

原因或许并不复杂：其训练数据中，高质量的数学与编程内容绝大多数为英文撰写，包括Project Euler、LeetCode官方题解、MIT OpenCourseWare讲义等。因此，英文提示词能更有效地激活模型内部已习得的知识路径，减少歧义干扰，提升推理连贯性。

建议使用者尽量将问题翻译成英文提交，哪怕只是简单的关键词罗列，也能带来明显的效果增益。

在数学与编程世界里，它是如何思考的？

数学题求解全流程

当输入一道数学题时，VibeThinker并不会急于作答，而是模拟人类解题者的认知流程：

问题解析：识别题目类型（代数/几何/数论）、提取已知条件与目标；
模式匹配：从记忆中检索相似结构的问题及解法框架；
逐步推导：构建逻辑链条，应用公式、构造辅助线、设定归纳假设；
自我检查：回溯关键步骤是否存在漏洞，尝试代入特例验证。

举个例子，处理一道AIME级别的概率递推题时，它可能会这样输出：

设 $ a_n $ 表示第 n 步到达终点的概率。
根据状态转移关系，有：
$$
a_n = \frac{1}{2}a_{n-1} + \frac{1}{4}a_{n-2}
$$
初始条件：$ a_1 = 0, a_2 = \frac{1}{2} $。
解此线性递推方程……最终得 $ a_6 = \frac{21}{64} $。

这种结构化的输出方式，使得即使是复杂的抽象推理，也能被清晰追踪。

编程任务生成机制

对于算法类问题，VibeThinker的表现同样稳健。它不会盲目套用模板，而是遵循一套系统化的生成流程：

需求分析：明确输入输出格式、时间空间限制；
算法决策：判断适用策略（如DFS剪枝、动态规划状态设计）；
伪代码构建：先搭建主干逻辑，再填充细节；
语言实现：输出符合规范的Python或C++代码，并附带注释说明核心思想。

# Problem: Longest Increasing Subsequence (LIS) def length_of_lis(nums): """ Uses dynamic programming with binary search for O(n log n) solution. dp[i] represents the smallest tail value of all increasing subsequences of length i+1. """ import bisect dp = [] for num in nums: pos = bisect.bisect_left(dp, num) if pos == len(dp): dp.append(num) else: dp[pos] = num return len(dp) # Test case print(length_of_lis([10, 9, 2, 5, 3, 7, 101, 18])) # Output: 4

这段代码展示了典型的工程素养：选择了最优算法（二分+DP）、加入了必要的模块导入、使用了恰当的数据结构，并配有清晰的文档字符串。即便是经验丰富的程序员，也会认可其产出的专业度。

实测表现：不只是纸面数据

数学推理基准对比

测试集	VibeThinker-1.5B	DeepSeek R1	差距
AIME24	80.3	79.8	+0.5
AIME25	74.4	70.0	+4.4
HMMT25	50.4	41.7	+8.7

HMMT（哈佛-麻省理工数学锦标赛）被公认为全球最难的高中生数学竞赛之一，其题目往往需要创造性洞察与深度抽象能力。自动化求解这类问题长期以来被视为AI推理的“圣杯”。

VibeThinker在HMMT25中取得50.4分，意味着它能在近一半题目上给出正确解答——这个水平已经接近优秀参赛学生的平均表现。尤其考虑到其参数量仅为1.5B，这一成绩堪称奇迹。

编程生成能力实证

基准测试	版本	VibeThinker	Magistral Medium
LiveCodeBench	v5	55.9	—
LiveCodeBench	v6	51.1	50.3

LiveCodeBench 是目前最具代表性的代码生成评测集，涵盖从简单函数实现到复杂算法设计的全谱系任务。VibeThinker在v6版本中略胜一筹，说明其在真实编程场景下已具备实用价值。

值得注意的是，该模型不仅能生成语法正确的代码，还能处理边界情况、避免常见陷阱（如整数溢出、空指针访问），显示出较强的鲁棒性。

如何部署与使用？本地即可运行

典型部署架构

[用户终端] ↓ (HTTP/API 或 Jupyter Notebook) [推理服务容器] ├── 模型镜像 (VibeThinker-1.5B-APP) ├── tokenizer（分词器） └── 推理引擎（Transformers + FlashAttention） ↓ [系统提示词注入模块] → 用户需手动输入角色设定（如“你是一个编程助手”） ↓ [模型推理执行] → 输出结构化解答或代码

得益于其小巧的体积，VibeThinker可在配备16GB显存的消费级GPU（如RTX 3090/4090）上流畅运行。项目提供了完整Docker镜像和一键启动脚本（1键推理.sh），极大降低了部署门槛。

两种主要使用方式：

Jupyter Notebook本地调试：适合开发者快速验证想法；
网页交互界面：提供图形化问答入口，便于非技术人员操作。

使用技巧与最佳实践

务必设置系统提示词
由于模型未内置固定角色，首次使用时应在系统提示框中明确任务属性。例如输入：“You are a math olympiad problem solver.” 可显著提升解题专注度。
优先使用英文提问
所有实验证明，英文提示下模型的激活路径更稳定。即使问题本身较短，也建议使用标准术语表述。
控制上下文长度
模型最大上下文推测为4096 token左右。过长的描述可能导致截断，建议提炼关键信息，避免冗余。
结合外部工具验证
对数学答案可用SymPy自动验证符号运算；对生成代码可通过unittest框架运行测试用例，形成闭环反馈。