当前位置：首页 > news >正文

传统模型评测遇挑战，推理预算应成人工智能评测核心参数！

news 2026/7/31 20:45:37

传统模型评测面临新挑战

随着大语言模型逐步进入复杂推理、自动化研究和网络安全等高难度任务，传统的模型评测方式正面临新挑战。长期以来，模型发布常伴随由多项基准测试构成的成绩表，将数学、编程等能力压缩为若干分数，与上一代模型横向比较。

单一分数难以反映模型实际能力

OpenAI研究员Noam Brown近日撰文指出，当模型能在回答问题时使用更多推理步骤、调用更多工具或执行更长时间的搜索与试验后，单一分数越来越难准确反映模型实际能力。他认为大模型的表现不仅取决于模型本身，还取决于推理阶段获得的计算资源。未来评估模型，不能只问「模型得了多少分」，还应考虑模型是在消耗多少token、多少费用和多长运行时间的前提下获得成绩的。他建议行业从「单点成绩」转向「性能—推理计算量曲线」，并将推理预算视为模型能力评估和人工智能安全政策的基础变量。

传统成绩表低估新模型能力差距

新模型的能力差距可能被传统成绩表低估。以GPT - 5.5发布后的市场反应为例，发布初期其基准测试成绩不算特别显眼，与GPT - 5.4相比分数提升幅度有限，部分用户持观望或质疑态度。但模型开放使用数小时内，开发者和研究人员测试更复杂任务时发现，GPT - 5.5在长链条推理等方面表现出明显代际差异。Brown认为，这种「实际体验明显增强、榜单分数却变化有限」的现象，反映出传统评测未完整呈现模型能力。问题在于不同模型评测结果未必建立在相同推理预算之上，传统评测方式可能掩盖关键变量，某些模型获得更多推理资源后表现能显著提升，而另一些模型可能较早触及性能上限。网络安全评测案例表明，若只比较「最大测试时计算量」条件下的最终成绩，GPT - 5.5相较GPT - 5.4优势不突出；但控制token数量等条件相同，GPT - 5.5能力提升更明显。这说明模型间差距不仅体现在最终分数，还体现在利用额外推理计算量的效率上。

简单增加推理资源不可行

一种直观解决方案是为每个模型持续增加推理资源，直到表现进入平台期再比较最高能力。但Brown认为这种思路在实践中未必可行，因为新一代模型性能平台期可能比预期晚出现，甚至在现实可承受预算范围内难以观测。他引用Andrej Karpathy发起的自动化研究实验和英国人工智能安全研究所的网络安全评测结果为例，说明在复杂任务上，模型能利用更长运行时间和更大推理预算持续提升表现，更强的模型不仅起点高，还更擅长将额外计算资源转化为有效能力。他推测，随着模型能力提高，可有效运行的任务周期会延长，未来性能上限可能被不断推远，「平台期」可能不再容易测量。

转向「性能—成本曲线」评测

面对这一变化，Brown建议模型发布机构改变基准测试呈现方式，绘制以推理计算量为横轴、任务表现为纵轴的性能变化曲线，横轴可用token数量、推理费用或实际运行时间等指标。这种方法能回答传统成绩表难以解释的问题，如相同预算下哪个模型表现更好等。目前部分基准测试已开始采用类似方法，如ARC - AGI等评测尝试衡量模型分数与运行成本关系，而非只发布单一成绩。另一种可行方案是为评测设定明确的token、成本或时间限制，并提前告知模型，类似于人类参加标准化考试。但Brown指出不同指标都有局限，token数量、费用、运行时间都不是完美指标，但都比脱离推理预算的单一分数更具信息量。

推理预算影响人工智能安全评估

Brown的讨论不限于模型排行榜，他认为推理预算会直接影响前沿模型的安全治理。前沿人工智能模型发布前，研发机构会对网络攻击等潜在滥用能力进行评估，若模型达到风险阈值，可能需推迟发布或增加缓解措施。但问题是，如果模型能力随推理计算量增加而提升，安全评估该使用多大的推理预算呢？现实中普通用户和资金充足的组织投入的资源差异大，如果评测机构只在低预算下测试模型，可能低估其在高资源条件下的风险能力。以Gemini 3 Deep Think发布后的争议为例，其基准测试成绩高，但发布时未同步提供完整系统卡，引发部分人工智能安全研究者批评。Brown认为争议背后的深层问题是人工智能企业和安全机构尚未形成评估不同推理预算下模型能力的稳定方法。他推测Deep Think可能是基于已有模型构建的推理脚手架系统，外部开发者投入足够推理费用也可能构建类似工作流。所以真正值得关注的是，基础模型发布时，研发机构是否充分测试了其在不同推理预算和脚手架策略下的能力水平。

高预算评测可尝试外推

理论上，资源充足的行为体可能为单一任务投入超1000万美元推理成本，但安全评估涉及大量测试运行，高预算评测成本不可行。Brown提出可先在相对可控预算范围内测试，再根据模型能力随计算量变化的趋势外推高预算下的表现，评测机构应明确标注预测区间和不确定性。这种方法类似通过局部数据估算大规模系统变化趋势，虽无法替代实际测试，但能帮助理解模型在更多资源下风险边界的变化。不过，Brown也承认长周期任务可能带来难以通过短期实验解决的问题，如判断自主智能体长期运行后的行为，最可靠方法可能还是让其实际运行足够长时间。这会产生新矛盾，人工智能模型开发和发布周期短，而智能体任务周期长，未来研发机构可能面临新模型未完成最大运行周期安全测试，下一代模型就接近发布的情况。

三项建议让推理预算成基础变量

针对能力评测和安全治理问题，Brown提出三项建议：一是人工智能研发机构发布新模型时，应公布不同推理预算下的基准测试表现，理想情况是提供性能曲线，至少说明取得单点成绩时的推理资源；二是基准测试排行榜应记录推理资源消耗或设定统一上限，目前部分评测已纳入相关变量，但行业未形成标准做法；三是人工智能企业的准备度框架和负责任扩展政策应明确考虑推理阶段的计算资源，判断模型安全阈值时，应评估多个推理预算水平并对高预算下的风险能力进行带不确定性说明的预测。

行业评测体系有待完善

推理阶段增加计算资源可提升模型表现并非新发现，自OpenAI 2024年9月发布o1系列推理模型以来，行业已普遍意识到这一点，相关研究也成为大模型发展重要方向。但Brown认为，趋势出现近两年后，许多前沿模型发布仍靠单一基准分数传播和比较，部分安全机构可能在脚手架系统使用大量推理预算获更高成绩后才重新审视模型能力边界。随着模型更擅长利用资源，传统排行榜解释力可能下降，同一基础模型在不同条件下能力水平不同。Brown判断，未来衡量人工智能能力，推理预算应成为评测报告核心参数，人工智能行业正告别「用一个数字定义一个模型」的阶段，重要的是模型在获得足够资源后能做到什么程度。那么，行业何时能建立起完善的评测体系呢？

查看全文

http://www.jsqmd.com/news/994743/