当前位置: 首页 > news >正文

传统模型评测遇挑战,推理预算应成人工智能评测核心参数!

传统模型评测面临新挑战

随着大语言模型逐步进入复杂推理、自动化研究和网络安全等高难度任务,传统的模型评测方式正面临新挑战。长期以来,模型发布常伴随由多项基准测试构成的成绩表,将数学、编程等能力压缩为若干分数,与上一代模型横向比较。

单一分数难以反映模型实际能力

OpenAI研究员Noam Brown近日撰文指出,当模型能在回答问题时使用更多推理步骤、调用更多工具或执行更长时间的搜索与试验后,单一分数越来越难准确反映模型实际能力。他认为大模型的表现不仅取决于模型本身,还取决于推理阶段获得的计算资源。未来评估模型,不能只问「模型得了多少分」,还应考虑模型是在消耗多少token、多少费用和多长运行时间的前提下获得成绩的。他建议行业从「单点成绩」转向「性能—推理计算量曲线」,并将推理预算视为模型能力评估和人工智能安全政策的基础变量。

传统成绩表低估新模型能力差距

新模型的能力差距可能被传统成绩表低估。以GPT - 5.5发布后的市场反应为例,发布初期其基准测试成绩不算特别显眼,与GPT - 5.4相比分数提升幅度有限,部分用户持观望或质疑态度。但模型开放使用数小时内,开发者和研究人员测试更复杂任务时发现,GPT - 5.5在长链条推理等方面表现出明显代际差异。Brown认为,这种「实际体验明显增强、榜单分数却变化有限」的现象,反映出传统评测未完整呈现模型能力。问题在于不同模型评测结果未必建立在相同推理预算之上,传统评测方式可能掩盖关键变量,某些模型获得更多推理资源后表现能显著提升,而另一些模型可能较早触及性能上限。网络安全评测案例表明,若只比较「最大测试时计算量」条件下的最终成绩,GPT - 5.5相较GPT - 5.4优势不突出;但控制token数量等条件相同,GPT - 5.5能力提升更明显。这说明模型间差距不仅体现在最终分数,还体现在利用额外推理计算量的效率上。

简单增加推理资源不可行

一种直观解决方案是为每个模型持续增加推理资源,直到表现进入平台期再比较最高能力。但Brown认为这种思路在实践中未必可行,因为新一代模型性能平台期可能比预期晚出现,甚至在现实可承受预算范围内难以观测。他引用Andrej Karpathy发起的自动化研究实验和英国人工智能安全研究所的网络安全评测结果为例,说明在复杂任务上,模型能利用更长运行时间和更大推理预算持续提升表现,更强的模型不仅起点高,还更擅长将额外计算资源转化为有效能力。他推测,随着模型能力提高,可有效运行的任务周期会延长,未来性能上限可能被不断推远,「平台期」可能不再容易测量。

转向「性能—成本曲线」评测

面对这一变化,Brown建议模型发布机构改变基准测试呈现方式,绘制以推理计算量为横轴、任务表现为纵轴的性能变化曲线,横轴可用token数量、推理费用或实际运行时间等指标。这种方法能回答传统成绩表难以解释的问题,如相同预算下哪个模型表现更好等。目前部分基准测试已开始采用类似方法,如ARC - AGI等评测尝试衡量模型分数与运行成本关系,而非只发布单一成绩。另一种可行方案是为评测设定明确的token、成本或时间限制,并提前告知模型,类似于人类参加标准化考试。但Brown指出不同指标都有局限,token数量、费用、运行时间都不是完美指标,但都比脱离推理预算的单一分数更具信息量。

推理预算影响人工智能安全评估

Brown的讨论不限于模型排行榜,他认为推理预算会直接影响前沿模型的安全治理。前沿人工智能模型发布前,研发机构会对网络攻击等潜在滥用能力进行评估,若模型达到风险阈值,可能需推迟发布或增加缓解措施。但问题是,如果模型能力随推理计算量增加而提升,安全评估该使用多大的推理预算呢?现实中普通用户和资金充足的组织投入的资源差异大,如果评测机构只在低预算下测试模型,可能低估其在高资源条件下的风险能力。以Gemini 3 Deep Think发布后的争议为例,其基准测试成绩高,但发布时未同步提供完整系统卡,引发部分人工智能安全研究者批评。Brown认为争议背后的深层问题是人工智能企业和安全机构尚未形成评估不同推理预算下模型能力的稳定方法。他推测Deep Think可能是基于已有模型构建的推理脚手架系统,外部开发者投入足够推理费用也可能构建类似工作流。所以真正值得关注的是,基础模型发布时,研发机构是否充分测试了其在不同推理预算和脚手架策略下的能力水平。

高预算评测可尝试外推

理论上,资源充足的行为体可能为单一任务投入超1000万美元推理成本,但安全评估涉及大量测试运行,高预算评测成本不可行。Brown提出可先在相对可控预算范围内测试,再根据模型能力随计算量变化的趋势外推高预算下的表现,评测机构应明确标注预测区间和不确定性。这种方法类似通过局部数据估算大规模系统变化趋势,虽无法替代实际测试,但能帮助理解模型在更多资源下风险边界的变化。不过,Brown也承认长周期任务可能带来难以通过短期实验解决的问题,如判断自主智能体长期运行后的行为,最可靠方法可能还是让其实际运行足够长时间。这会产生新矛盾,人工智能模型开发和发布周期短,而智能体任务周期长,未来研发机构可能面临新模型未完成最大运行周期安全测试,下一代模型就接近发布的情况。

三项建议让推理预算成基础变量

针对能力评测和安全治理问题,Brown提出三项建议:一是人工智能研发机构发布新模型时,应公布不同推理预算下的基准测试表现,理想情况是提供性能曲线,至少说明取得单点成绩时的推理资源;二是基准测试排行榜应记录推理资源消耗或设定统一上限,目前部分评测已纳入相关变量,但行业未形成标准做法;三是人工智能企业的准备度框架和负责任扩展政策应明确考虑推理阶段的计算资源,判断模型安全阈值时,应评估多个推理预算水平并对高预算下的风险能力进行带不确定性说明的预测。

行业评测体系有待完善

推理阶段增加计算资源可提升模型表现并非新发现,自OpenAI 2024年9月发布o1系列推理模型以来,行业已普遍意识到这一点,相关研究也成为大模型发展重要方向。但Brown认为,趋势出现近两年后,许多前沿模型发布仍靠单一基准分数传播和比较,部分安全机构可能在脚手架系统使用大量推理预算获更高成绩后才重新审视模型能力边界。随着模型更擅长利用资源,传统排行榜解释力可能下降,同一基础模型在不同条件下能力水平不同。Brown判断,未来衡量人工智能能力,推理预算应成为评测报告核心参数,人工智能行业正告别「用一个数字定义一个模型」的阶段,重要的是模型在获得足够资源后能做到什么程度。那么,行业何时能建立起完善的评测体系呢?

http://www.jsqmd.com/news/994743/

相关文章:

  • 计算机毕业设计之基于协同过滤算法的电影推荐系统
  • Windows音频切换神器:AudioSwitch让你告别繁琐的系统设置
  • 融优学堂-艺术史:从图像逻辑到文明对话的观看之道
  • 接口文件---前后端开发人员正式开发前的文档
  • 当消极评价出现--------真的是不太好看
  • 从社交网络到推荐系统:手把手用PyTorch+GCN构建你的第一个图神经网络模型
  • 2026黔西电能质量评估权威机构排行 TOP 谐波检测 + 电压波动 + 能效测评 附电话地址 - 中检检测集团
  • 三小时变三分钟:BibiGPT如何让音视频学习效率提升600%
  • 2026黔东企业业主高频选择的 5 家危房检测房屋结构安全鉴定机构实地测评整理 - 科信检测
  • 显卡驱动清理终极指南:3步解决90%显卡问题
  • 告别闭集限制:手把手教你用OVSeg和Mask-adapted CLIP实现开放词汇图像分割
  • P87LPC761单片机UART自动地址识别与看门狗定时器深度应用指南
  • FModel终极指南:5个步骤轻松提取虚幻引擎游戏资源
  • 5个超实用场景,让BilibiliDown成为你的B站视频收藏神器
  • 2026庆阳本地土壤检测农田土壤检测哪家强?TOP 正规机构榜单 + 联系方式 - 鉴安检测
  • 从Halcon的.om3文件到C#窗体:一步步教你用ActiViz.NET显示三维点云(避坑VS版本与位数问题)
  • 使用YOLOv12模型在生产线上验证网络电缆(跳线)中导线的正确颜色序列
  • 目前整体自动评价系统整体输出95%以上是积极内容
  • 南通母婴除甲醛检测治理公司2026避雷手册:Top5品牌横向对比与科学选择 - AZJ888
  • 一个制造部门的组织重构:从30人到8人加20个数字员工
  • 京东物流200公斤跨省多少钱?教你省下一半运费 - 快递物流资讯
  • 计算机毕业设计之基于协同过滤算法的短视频推荐系统
  • MPC8240时序配置实战:PCI与I2C接口稳定性设计精要
  • 南通母婴除甲醛检测治理公司2026挑选指南:Top5品牌横向对比与科学选择 - AZJ888
  • 2026年爱我东雄高周波设备深度选型:如何为塑胶熔接生产匹配最佳方案 - 信息热点
  • P89LPC93x1系列MCU的ADC与比较器电气特性深度解析与设计实践
  • 抖音发短视频是绝对红海--------抖音现在就是一个视频博客平台
  • WM主数据配置实战:从零构建高效仓位结构(Bin Structures)
  • 数据建模技巧:用 RedisJSON 管理复杂文档结构
  • 如何精准识别高校院所与地方政府之间的潜在创新合作机会?