当前位置: 首页 > news >正文

当思维的马拉松撞上AI的短跑局限——LongCoT与长程推理的深渊

GPT 5.2只有9.8%的准确率,Gemini 3 Pro只有6.1%。这不是缺陷,这是警钟。


🏃 一次长跑测试的震撼结果

想象一下,你是一个教练,要测试运动员的耐力。你设计了一条50公里的赛道,分成10个5公里的路段。每个路段单独跑都不难——专业运动员都能轻松完成。但要求是一次性跑完,中间不能换人、不能停下来休息、不能忘记前面跑过的路。

你召集了世界上最顶尖的运动员:

  • 来自OpenAI训练基地的GPT 5.2——9.8%的完成率
  • 来自Google训练营的Gemini 3 Pro——6.1%的完成率
  • 还有其他几个顶尖选手——都在10%以下

这就是LongCoT基准测试告诉我们的残酷现实。

费曼会说:“数字不会说谎。9.8%不是个小数字的问题,这是个本质问题。”


🎭 为什么我们从未发现这个问题?

短跑冠军的幻觉

在LongCoT之前,AI推理基准就像短跑比赛:

  • MATH数据集:每道题平均几千token
  • AIME竞赛题:推理长度通常<5K token
  • FrontierMath:限制在10K token以内
  • HLE(Humanity’s Last Exam):平均<5K推理token<
http://www.jsqmd.com/news/658034/

相关文章:

  • 别再死记硬背了!用51单片机的AD/DA和PWM,亲手做个简易示波器信号发生器
  • 信息安全管理系统(ISMS)简介
  • 行波管从原理到设计,0 基础入门全攻略
  • 别再手动移植了!用Keil MDK为STM32F4系列一键生成静态库(SPL/HAL/LL全支持)
  • GstBuffer 核心机制与高效内存管理实战
  • Hyperf方案 多因素认证(MFA)
  • 如何快速配置插件系统:面向新手的5步完整指南
  • Docker一键部署Puter:打造私有云桌面与远程开发环境全攻略
  • 批量生成流程卡功能,助力企业简化工序流转与信息录入工作
  • 015、LangChain + RAG实战:把知识库问答系统真正串成一条可维护的工程链路
  • 2026 年阻垢剂领域优质企业推荐榜:上海环巨科技领衔,聚焦阻垢剂、缓蚀阻垢剂、反渗透阻垢剂、水处理阻垢剂专业服务商 - 海棠依旧大
  • 2026年维普论文AI率超标被打回?这份降AI攻略帮你一次过 - 我要发一区
  • 折叠波导慢波结构 CST 仿真全流程:从建模到注波互作用
  • 一人公司(OPC)典型案例与商业模式研究报告
  • 收藏!AI赋能程序员单干时代:一人公司如何从0到1?
  • REST 到底是什么?一篇讲透 + FastAPI 实战
  • 基于二阶RC模型的锂电池SOC估计自适应无迹卡尔曼滤波算法研究——包含噪声系数自适应的Matl...
  • 基于ITR9909与BC517达林顿管的光电感应开关改造实战
  • 广东企业注意!下一个高新技术企业就是你,但申报路上这些坑别踩 - 沐霖信息科技
  • 暗黑3终极自动化指南:D3KeyHelper图形化宏工具完整配置教程
  • 2026年维普AI检测不通过怎么办?从60%降到5%的完整攻略 - 我要发一区
  • VMamba在图像分类任务中的性能优化与实践
  • Pycharm运行程序时,会报错:Process finished with exit code -1073740791 (0xC0000409),无法查看详细的报错信息
  • AD22更新网表时总是显示 net with name XXX In already exists
  • IRremoteESP8266库实战:三种方法解析与发送空调红外码
  • 密码进行加盐哈希 using CSharp,Python,Go,Java
  • 桌面端社区体验革命:Coolapk-UWP如何重新定义Windows平台社交应用
  • HideMockLocation终极指南:5步快速隐藏Android模拟位置设置
  • STM32实战:ADS8688多通道数据采集系统驱动设计与优化
  • 瀚高数据库安全版4.5.10及其以上版本使用pg_cron定时任务