当前位置：首页 > news >正文

当思维的马拉松撞上AI的短跑局限——LongCoT与长程推理的深渊

news 2026/6/3 16:23:23

GPT 5.2只有9.8%的准确率，Gemini 3 Pro只有6.1%。这不是缺陷，这是警钟。

🏃 一次长跑测试的震撼结果

想象一下，你是一个教练，要测试运动员的耐力。你设计了一条50公里的赛道，分成10个5公里的路段。每个路段单独跑都不难——专业运动员都能轻松完成。但要求是一次性跑完，中间不能换人、不能停下来休息、不能忘记前面跑过的路。

你召集了世界上最顶尖的运动员：

来自OpenAI训练基地的GPT 5.2——9.8%的完成率
来自Google训练营的Gemini 3 Pro——6.1%的完成率
还有其他几个顶尖选手——都在10%以下

这就是LongCoT基准测试告诉我们的残酷现实。

费曼会说：“数字不会说谎。9.8%不是个小数字的问题，这是个本质问题。”

🎭 为什么我们从未发现这个问题？

短跑冠军的幻觉

在LongCoT之前，AI推理基准就像短跑比赛：

MATH数据集：每道题平均几千token
AIME竞赛题：推理长度通常<5K token
FrontierMath：限制在10K token以内
HLE（Humanity’s Last Exam）：平均<5K推理token<

http://www.jsqmd.com/news/658034/

相关文章：

别再死记硬背了！用51单片机的AD/DA和PWM，亲手做个简易示波器信号发生器

信息安全管理系统（ISMS）简介

行波管从原理到设计，0 基础入门全攻略

别再手动移植了！用Keil MDK为STM32F4系列一键生成静态库（SPL/HAL/LL全支持）

GstBuffer 核心机制与高效内存管理实战

Hyperf方案多因素认证（MFA）

如何快速配置插件系统：面向新手的5步完整指南

Docker一键部署Puter：打造私有云桌面与远程开发环境全攻略

批量生成流程卡功能，助力企业简化工序流转与信息录入工作

015、LangChain + RAG实战：把知识库问答系统真正串成一条可维护的工程链路

2026 年阻垢剂领域优质企业推荐榜：上海环巨科技领衔，聚焦阻垢剂、缓蚀阻垢剂、反渗透阻垢剂、水处理阻垢剂专业服务商 - 海棠依旧大

2026年维普论文AI率超标被打回？这份降AI攻略帮你一次过 - 我要发一区

折叠波导慢波结构 CST 仿真全流程：从建模到注波互作用

一人公司（OPC）典型案例与商业模式研究报告

收藏！AI赋能程序员单干时代：一人公司如何从0到1？

REST 到底是什么？一篇讲透 + FastAPI 实战

基于二阶RC模型的锂电池SOC估计自适应无迹卡尔曼滤波算法研究——包含噪声系数自适应的Matl...

基于ITR9909与BC517达林顿管的光电感应开关改造实战

广东企业注意！下一个高新技术企业就是你，但申报路上这些坑别踩 - 沐霖信息科技

暗黑3终极自动化指南：D3KeyHelper图形化宏工具完整配置教程

2026年维普AI检测不通过怎么办？从60%降到5%的完整攻略 - 我要发一区

VMamba在图像分类任务中的性能优化与实践

Pycharm运行程序时，会报错：Process finished with exit code -1073740791 (0xC0000409)，无法查看详细的报错信息

AD22更新网表时总是显示 net with name XXX In already exists

IRremoteESP8266库实战：三种方法解析与发送空调红外码

密码进行加盐哈希 using CSharp,Python,Go,Java

桌面端社区体验革命：Coolapk-UWP如何重新定义Windows平台社交应用

HideMockLocation终极指南：5步快速隐藏Android模拟位置设置

STM32实战：ADS8688多通道数据采集系统驱动设计与优化

瀚高数据库安全版4.5.10及其以上版本使用pg_cron定时任务