当前位置: 首页 > news >正文

AI神话破灭?最新研究:96%的工作任务,AI做得比人差

在“AI将取代人类”的喧嚣中,一项基于真实付费任务的研究泼下冷水:AI在96.25%的实际工作中不如人类,顶级模型的成功率不足4%。

我们正处在一个“AI焦虑”的时代,无论是媒体的渲染,还是科技巨头们不计成本的宣传,似乎都在传递一个信号:AI即将取代人类,失业潮近在咫尺,然而,最新的一项深度研究却给这股狂热泼了一盆冷水,最新研究揭示了一个令人震惊的数据:在96.25%的实际工作任务中,AI的表现不如人类。

1. 实验室里的“学霸”,职场上的“差生”?

为什么我们总觉得AI无所不能?研究指出,以往的AI基准测试大多是模拟的人类工作,而非真实、复杂的综合性劳动。

为了得出真相,研究人员采用了一种名为远程劳动力指数(RLI)的新方法,他们从众包平台Upwork上选取了240个真实、带薪的专业任务——涵盖了视频制作、CAD设计、图形设计、游戏开发、建筑建模等多个领域——并支付平均630美元的报酬。

结果如何?惨不忍睹。表现最好的模型(Claude Opus 4.5)的成功率仅为3.75%,Gemini的成功率甚至只有1.25%,这意味着,如果你交给AI 10个任务,它至少会在9个任务上搞砸,或者做得比人类差。

2. AI到底在哪里“翻车”了?

研究详细总结了AI在处理实际工作时的四大“死穴”:

文件损坏与格式错误:AI经常生成损坏的、空白的文件,或者交付完全无法打开的格式。

“半拉子”工程:交付内容不完整,比如要求制作8分钟的视频,AI可能只跑了8秒就停了,或者缺少关键的素材。

质量达不到专业标准:即便完成了任务,其产出也往往显得业余,无法满足商业交付的要求。

逻辑不一致(幻觉):这是最致命的,例如在3D建模中,一个房子从正面看是一个样,侧面看却变成了另一个样,平面图与设计草图完全对不上。

3. 我们被“语言能力”骗了吗?

AI领域的教父级人物、卷积神经网络之父Yann LeCun指出,人类很容易被误导。我们习惯性地认为,能熟练操纵语言的人通常是聪明的,当AI能够流利地对话时,我们下意识地赋予了它“智慧”的属性,但事实上,大语言模型(LLM)只是在模仿人类说话,它们并没有建立起真正的“世界模型”。

LeCun举了一个经典的例子:AI读过了网上所有的棋谱和规则,却依然会在下棋时走出不合规的棋步,因为它从未真正理解国际象棋的逻辑,它只是在预测下一个概率最大的字符。

4. 泡沫背后的代价

研究还揭示了AI热潮下被掩盖的阴影:

医疗风险:FDA已收到100多份关于AI医疗设备故障的报告,包括误导手术位置导致患者脑卒中甚至死亡的极端案例。

资本虚火:巨头们支付给网红博主几十万美金来推广AI模型,如果这项技术真的如宣传般革命性,为什么还需要花费巨资来“说服”我们它好用呢?

软件质量下滑:微软曾自豪地宣称30%的代码由AI编写,但随之而来的是公司历史上最严重的一系列软件问题。

5. 是工具,而非替代品

这是否意味着AI毫无用处?并非如此,AI在创意灵感、简单代码、数据检索和音频图像生成等特定领域已经表现出色,但关键在于:AI目前是一个提高效率的工具,而非一个可以独立负责的雇员。

2026年初的现状告诉我们,那些急于裁员并试图用AI顶替岗位的公司,可能很快就会发现自己不得不把人请回来。正如研究指出,如果你是一名软件工程师,现在的致富机会或许不是开发AI,而是去修复那些由AI编写的、漏洞百出的代码。

总结

AI的未来是光明的,但当前的路径(堆算力、堆数据)可能已经触及瓶颈。在它真正理解这个世界之前,人类的直觉、逻辑和专业操守,依然是职场中无可替代的护城河。

http://www.jsqmd.com/news/411407/

相关文章:

  • 收藏!一文彻底搞懂Transformer中的归一化技术,大厂面试必考
  • 2026高低压开关柜与箱式变电站厂家推荐:实力厂家矩阵,点亮智能电力工程新图景 - 深度智识库
  • 2026年充电桩厂家推荐排行榜:液冷/超级/智能柔性充电桩技术实力与市场口碑深度解析 - 品牌企业推荐师(官方)
  • 也许你需要一个管理 Agent Skills 的可视化 App
  • 上海洁净板喷漆修复价格多少钱,哪家性价比高 - mypinpai
  • 2026年三苯基膦好用的品牌推荐,华威化工位居前列 - 工业品牌热点
  • 多种优化算法优化WSN网络覆盖附Matlab实现
  • 聊聊大模型推理系统之 FlowPrefill:清华北科大团队如何突破队头阻塞瓶颈,将 LLM 服务吞吐量提升 5.6 倍?
  • 中央空调在江浙粤地区好用吗,有哪些靠谱品牌推荐 - 工业设备
  • 爱思唯尔(Elsevier)全新系统投稿流程
  • 交稿前一晚!AI论文网站 千笔ai写作 VS 笔捷Ai,本科生首选!
  • 深度学习搜索Agent架构精讲:从迭代到递归,一篇就够了,值得反复研读
  • 盘点深圳本地靠谱的GEO推广服务,哪家性价比高值得推荐? - 工业品网
  • 反序列化漏洞分析讲解,零基础入门到精通,收藏这篇就够了
  • 全国房车展大通房车价格如何,选购时要考虑什么 - mypinpai
  • 家居软装公司性价比对比,昆明优选软装优势在哪 - 工业品牌热点
  • 多目标粒子群优化(MOPSO)进行多目标巡检附matlab代码
  • 论文浅尝 | 基于知识图谱检索的LLM推荐系统生成(ACL2025)
  • 2026年 加气机厂家推荐排行榜:LNG/LPG/CNG/汽车/天然气/压缩天然气加气机品牌实力与技术创新深度解析 - 品牌企业推荐师(官方)
  • 分析相臣律所卢彦民离婚律师,专业素养和胜诉率高不高 - 工业品牌热点
  • 全栈开发的演变:从LAMP到MEAN再到现代JavaScript
  • 揭秘2026年深圳靠谱的翻译公司排名,求推荐翻译机构排名 - 工业推荐榜
  • 讲讲南京靠谱的企业认证服务公司有哪些,江苏中安质环认证中心推荐吗 - 工业推荐榜
  • 2026年加油机厂家推荐排行榜:智能加油机、物联网加油机、自助加油机、大流量加油机、全自动加油机,专业实力与创新技术深度解析 - 品牌企业推荐师(官方)
  • 2026年好用的医疗诊断专利AI、食品安全专利AI、佰腾专利AI替代品推荐 - myqiye
  • 运维和AI助手的吵架记录:第4条笑崩百万程序员
  • 2026年江阴AI搜索优化服务排行榜,AI搜索优化哪家强 - 工业设备
  • 哨兵模式 (Sentinel) 集群模式 (Cluster)区别
  • 大模型进阶必看:收藏这份RAG指南,让你的AI助手像“活”的一样懂你!
  • 2026年性价比高的火花机排行,专业火花机品牌怎么选择 - 工业品网