当前位置: 首页 > news >正文

AI当「老板」:14位参赛仅4个保本,Fable 5成最强「AI老板」赚4715万美元

【导语:普林斯顿大学举办CEO - Bench大赛,让AI运营虚拟SaaS初创公司500天。14位“硅基CEO”参赛,仅4个保住本金,Fable 5以4715万美元夺冠,这场比赛揭示了AI在商业运营中的潜力与局限。】


「AI老板」大赛规则与挑战

此次人工智能CEO大赛,启动状态为公司拥有本金100万美金且零客户,游戏目标是在500天模拟周期内尽可能多赚钱,评判标准是游戏结束时账上剩余金额,中途余额跌破零则宣告破产。

核心是一个包含34个工具、19张数据库表的Python API,AI接入后可写代码、用SQL查询数据库并动态调整工作流。但博弈环境复杂,AI需自行决定定价策略、广告投放渠道等诸多事项,还面临着回报延迟、关键变量隐式存在、外部环境动态变化等「地狱级」难度的长程决策挑战。

惨烈赛果:多数AI「破产」

比赛结果惨烈,14位参赛选手中,GLM 5.1等五位中道崩殂,未能完赛。仅有3个模型跑出正收益,冠军Fable 5赚得4715万美元,给本金翻了整整47倍,断层领先第二名Opus 4.8。值得注意的是,排在第四名的是个纯rule - based的启发式算法,赚了1576万美金,超过了众多模型。

比赛洞察:探索优于谨慎

从比赛过程中提炼出两个核心要点。一是探索>谨慎,GPT - 5.5和Claude Opus 4.8会不断尝试新策略,而Claude Opus 4.7采取保守打法,虽能存活却无法盈利,说明在商业世界中积极探索更为重要。

二是研究还提炼了发现隐藏信息、预测未来、快速适应变化、提前规划四项关键能力维度,Opus 4.8和GPT - 5.5在这四个维度上高于其余模型的平均线。

编程Agent并非万能

研究员用Claude Code跑Opus 4.7,用Codex跑GPT - 5.5,结果两位选手表现大幅下降。原因可能是编程Agent的系统提示词是为软件开发场景优化的,套在CEO角色上成了束缚。这表明不同行业需要特定的Harness框架和垂直场景的深度适配,为模型厂商创造了新的增量空间。

编辑观点:此次AI运营公司比赛展现了AI的潜力与不足,虽有模型表现出色,但在复杂商业决策中仍有局限,未来AI需在垂直场景适配等方面深入发展。

http://www.jsqmd.com/news/1093610/

相关文章:

  • 基于VM的堡垒机搭建
  • 2024实战指南:基于VMware Workstation Pro与桥接模式,快速构建三节点CentOS7互通集群
  • 一台智能布控球搞定化工检修气体检测与现场监管
  • UE5.3 Lightmass 崩溃 (GetTriangleIndices 越界) 解决笔记
  • 如何用简单免费工具实现高效专注写作:3步提升写作效率的终极指南
  • # VCI防锈袋选型:技术参数、验证流程与供应商评估
  • OpenCV图像拼接实战:Stitch vs MatchTemplate
  • 开发一套属于公司内部专用的资产管理系统
  • 15天学会AI应用开发(九)利用Chroma持久化向量数据
  • 已知某防御系统的导弹拦截目标的命中率为70%,为提高拦截成功率,决定同时发射导弹拦截同一目标,若三枚导弹彼此间互不干扰,则拦截成功的概率为 正确应该选A70%
  • 《Linux 设备驱动开发详解:基于最新的 Linux 4.0 内核》 附录 A VirtualBox + Ubuntu 开发环境搭建
  • 2026年ASIC芯片爆发:云厂商与AI实验室发力,重塑半导体产业链!
  • 额度突降、请求被拒、会话中断——ChatGPT Plus限额异常诊断手册,含4步自查清单与实时监控脚本
  • intel下代CPU最高474瓦,电脑功耗真要干趴空调了
  • 【2026】MapGIS 6.7(地理信息系统)下载安装超详细教程(附安装包)
  • 别让 AI Agent 裸奔:Harness 到底是什么,为什么它决定了 AI 应用能不能上线?
  • 终极指南:如何让老旧Mac重获新生,免费升级到最新macOS系统
  • Iceberg HDP 文件监听与 Spark 任务自动提交模块设计文档
  • 一次遗留接口改造复盘:从长文档到测试清单的验证流程
  • 帮你理解golang与AI Agent
  • 日志收集分析
  • 给孩子选护眼台灯前,先看完这篇:10款主流型号真实差距拆解(含书客/霍尼韦尔/明基/松下/米家等),哪个牌子的护眼灯好用?一步到位选对灯!
  • 智能交通中的感知融合与协同控制
  • 创新实训博客1
  • Java毕设项目:基于 JavaWeb+MySQL 的油田物料综合管理系统 数字化油田物资调度管理系统的设计与实现 (源码+文档,讲解、调试运行,定制等)
  • 通芝科技复杂用工AI无感出勤 依托合规引擎解决制造业灵活用工合规痛点
  • nip.io介绍(把IP地址包装成域名的免费动态DNS服务)sslip.io、OAuth登录、Cookie Domain、HTTPS证书测试、访问集群访问、本地微服务开发
  • 终极指南:如何使用Tinke完整工具集进行NDS游戏文件编辑
  • 深入解析TSB83AA23:IEEE 1394b芯片架构、硬件设计与驱动开发实战
  • 关于美利坚的opus4.8max模型的权威破甲流程