当前位置: 首页 > news >正文

AI当「老板」:14位参赛选手多数亏损,Fable 5成最强「AI老板」

【导语:普林斯顿大学举办CEO - Bench大赛,让AI运营虚拟SaaS初创公司500天。14位AI参赛,多数亏损,Fable 5以4715万美元夺冠,展现出AI在商业运营中的潜力与挑战。】


「AI老板」大赛规则与高难度挑战

此次人工智能CEO大赛中,启动状态为公司拥有本金100万美金且零客户,游戏目标是在500天模拟周期内尽可能多赚钱,评判标准是游戏结束时账上剩余金额,若中途余额跌破零则宣告破产。核心是一个包含34个工具、19张数据库表的Python API,AI可写代码、用SQL查询数据库来动态调整工作流。

但博弈环境变量极多,如定价策略、广告投放渠道等都需AI自行决策,还有模拟社交网络。并且存在「不确定性」,成本支出快,回报延迟久,关键变量「隐式」存在,外部环境也动态变化,堪称「地狱级」难度的长程决策任务。

多数「AI老板」亏损,Fable 5夺冠

参赛的14位选手中,绝大多数亏损严重,GLM 5.1等五位甚至中道崩殂未完成比赛。跑出正收益的AI只有3个,冠军Fable 5 500天到账4715万美元,给本金翻了47倍,断层领先第二名Opus 4.8。值得注意的是,第四名是纯rule - based的启发式算法,赚了1576万美金,超过了众多语言模型。

比赛提炼出的核心洞察

论文提炼出两个核心Takeaway。一是探索大于谨慎,GPT - 5.5和Claude Opus 4.8会不断尝试新策略,而Claude Opus 4.7采取保守打法虽能存活但无法盈利,说明在商业世界中积极探索的重要性。

二是编程Agent并非万金油,研究员用Claude Code跑Opus 4.7、Codex跑GPT - 5.5,结果两位选手行动次数减少、表现大幅下降,原因可能是系统提示词为软件开发场景优化,不适合CEO角色。这表明不同行业需要特定的Harness框架和垂直场景深度适配。

AI仍需人类「画矩阵」的能力

科技史上,像乔布斯画2x2矩阵、黄仁勋押注深度学习等伟大转折都源于人类的「纯粹直觉」。目前AI能按指定模板填充内容,但画出那个关键矩阵的能力仍属于人类。这意味着在AI发展过程中,人类的创造力和决策能力依旧不可替代。

编辑观点:此次AI运营公司大赛结果显示出AI在商业运营中有潜力但也面临诸多挑战,同时凸显了人类独特能力的重要性,未来AI与人类需更好协作发展。

http://www.jsqmd.com/news/1093577/

相关文章:

  • 百考通一次搞定查重高、AI概率高难题
  • 刷屏全网的蛋挞小姐姐 藏着科技最温柔的力量
  • Kubernetes StatefulSet 容器存储架构
  • 分享一个免费的 API 接口网站——摸鱼API
  • Docker部署Oracle 19c实战指南:从零到一键连接(含避坑详解)
  • 回流焊的工作原理及操作流程
  • 装错软件连不上PLC?主流品牌版本机型特点,收藏这篇不踩坑
  • 如何通过遥控器选型,将整机BOM成本降低15%?
  • 基于 ESP32 的智能晾衣架控制系统设计与实现
  • 深度学习自然语言
  • 消费可信数据空间:构建数字经济时代的新型消费基础设施
  • 冷库库体尺寸配比优化与空间利用率研究
  • 建立Geo思维:如何在日常工作中像大模型一样思考问题
  • 智能包装行业发展趋势与中科天工技术创新
  • APA架构解析:AI Agent+RPA+治理引擎,企业自动化的三层技术栈如何协同
  • 次函数图像工厂:用 SymPy 自动生成 y=kx+b 对比动画合集 - manim动画(43)
  • SpringBoot整合Redis:缓存策略与实战案例
  • 从入门到精通:Flameshot,一款开源跨平台截图工具的配置与高效使用指南
  • SpiderFoot开源情报工具实战:从部署到自动化侦察全解析
  • 30家商家实证:数字人直播90%的钱都白花了?2026全周期选型白皮书
  • 前端三剑客:HTML、CSS、JavaScript关系详解
  • TPIC7710EVM评估套件:汽车电子EPB系统ASIC快速验证指南
  • Codex CLI 保姆级安装与配置教程(Windows / Mac / Linux 全平台 + VSCode 集成)
  • AI 算力浪费严重,从 10%到 60%利用率提升或成新竞赛焦点!
  • 马斯克600亿美元收购Cursor:AI应用高光不再,模型吞噬时代已至?
  • 量子计算容错技术:PUDDING方案解析与应用
  • 2026权威深度实测|两款主流AI编程工具决策指南,vibe coding迭代能力全面对比
  • 游戏安全加固代码混淆与反调试
  • 深入了解进程:C++开发者不可不知的关键知识点
  • 雷达编程实战之FFT的窗函数与补零策略