当前位置: 首页 > news >正文

博主实测爆火的 Sakana Fugu,发现它还不如一个GPT?

一个日本AI团队,最近把模型圈又搅动了一下。

这家公司叫 Sakana,推出的新系统叫 Fugu。它最吸引眼球的地方,在于它声称可以把 GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro 这类前沿模型组织起来,像一个总导演一样,把不同任务分给不同模型,再把结果整合成一个答案。

如果官方基准成绩可信,Fugu 在部分编码任务上的表现非常靠前,甚至能压过不少顶级模型。于是问题来了:一个靠“模型编排”工作的AI系统,真的能比单个最强模型更强吗?

最近,YouTube上的一位科技博主Bijan Bowen做了一轮实测。他没有只看跑分,也没有只复述官方说法,而是把 Fugu 放进自己常用的测试体系里,连续跑了网页应用、3D 场景、小游戏、视觉还原、前端设计和飞行模拟等任务。测试之后,他给出的判断相当克制:Fugu 很有意思,但现在还没有证明自己能稳定超过 GPT 或 Claude 单独出手。

Fugu到底是什么:一个会“指挥模型”的模型

Sakana Fugu 这个项目主要由公司 CEO David Ha 与联合创始人 Llion Jones 主导。值得一提的是,Llion Jones 还是Transformer 架构的奠基之作《Attention Is All You Need》的共同作者之一,可以说 Fugu 从诞生之初就带着浓厚的技术基因。

按照 Sakana 的介绍,Fugu 更像一个“模型路由与编排系统”。用户表面上只是在调用 Fugu,实际上系统内部可能会调用多个前沿模型参与任务,包括 GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro 等。

Fugu 自己也不是空壳。它有一套训练出来的调度能力,可以判断用户任务需要哪些模型参与,给不同模型安排什么角色,中间结果怎样验证和合并,最终再生成一个统一答案。

这个思路很像一个AI项目经理:它不一定亲自完成每一个细节,但它要知道谁适合写代码,谁适合做视觉,谁适合补充推理,最后把多人协作变成一个完整成品。

为了验证这个思路,他分别测试了普通版 Fugu 和更强的 Fugu Ultra High。前者用于第一个任务,后续更复杂的任务基本都交给更贵的 Ultra 版本。

第一轮:普通Fugu做了一个“浏览器OS”

第一个任务,是让 Fugu 生成一个类似浏览器操作系统的网页应用。里面要有桌面、窗口、应用、终端、笔记工具、壁纸工具,还要包含一个类似 GTA 的小游戏。

普通版 Fugu 大约 6 分钟完成任务。费用也不高,从原来的 4 美分涨到 9 美分,整个任务大约花了 5 美分。

生成结果属于可用级别。界面完整,有应用图标,有窗口交互,也有一个能开的小游戏。小车可以移动,地图里有建筑、警车、漂浮现金,捡到现金后还会弹出提示。建筑虽然是透明的,但也设置了碰撞体,车不会直接穿过去。另一个“时间胶囊”功能也能保存窗口状态,再恢复出来。

这轮测试给人的第一印象是:Fugu 的完成度不错,至少没有明显翻车。

但他也发现了一个有趣细节。这个界面的视觉风格非常像 GPT-5.x 系列,背景渐变、窗口设计、UI结构都有明显的“GPT味”。这意味着,Fugu 背后的编排很可能会让某些底层模型的风格渗出来。

第二轮:Fugu Ultra做3D地铁站,干净但不惊艳

第二个任务开始,Bowen切换到 Fugu Ultra High。这个版本强调更高质量、更深编排,也意味着更高费用和更长等待时间。

他先让 Fugu Ultra 生成一个精致的 3D 地铁站场景。结果里有站台、轨道、长椅、标识、灯光、垃圾桶,甚至还出现了交通锥。整体空间结构比较合理,元素摆放也符合真实地铁站的基本逻辑。

从完成度看,这个结果不差。场景能运行,移动也流畅,空间布局清楚,没有出现严重混乱。

但如果把它放在“高端AI模型评测”的语境里,它就显得有些保守。材质不够丰富,氛围不够强,细节也没有特别出彩的地方。Bowen用的评价很直接:它很干净,也很有序,但没有让人“哇!”的时刻。

更现实的问题是成本。由于模型在后期不断尝试截图和检查结果,这个任务费用从 9 美分涨到了 3.54 美元,单次大约花了 3.45 美元。这个价格已经不适合随便试错。

第三轮:把地铁站改成射击游戏,细节开始暴露

接下来,他要求 Fugu Ultra 在已有地铁站基础上继续改造,把它变成一个第一人称射击游戏,加入类僵尸敌人、武器、音效、奔跑和换弹机制。

这次结果依然能跑。敌人有上臂、下臂、上腿、下腿,造型不是简单方块。枪口闪光会映射到周围环境,音效也有,R键换弹、冲刺等基础交互都做了出来。

这一轮说明 Fugu Ultra 确实有不错的工程执行能力。它能接住一个复杂的后续需求,也能把静态场景改造成可玩的交互游戏。

可问题还是出现在细节。他特别提到,子弹打到环境上没有留下弹孔。这个细节听起来很小,但在他长期做模型评测的体系里,它是判断模型有没有“多做一步”的重要信号。很多顶级模型在类似任务中,会主动补上弹孔、破坏痕迹、环境反馈等沉浸式细节。

Fugu Ultra 做到了能玩,但没有把游戏体验打磨到更高级。

第四轮:C++滑板游戏,合格但离顶级还有距离

随后,他又让 Fugu Ultra 写一个自包含的 C++ 滑板游戏。他还特意拒绝模型使用 Raylib 这类简化开发的库,因为那会降低任务难度。

这个任务花费明显更高。费用从 4.99 美元涨到 8.81 美元,单次大约花了 3.82 美元。

最终生成的游戏有海边木板路、商店、行人、棕榈树、海水、坡道和滑板动作。玩家可以移动、加速、跳跃,也可以执行一些滑板动作。街道两侧的商店会循环出现,比如 motel、donuts、records、diner、tattoo、surf、pizza 等,画面元素算是完整。

但它的缺点也很清楚。角色动作有些僵硬,速度偏快,部分坡道嵌进了商店,动作表现不够自然。Bowen拿它和此前测试过的 Fable 5 结果相比,认为它明显没有达到那个级别。

这也是整轮测试里反复出现的感受:Fugu Ultra 很少彻底失败,但也很少真正惊艳。它像一个稳定的执行者,能把任务完成到及格线以上,却经常缺少顶级模型单独发挥时的细腻和灵气。

第五轮:照片还原3D模型,Fugu开始“偷懒”

为了测试视觉理解和空间还原能力,他又给 Fugu Ultra 一个照片文件夹,里面是一台复古小笔记本外壳的多角度照片。他要求模型根据这些图片生成一个 3D 复刻版本,并且键盘要能点击。

第一次生成的结果很有意思。模型抓住了图片里的颜色,桌面、背景、笔记本色调都比较接近,键盘也能响应输入。但问题在于,它没有真正做成3D,更像一个有立体错觉的 2.5D 纸片模型。

他不满意,又追加提示,要求它必须做成真正的3D。第二次结果确实改进了,笔记本可以旋转,盖子可以关闭,也保留了一些房间元素。只是键盘方向出现反转,整体仍有瑕疵。

这轮测试很能说明 Fugu Ultra 的一个习惯:它能理解需求,也能修正错误,但在复杂视觉任务里,容易先给出一个“看起来差不多”的方案。对于普通用户,这也许已经够用;对于严肃评测,它就会被放大。

横向对比:手表官网暴露了核心差距

最关键的一轮测试,是高端手表品牌官网。

他要求 Fugu Ultra 做一个精致的手表官网首页,核心区域要有一个高端手表模型,放在桌面上,并做出类似 KeyShot 渲染的镜头环绕效果。为了对比,他把同样提示词分别交给 GPT-5.5、Claude Opus 4.8 和 Gemini 3.1 Pro。

Gemini 做了两个版本,有一定3D感和反射效果,但产品卡片里的模型质量一般。Claude 的表盘细节很漂亮,产品卡片也有质感,不过主视觉里的手表出现了半透明、漂浮等问题。

Fugu Ultra 的结果看起来混合了多种模型风格:导航有 GPT 味,浅色布局又有一些 Claude 的感觉。手表本身做得不错,秒针也在运动,但核心问题再次出现:它没有真正完成高质量 3D 手表,更像 2.5D 的视觉方案。

最强结果来自 GPT-5.5 单独生成的版本。它做出了更完整的手表模型,皮革表带有缝线,表带孔位也做了出来,产品卡片里还生成了不同材质的款式。虽然表盘方向仍有小瑕疵,但整体完成度明显领先。

这轮对比让Bowen的判断变得非常明确:在这类复杂创造型任务里,直接使用 GPT-5.5 或 Claude Opus,可能比通过 Fugu Ultra 编排更便宜、更直接,结果也更好。

最后一轮:飞行战斗模拟器没能扭转印象

最后,他又跑了一个飞行战斗模拟器任务。这个任务同样使用 Fugu Ultra。

结果里有一些基本元素,但整体表现没有达到预期。他认为,如果单独调用那些可能被 Fugu 调度的底层模型,效果大概率会更好。

到测试结束时,他一共充值了 40 美元,整轮测试花掉 21.57 美元。除了第一个 browser OS 用普通 Fugu,其余复杂任务基本都跑在 Fugu Ultra 上。考虑到多数结果只是“稳定完成”,这个成本很难说有明显优势。

模型编排有价值,但Fugu还没打穿

Bowen最终给出的判断,其实很克制。

Fugu 的技术路线值得关注。它代表了一种新形态:用户不再直接选择某一个模型,而是把任务交给一个智能调度系统,由它决定调用谁、怎么分工、如何整合结果。随着模型越来越多,这种“模型编排”很可能会成为AI应用的重要方向。

但至少在这次测试里,Fugu Ultra 还没有证明自己能稳定超过单个顶级模型。

它比 OpenRouter Fusion 这类编排方案表现更好,任务完成度更高,也更稳定。可一旦进入复杂网页、3D、游戏、视觉还原等任务,它经常停留在“干净、完整、能用”的层面。

OpenRouter Fusion 可以理解为更早一批“模型融合”尝试。它的思路同样不是让用户只依赖某一个模型,而是试图在多个模型之间做选择和组合,让系统自动找到更合适的回答路径。听起来这和 Fugu 很接近,但实际体验里,两者的差别很明显。OpenRouter Fusion 更像是在模型之间做一次相对简单的路由,某些特定任务可能会有亮点,但整体稳定性和复杂任务的交付质量并不算突出。

Fugu 的进步在于,它不只是把请求转交给某个模型,而是围绕任务搭建一个更复杂的协作框架,让不同模型承担不同角色,再由系统综合输出结果。所以在这次测试里,Fugu 至少证明了自己比 OpenRouter Fusion 更像一个真正的“模型编排系统”。

然而相比之下,GPT-5.5 或 Claude Opus 单独出手,反而更容易做出有细节、有风格、有完成度的结果。

至顶AI实验室洞察

这次测试真正提醒人的地方在于:AI系统强不强,不能只看它背后调度了多少模型,也不能只看官方基准成绩。真正的判断标准,还是具体任务里的成品质量、交互细节、成本和稳定性。

Fugu 像是一个提前露面的新物种。它展示了模型编排的未来形状,也暴露了今天这条路线的现实限制。对于开发者和内容创作者来说,它值得观察,但现在还没到可以替代 GPT-5.5、Claude Opus 这类顶级模型的程度。

END本文来自至顶AI实验室,一个专注于对AI计算机、工作站及各类AI相关硬件设备,开展基于真实使用场景评测的研究机构。‍

http://www.jsqmd.com/news/1075151/

相关文章:

  • 学习者高效阅读赋能知识吸收的方法与实践探究
  • 如何拯救你收藏的B站视频?m4s-converter让你的缓存文件重获新生
  • BilldDesk:完全免费的跨平台远程桌面控制软件完全指南
  • ROS嵌入式部署实战:在Jetson/RPi上稳定运行机器人系统
  • 服装贴口袋工序自动化科普:慧拿线上激光模板机全面解析
  • AI案例:选AI还是选人
  • 清理隐形账单刺客:基于 Python 的闲置云端资源自动巡检与审计实践
  • 白领 16 亿 tokens
  • 自监督学习实战:绕过标注瓶颈的工业AI落地路径
  • 面试官皱眉:“你的 Agent 跑了10轮之后还靠谱吗”,我说:“靠谱啊,为啥不靠谱?”,面试官让我回去再想想。。。
  • KPI测量不是算数,而是定义可验证的业务动作
  • Headunit Revived:让安卓设备变身 Android Auto 接收器,多连接方式及更新计划来袭!
  • Fastjson反序列化漏洞:从原理到实战防护的Java安全必修课
  • 从高维数据中提取本质特征:秩提取与鲁棒子空间设计实践
  • 银河麒麟V10 SP3 源码编译部署 PostgreSQL 18.4
  • 《HarmonyOS技术精讲-UI开发 (基于NDK构建UI)》第6篇:集成第三方C++图形库——以Skia为例
  • tldraw:用 React 搭建无限画布应用的开源 SDK
  • 为什么我暂时抛弃了 logging
  • 让 AI 越写越像你:用 Hook 自动积累编码规范的实践
  • 跨平台资源下载神器:5分钟掌握res-downloader完整使用指南
  • 计算机小程序毕设实战-基于 SpringBoot+UniApp 的区域文旅(冀鲁豫)旅行推荐系统设计与实现 基于 SpringBoot+UniA【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 如何用好accio work 做好客户开发,背调
  • 智人曾经这样灭绝猛犸象:AI入侵与行业灭绝
  • 如何免费实现高效语音转字幕:STS-Bcut完整使用指南
  • 临床AI代理为何跳过药物相互作用检查?工具调用失效的根因与驯服方案
  • 东莞翻译中心 意大利语法律翻译术语
  • 有孵化器的亚洲EMBA实测测评与理性选型指南
  • 生成式AI落地实战:从流程锚定到组织级AI能力建设
  • 大湾区高含金量EMBA客观测评与理性选型指南
  • 《龙虾软件一线深度落地的体系拆解》