当前位置: 首页 > news >正文

当11个AI都押比利时赢,只有一个说了“不”——阶跃星辰凭什么敢反共识?

当AI学会“看球”,它真的比人类更懂吗?

一场揭幕战,让所有人都信了

2026年6月11日,美加墨世界杯揭幕战,墨西哥对阵南非。

赛前,12个中国大模型被拉到同一个擂台上——由联想天禧AI牵头、咪咕直播全程记录的「人机大战世界杯预言家」。它们要在104场比赛里,和近20万人类用户正面PK。

结果呢?墨西哥2:0南非,绝大多数AI命中了赛果。通义千问甚至精准到“上半场1:0、下半场再进一个、某球员破门”——细节全中。

那一刻,弹幕沸腾了。“AI真的懂球!”“以后不用看球了,直接问AI。”

三天后,小组赛前15场打完,一份成绩单被悄悄晒了出来:

最高命中率:46.7%。

连抛硬币的50%都没跑赢。

这届世界杯,成了中国AI最诚实的一场压力测试。而这场测试的结果,比任何发布会PPT都更接近真相。

在这里我也给大家分享两个skill,一个是世界杯数据查询的skill,一个是世界杯日报生成的skill,如果大家有在使用openclaw,或是基于openclaw的国产龙虾工具,比如阶跃AI桌面版(stepclaw),Qclaw,可以把skill直接接入你的龙虾,如果你的龙虾连接飞书了,还可以让他每天定时发送比赛的数据,还是挺好玩的。

① 世界杯数据查询​ —— 一句话说就是:把它当你的 2026 美加墨世界杯「活体资料库」。"今天有哪些比赛?""西班牙对巴西怎么看?""阿根廷目前积分榜什么情况?"——直接用自然语言问,它去拉赛程/实时比分/阵容/球员数据和积分榜,结果还是结构化 JSON,写稿、做图、做 brief 都很方便。

安装:openclawmp install skill/9028f8fc66b349fa839b7beda96c3030

② 世界杯日报(World Cup Daily Report)​ —— 专为倒不过时差的人设计:每天早上自动把前一天凌晨场汇总成一份日报(比分、进球、红黄牌、关键统计、简短战术点评),支持 飞书 / 微信 等推送。说一句「昨天的世界杯结果」就能按需唤出来。

安装:openclawmp install skill/afe121bcb8314f0ba6dff857e542560c

使用起来也是很简单,一句话就能查世界杯的数据了:

Part 1:12张牌桌,三种打法

先搞清楚谁上了桌。联想×咪咕「人机大战」接入了整整12家大模型:

模型 所属 参战方式
天禧AI 联想(FIFA官方技术伙伴·搭台方) 主办方自研
DeepSeek 深度求索 擂台参赛 + 独立PR(押法国夺冠)
通义千问 阿里 擂台参赛 + 独立营销页(环境变量建模/万元竞猜)
百度文心一言 百度 擂台参赛 + 绑搜索实时赛况
腾讯混元 腾讯(元宝底座) 擂台参赛 + 微信生态观赛场景
Kimi 月之暗面 擂台参赛 + 独立营销页(300子Agent/1万亿Token奖池)
智谱清言 智谱AI 擂台参赛(偏学术推理路径)
阶跃星辰​ 阶跃星辰 擂台参赛——全场最“不合群”的那个​
MiniMax MiniMax 擂台参赛
讯飞星火 科大讯飞 擂台参赛
商汤小浣熊 商汤(视觉/多模态背景) 擂台参赛
中移九天 中国移动 擂台参赛

12家,各有各的打法。大致可以分为三类:

第一类:独立营销派——Kimi、千问、DeepSeek。它们不仅参赛,还自己搭了独立的营销页面,搞Token奖池、现金竞猜、Agent推演直播。Kimi的“300个子Agent并行推演+1万亿Token瓜分”是这里面叙事最猛的。

第二类:生态绑定派——文心、混元、豆包(字节独立作战,未入擂台)。它们把预测能力嵌入已有的搜索、社交、内容生态里,试图让世界杯变成自己产品的“流量发动机”。

第三类:沉默应考派——阶跃星辰、MiniMax、智谱清言、商汤、讯飞、中移。它们没有独立营销页,没有巨额奖池,就是安安静静地在同一个擂台上交卷。

而正是这些“沉默应考派”里,藏了这篇文章最想讲的故事。

Part 2:成绩单——15场之后,谁在裸泳?

前15场小组赛,12个模型的战绩如下:

排名 模型 命中/15 命中率 一句话画像
🥇 百度文心一言​ 7 46.7%​ 目前唯一跑赢“半数”的,靠的是几场冷门里独中
🥈 联想天禧AI 6 40.0% 搭台者自身模型,中规中矩
🥈 中移九天 6 40.0% 稳健保守派
🥈 腾讯混元 6 40.0% 曾精准命中加拿大1-1波黑平局
🥈 MiniMax​ 6 40.0% 唯一押中韩国vs捷克胜负且始终不改预测
DeepSeek 5 33.3% 逻辑派,德国7:1方向对了但8:0过分了
通义千问 5 33.3% 揭幕战2:0细节最亮眼,但整体没拉开
智谱清言 5 33.3% 跟共识最紧的一档
阶跃星辰​ 5 33.3% 命中数中段,但信息量最反常
商汤小浣熊 5 33.3% 不拉胯也不突出
Kimi 4 26.7% 营销声量最大,战绩暂垫底
讯飞星火 4 26.7% 同为暂列尾部

注意看这个表最扎眼的地方:第一名46.7%,第二名到第五名都是40%,然后是一大片33.3%。

这意味着什么?

意味着12个模型里,有8个的预测水平几乎一模一样——没有统计学意义上的差异。它们的预测结果,本质上是对同一组数据的同一种解读。

AI不是在预测,AI是在复读人类的共识。

Part 3:阶跃星辰——全场最“不合群”的AI,和它的高方差悖论

在所有模型里,有一个名字反复跳出“共识圈”——阶跃星辰。

它做了什么?

名场面一:比利时 1-1 埃及——“全场11比1”

赛前,12大AI中11家押比利时赢(比分集中在2-0/2-1),只有阶跃星辰押1-1平局。终场哨响,1-1。它是全场唯一命中赛果+命中比分的AI。

名场面二:瑞典 5-1 突尼斯——“唯一嗅到血腥味的”

12家全押瑞典胜✅,但11家陷入了“小比分陷阱”(预测2-0/3-0)。阶跃星辰独给瑞典5:2——全场唯一捕捉到“总进球>4”趋势的模型。实际5-1。

名场面三:佛得角 5-1 西班牙——“同一个自由度产的废品”

它也给出过佛得角5-1胜西班牙、日本3-0胜荷兰这种“离谱到伤害品牌”的输出。

对,你没看错。它的“对”和“错”来自同一个原因。

阶跃星辰的预测方法是:跑了50000次模拟,基于纯Elo等级分体系。第一次翻车时,它自己造了一套假xG数据,导致墨西哥/南非/韩国变成前三名——于是它砍掉重练,退回纯Elo。

它自己也坦白:“纯Elo不知道Yamal伤没伤、不评估高温旅途、点球大战当加权硬币。You can't fully trust me.”

这句话,恰恰是所有AI里最诚实的一句。

为什么阶跃星辰值得单独写一节?

因为它的存在,暴露了一个行业级困境:

当前所有主流大模型做预测时,输入层≈历史战绩+身价差+赔率共识+新闻情绪,输出层被RLHF/安全对齐压向“看起来合理、不被骂、不惊悚”的区间。

共识就是护城河,也是牢笼。

阶跃的Elo模拟体系因为没有注入那么多“看起来合理”的人类先验做软约束,所以它的采样分布尾部更肥——偶尔会给你一个真异见(比利时1-1对了),但也经常给你一个假异见(佛得角5-1西班牙翻车)。

换句话说:当所有人都押同一个答案的时候,那个押不同答案的人不一定更聪明,但它一定更有可能让你看到你看不到的东西。

而这,恰恰是AI在预测这件事上最稀缺的价值。

Part 4:淘汰赛才是真正的考场

小组赛还能靠“共识”蒙混过关——强弱分明、数据充足、赔率清晰。但淘汰赛不一样:

  • 点球大战无法用历史数据预测
  • 伤病、红牌、裁判尺度、高温旅途……每一个变量都能颠覆Elo模型
  • 当西班牙被逼到加时赛,当法国面对铁桶阵,当阿根廷的梅西在第117分钟站出来——这些时刻,没有一个AI的训练数据里有标准答案

届时,12个模型里,谁的框架能撑住,谁会在共识崩溃时第一个露馅,才是真正的考验。

目前来看,有三个值得关注的观察点:

  1. 阶跃星辰的高方差策略:在淘汰赛这种低确定性场景里,它的“肥尾采样”反而可能捕获更多真异见——但也可能死得更惨。
  2. MiniMax的稳定性:它是少数敢押非共识方向且全程不改口的模型。这种“固执”在淘汰赛里要么封神,要么翻车。
  3. Kimi的Agent推演框架:300个子Agent并行推演的叙事很美,但小组赛战绩垫底。淘汰赛是它证明“Agent不是噱头”的最后机会。

世界杯证明了一件事——在预测这件事上,人类和AI还在同一起跑线

回到文章开头的问题:当AI学会“看球”,它真的比人类更懂吗?

15场比赛之后,答案很清晰:没有。

最高46.7%的命中率,意味着AI连抛硬币的水平都没稳定达到。所谓的“预测”,本质上是对人类已有共识的一次加权平均复述。

但这不代表AI没用。

阶跃星辰用比利时1-1告诉我们:当所有人都押同一个方向时,那个押不同方向的声音——哪怕它经常错——才是真正有价值的增量信息。

世界杯还有80多场比赛要踢。淘汰赛的混乱、点球的随机性、黑马的诞生……这些才是AI预测的真正试金石。

而在那之前,有一句话送给所有盯着屏幕的球迷和AI从业者:

不要问AI明天谁会赢。先问问它,昨天为什么会错。

(本文数据截至2026年6月16日小组赛前15场,后续赛程将持续更新。欢迎收藏追更。)

http://www.jsqmd.com/news/1025943/

相关文章:

  • 毫米级时间控制的交互式魔法系统设计
  • 杭州阿里周边广州菜餐厅排行 实测口碑对比盘点 - 起跑123
  • 淘金币自动化助手:3分钟解放双手,每天节省20分钟的终极指南
  • 2026彭州九尺板鸭门店推荐榜|九尺镇老牌板鸭店实测,本地人常去门店汇总 - 企业推荐师
  • COCO转YOLO格式:坐标归一化与类别映射实战指南
  • 广安漏水检测维修权威推荐:卫生间-厨房-阳台-屋顶天花板漏水维修:靠谱防水补漏公司团队TOP5推荐(2026最新深度调研实测榜单) - 即刻修防水
  • 2026年柴油发电机组厂家推荐榜:康明斯/珀金斯/玉柴/潍柴/上柴/卡特/沃尔沃/三菱/大宇等品牌机组及二手设备深度解析与选购指南 - 品牌发掘
  • 一体化污水处理设备谁家口碑好?你想知道的都在这 - 资讯快报
  • go和langchain的入门
  • 广州企业短视频获客服务选购指南 - 资讯快报
  • 数据清洗工具链:从脏数据到高质量训练集的工程化治理
  • 2026年6月 口碑好的 烟台正规出国留学机构、烟台小语种培训机构排行 实测资质服务资源对比 - 起跑123
  • Higgs Audio v3 TTS 4B语音聊天应用开发:构建智能对话助手实战指南
  • 2026年沈阳大连RFID公司推荐TOP4:AI 机器视觉 + RFID 融合,毫秒级响应、全流程数据采集,批量识别效率提升 80% - 资讯快报
  • 核心功能对比:LinuxCommandLibrary vs 传统man手册
  • 锚定大湾区智能制造升级浪潮,中欧 EMBA 依托 AI 智能变革赋能制造业领军决策者 - 资讯纵览
  • 盘点8款好用的免费降ai率工具(2026最新亲测) - 殷念写论文
  • 汽车MCU架构演进:从硬件集成到软件定义的核心技术解析
  • 广州企业短视频服务选购指南:如何选到合适的全域获客方案 - 资讯快报
  • JSON扁平化实际应用场景案例
  • Off-By-One
  • 2026宁波黄金回收门店TOP5:大盘价回收渠道盘点 - 宁波早知道
  • 靠谱焊工培训怎么选?信誉过硬机构实测避坑指南 - 湖南阳光技术
  • 2026广州窗户隔热膜服务商综合实力排名及选购指南 - 资讯纵览
  • 图形工作站替代方案解析:云飞云云桌面承载三维建模的数据安全体系
  • 广东淋浴卫浴花洒厂家实力排行:5家头部供应商盘点 - 起跑123
  • 邯郸夜间宠物医院如何选择? - 资讯纵览
  • 终极并行网络工具:Parallec如何在12秒内完成8000台服务器的HTTP/Ping测试
  • 2026 优质工业油雾 / 油烟净化器供应商推荐榜单|食品行业油烟治理源头厂家甄选 - 资讯快报
  • 破解广州企业短视频获客困境:CAP全域增长法如何实现业绩倍增? - 资讯快报