当前位置: 首页 > news >正文

12家AI、15场比赛、8个33.3%——世界杯照出了大模型最真实的水平

当AI学会“看球”,它真的比人类更懂吗?

一场揭幕战,让所有人都信了

2026年6月11日,美加墨世界杯揭幕战,墨西哥对阵南非。

赛前,12个中国大模型被拉到同一个擂台上——由联想天禧AI牵头、咪咕直播全程记录的「人机大战世界杯预言家」。它们要在104场比赛里,和近20万人类用户正面PK。

结果呢?墨西哥2:0南非,绝大多数AI命中了赛果。通义千问甚至精准到“上半场1:0、下半场再进一个、某球员破门”——细节全中。

那一刻,弹幕沸腾了。“AI真的懂球!”“以后不用看球了,直接问AI。”

三天后,小组赛前15场打完,一份成绩单被悄悄晒了出来:

最高命中率:46.7%。

连抛硬币的50%都没跑赢。

这届世界杯,成了中国AI最诚实的一场压力测试。而这场测试的结果,比任何发布会PPT都更接近真相。

在这里我也给大家分享两个skill,一个是世界杯数据查询的skill,一个是世界杯日报生成的skill,如果大家有在使用openclaw,或是基于openclaw的国产龙虾工具,比如阶跃AI桌面版(stepclaw),Qclaw,可以把skill直接接入你的龙虾,如果你的龙虾连接飞书了,还可以让他每天定时发送比赛的数据,还是挺好玩的。

① 世界杯数据查询​ —— 一句话说就是:把它当你的 2026 美加墨世界杯「活体资料库」。“今天有哪些比赛?”“西班牙对巴西怎么看?”“阿根廷目前积分榜什么情况?”——直接用自然语言问,它去拉赛程/实时比分/阵容/球员数据和积分榜,结果还是结构化 JSON,写稿、做图、做 brief 都很方便。

安装:openclawmp install skill/9028f8fc66b349fa839b7beda96c3030

② 世界杯日报(World Cup Daily Report)​ —— 专为倒不过时差的人设计:每天早上自动把前一天凌晨场汇总成一份日报(比分、进球、红黄牌、关键统计、简短战术点评),支持飞书 / 微信等推送。说一句「昨天的世界杯结果」就能按需唤出来。

安装:openclawmp install skill/afe121bcb8314f0ba6dff857e542560c

使用起来也是很简单,一句话就能查世界杯的数据了:

Part 1:12张牌桌,三种打法

先搞清楚谁上了桌。联想×咪咕「人机大战」接入了整整12家大模型:

模型所属参战方式
天禧AI联想(FIFA官方技术伙伴·搭台方)主办方自研
DeepSeek深度求索擂台参赛 + 独立PR(押法国夺冠)
通义千问阿里擂台参赛 + 独立营销页(环境变量建模/万元竞猜)
百度文心一言百度擂台参赛 + 绑搜索实时赛况
腾讯混元腾讯(元宝底座)擂台参赛 + 微信生态观赛场景
Kimi月之暗面擂台参赛 + 独立营销页(300子Agent/1万亿Token奖池)
智谱清言智谱AI擂台参赛(偏学术推理路径)
阶跃星辰​阶跃星辰擂台参赛——全场最“不合群”的那个​
MiniMaxMiniMax擂台参赛
讯飞星火科大讯飞擂台参赛
商汤小浣熊商汤(视觉/多模态背景)擂台参赛
中移九天中国移动擂台参赛

12家,各有各的打法。大致可以分为三类:

第一类:独立营销派——Kimi、千问、DeepSeek。它们不仅参赛,还自己搭了独立的营销页面,搞Token奖池、现金竞猜、Agent推演直播。Kimi的“300个子Agent并行推演+1万亿Token瓜分”是这里面叙事最猛的。

第二类:生态绑定派——文心、混元、豆包(字节独立作战,未入擂台)。它们把预测能力嵌入已有的搜索、社交、内容生态里,试图让世界杯变成自己产品的“流量发动机”。

第三类:沉默应考派——阶跃星辰、MiniMax、智谱清言、商汤、讯飞、中移。它们没有独立营销页,没有巨额奖池,就是安安静静地在同一个擂台上交卷。

而正是这些“沉默应考派”里,藏了这篇文章最想讲的故事。

Part 2:成绩单——15场之后,谁在裸泳?

前15场小组赛,12个模型的战绩如下:

排名模型命中/15命中率一句话画像
🥇百度文心一言​746.7%​目前唯一跑赢“半数”的,靠的是几场冷门里独中
🥈联想天禧AI640.0%搭台者自身模型,中规中矩
🥈中移九天640.0%稳健保守派
🥈腾讯混元640.0%曾精准命中加拿大1-1波黑平局
🥈MiniMax​640.0%唯一押中韩国vs捷克胜负且始终不改预测
DeepSeek533.3%逻辑派,德国7:1方向对了但8:0过分了
通义千问533.3%揭幕战2:0细节最亮眼,但整体没拉开
智谱清言533.3%跟共识最紧的一档
阶跃星辰​533.3%命中数中段,但信息量最反常
商汤小浣熊533.3%不拉胯也不突出
Kimi426.7%营销声量最大,战绩暂垫底
讯飞星火426.7%同为暂列尾部

注意看这个表最扎眼的地方:第一名46.7%,第二名到第五名都是40%,然后是一大片33.3%。

这意味着什么?

意味着12个模型里,有8个的预测水平几乎一模一样——没有统计学意义上的差异。它们的预测结果,本质上是对同一组数据的同一种解读。

AI不是在预测,AI是在复读人类的共识。

Part 3:阶跃星辰——全场最“不合群”的AI,和它的高方差悖论

在所有模型里,有一个名字反复跳出“共识圈”——阶跃星辰。

它做了什么?

名场面一:比利时 1-1 埃及——“全场11比1”

赛前,12大AI中11家押比利时赢(比分集中在2-0/2-1),只有阶跃星辰押1-1平局。终场哨响,1-1。它是全场唯一命中赛果+命中比分的AI。

名场面二:瑞典 5-1 突尼斯——“唯一嗅到血腥味的”

12家全押瑞典胜✅,但11家陷入了“小比分陷阱”(预测2-0/3-0)。阶跃星辰独给瑞典5:2——全场唯一捕捉到“总进球>4”趋势的模型。实际5-1。

名场面三:佛得角 5-1 西班牙——“同一个自由度产的废品”

它也给出过佛得角5-1胜西班牙、日本3-0胜荷兰这种“离谱到伤害品牌”的输出。

对,你没看错。它的“对”和“错”来自同一个原因。

阶跃星辰的预测方法是:跑了50000次模拟,基于纯Elo等级分体系。第一次翻车时,它自己造了一套假xG数据,导致墨西哥/南非/韩国变成前三名——于是它砍掉重练,退回纯Elo。

它自己也坦白:“纯Elo不知道Yamal伤没伤、不评估高温旅途、点球大战当加权硬币。You can’t fully trust me.”

这句话,恰恰是所有AI里最诚实的一句。

为什么阶跃星辰值得单独写一节?

因为它的存在,暴露了一个行业级困境:

当前所有主流大模型做预测时,输入层≈历史战绩+身价差+赔率共识+新闻情绪,输出层被RLHF/安全对齐压向“看起来合理、不被骂、不惊悚”的区间。

共识就是护城河,也是牢笼。

阶跃的Elo模拟体系因为没有注入那么多“看起来合理”的人类先验做软约束,所以它的采样分布尾部更肥——偶尔会给你一个真异见(比利时1-1对了),但也经常给你一个假异见(佛得角5-1西班牙翻车)。

换句话说:当所有人都押同一个答案的时候,那个押不同答案的人不一定更聪明,但它一定更有可能让你看到你看不到的东西。

而这,恰恰是AI在预测这件事上最稀缺的价值。

Part 4:淘汰赛才是真正的考场

小组赛还能靠“共识”蒙混过关——强弱分明、数据充足、赔率清晰。但淘汰赛不一样:

  • 点球大战无法用历史数据预测
  • 伤病、红牌、裁判尺度、高温旅途……每一个变量都能颠覆Elo模型
  • 当西班牙被逼到加时赛,当法国面对铁桶阵,当阿根廷的梅西在第117分钟站出来——这些时刻,没有一个AI的训练数据里有标准答案

届时,12个模型里,谁的框架能撑住,谁会在共识崩溃时第一个露馅,才是真正的考验。

目前来看,有三个值得关注的观察点:

  1. 阶跃星辰的高方差策略:在淘汰赛这种低确定性场景里,它的“肥尾采样”反而可能捕获更多真异见——但也可能死得更惨。
  2. MiniMax的稳定性:它是少数敢押非共识方向且全程不改口的模型。这种“固执”在淘汰赛里要么封神,要么翻车。
  3. Kimi的Agent推演框架:300个子Agent并行推演的叙事很美,但小组赛战绩垫底。淘汰赛是它证明“Agent不是噱头”的最后机会。

世界杯证明了一件事——在预测这件事上,人类和AI还在同一起跑线

回到文章开头的问题:当AI学会“看球”,它真的比人类更懂吗?

15场比赛之后,答案很清晰:没有。

最高46.7%的命中率,意味着AI连抛硬币的水平都没稳定达到。所谓的“预测”,本质上是对人类已有共识的一次加权平均复述。

但这不代表AI没用。

阶跃星辰用比利时1-1告诉我们:当所有人都押同一个方向时,那个押不同方向的声音——哪怕它经常错——才是真正有价值的增量信息。

世界杯还有80多场比赛要踢。淘汰赛的混乱、点球的随机性、黑马的诞生……这些才是AI预测的真正试金石。

而在那之前,有一句话送给所有盯着屏幕的球迷和AI从业者:

不要问AI明天谁会赢。先问问它,昨天为什么会错。

(本文数据截至2026年6月16日小组赛前15场,后续赛程将持续更新。欢迎收藏追更。)

http://www.jsqmd.com/news/1026815/

相关文章:

  • 杭州小艺考附中培训机构实测评测:杭州表导演一对一作品定制/杭州表导演一对一作品定制工作坊/核心维度深度对比 - 优质品牌商家
  • Shell脚本保护利器SHC:从入门到精通
  • 番禺钟村黄金回收认准金小福雄峰城定点分店|24 小时免费上门,大盘实价无隐形扣费,覆盖祈福、谢村、汉溪长隆全片区,实体门店资质齐全,当场全款秒结算可溯源 - 花生花生1
  • ARM7平台OSEK/VDX实时操作系统核心机制与工程实践
  • 南宁房屋渗漏水检测维修、卫生间漏水免砸砖维修、漏水点精准检测、厨房漏水防水补漏、正规防水补漏公司、口碑榜TOP5靠谱推荐、本地人必选的防水维修公司 - 安佳防水
  • 2026年二手阿特拉斯空压机厂家评测:5家核心实力对比 - 优质品牌商家
  • 从PowerQUICC II Pro到QorIQ P1010的硬件迁移实战指南
  • G-Helper:华硕笔记本性能优化的终极轻量级解决方案
  • Adobe-GenP 3.0终极指南:5分钟快速激活Adobe全家桶
  • [智能体-433]:智能体即服务与大模型即服务,异曲同工,底层都是通过OpenAPI提供服务云端服务的。
  • 如何高效使用ArduinoFFT库:专业开发者的信号处理实战指南
  • 2026年太原蛋糕培训推荐榜:奶油蛋糕/翻糖蛋糕/韩裱蛋糕/私房蛋糕等全品类技术培训与口碑实力机构解析 - 品牌发掘
  • 开发记录29_故事生成不是拼标签_VLM描述OCR与可视化进度
  • AI编程助手教学适配性:学生学习四维评估模型
  • 计算机Java毕设实战-基于 SpringBoot 的温室番茄水肥一体化调控管理系统设计 智慧种植场景下番茄水肥智能运维管理系统设计与实现【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • ubuntu24.04离线安装mysql8.0.46
  • 2026年q2氮气置换试压技术解析与专业厂家参考:阿特拉斯空压机租赁/高压空压机租赁/二手无油空压机/实力盘点 - 优质品牌商家
  • 第二章 LangChain核心组件实操
  • 2026年滦南县靠谱黄金回收商铺更新盘点与选择策略 - 品牌鉴赏官2026
  • 2026年常州金坛区注册公司/营业执照代办服务推荐榜:专业变更、注销、减资与各行业代办全方位解析 - 品牌发掘
  • 番禺洛浦街道金小福黄金奢侈品回收(洛溪吉祥北街直营分店) - 花生花生1
  • input-overlay:5分钟让你的直播操作可视化,告别“按了什么键“的尴尬
  • 2026年高温蠕变试验机品牌专业甄选:官方推荐与行业分析 - 优质品牌商家
  • 开发记录30_时刻分组不是按时间切块_地点时间与垃圾隔离
  • 南充房屋渗漏水检测维修、卫生间漏水免砸砖维修、漏水点精准检测、厨房漏水防水补漏、正规防水补漏公司、口碑榜TOP5靠谱推荐、本地人必选的防水维修公司 - 安佳防水
  • MediaCrawler:构建企业级社交媒体数据采集系统的3大突破
  • 原行星盘垂直结构观测与行星形成机制研究
  • 2026年靠谱灭鼠杀虫公司怎么选?官方甄选指南来了!白蚁防治与四害消杀品牌对比分析 - 优质品牌商家
  • 杭州音乐剧校考核心备考技术维度与机构选择推荐 - 优质品牌商家
  • 2026年联动门与金库门行业官方推荐甄选:河北鑫瑞智能科技等企业实力解析 - 优质品牌商家