当前位置：首页 > news >正文

12家AI、15场比赛、8个33.3%——世界杯照出了大模型最真实的水平

news 2026/6/17 1:31:59

当AI学会“看球”，它真的比人类更懂吗？

一场揭幕战，让所有人都信了

2026年6月11日，美加墨世界杯揭幕战，墨西哥对阵南非。

赛前，12个中国大模型被拉到同一个擂台上——由联想天禧AI牵头、咪咕直播全程记录的「人机大战世界杯预言家」。它们要在104场比赛里，和近20万人类用户正面PK。

结果呢？墨西哥2:0南非，绝大多数AI命中了赛果。通义千问甚至精准到“上半场1:0、下半场再进一个、某球员破门”——细节全中。

那一刻，弹幕沸腾了。“AI真的懂球！”“以后不用看球了，直接问AI。”

三天后，小组赛前15场打完，一份成绩单被悄悄晒了出来：

最高命中率：46.7%。

连抛硬币的50%都没跑赢。

这届世界杯，成了中国AI最诚实的一场压力测试。而这场测试的结果，比任何发布会PPT都更接近真相。

在这里我也给大家分享两个skill，一个是世界杯数据查询的skill，一个是世界杯日报生成的skill，如果大家有在使用openclaw，或是基于openclaw的国产龙虾工具，比如阶跃AI桌面版（stepclaw），Qclaw，可以把skill直接接入你的龙虾，如果你的龙虾连接飞书了，还可以让他每天定时发送比赛的数据，还是挺好玩的。

① 世界杯数据查询 —— 一句话说就是：把它当你的 2026 美加墨世界杯「活体资料库」。“今天有哪些比赛？”“西班牙对巴西怎么看？”“阿根廷目前积分榜什么情况？”——直接用自然语言问，它去拉赛程/实时比分/阵容/球员数据和积分榜，结果还是结构化 JSON，写稿、做图、做 brief 都很方便。

安装：openclawmp install skill/9028f8fc66b349fa839b7beda96c3030

② 世界杯日报（World Cup Daily Report） —— 专为倒不过时差的人设计：每天早上自动把前一天凌晨场汇总成一份日报（比分、进球、红黄牌、关键统计、简短战术点评），支持飞书 / 微信等推送。说一句「昨天的世界杯结果」就能按需唤出来。

安装：openclawmp install skill/afe121bcb8314f0ba6dff857e542560c

使用起来也是很简单，一句话就能查世界杯的数据了：

Part 1：12张牌桌，三种打法

先搞清楚谁上了桌。联想×咪咕「人机大战」接入了整整12家大模型：

模型	所属	参战方式
天禧AI	联想（FIFA官方技术伙伴·搭台方）	主办方自研
DeepSeek	深度求索	擂台参赛 + 独立PR（押法国夺冠）
通义千问	阿里	擂台参赛 + 独立营销页（环境变量建模/万元竞猜）
百度文心一言	百度	擂台参赛 + 绑搜索实时赛况
腾讯混元	腾讯（元宝底座）	擂台参赛 + 微信生态观赛场景
Kimi	月之暗面	擂台参赛 + 独立营销页（300子Agent/1万亿Token奖池）
智谱清言	智谱AI	擂台参赛（偏学术推理路径）
阶跃星辰	阶跃星辰	擂台参赛——全场最“不合群”的那个
MiniMax	MiniMax	擂台参赛
讯飞星火	科大讯飞	擂台参赛
商汤小浣熊	商汤（视觉/多模态背景）	擂台参赛
中移九天	中国移动	擂台参赛

12家，各有各的打法。大致可以分为三类：

第一类：独立营销派——Kimi、千问、DeepSeek。它们不仅参赛，还自己搭了独立的营销页面，搞Token奖池、现金竞猜、Agent推演直播。Kimi的“300个子Agent并行推演+1万亿Token瓜分”是这里面叙事最猛的。

第二类：生态绑定派——文心、混元、豆包（字节独立作战，未入擂台）。它们把预测能力嵌入已有的搜索、社交、内容生态里，试图让世界杯变成自己产品的“流量发动机”。

第三类：沉默应考派——阶跃星辰、MiniMax、智谱清言、商汤、讯飞、中移。它们没有独立营销页，没有巨额奖池，就是安安静静地在同一个擂台上交卷。

而正是这些“沉默应考派”里，藏了这篇文章最想讲的故事。

Part 2：成绩单——15场之后，谁在裸泳？

前15场小组赛，12个模型的战绩如下：

排名	模型	命中/15	命中率	一句话画像
🥇	百度文心一言	7	46.7%	目前唯一跑赢“半数”的，靠的是几场冷门里独中
🥈	联想天禧AI	6	40.0%	搭台者自身模型，中规中矩
🥈	中移九天	6	40.0%	稳健保守派
🥈	腾讯混元	6	40.0%	曾精准命中加拿大1-1波黑平局
🥈	MiniMax	6	40.0%	唯一押中韩国vs捷克胜负且始终不改预测
—	DeepSeek	5	33.3%	逻辑派，德国7:1方向对了但8:0过分了
—	通义千问	5	33.3%	揭幕战2:0细节最亮眼，但整体没拉开
—	智谱清言	5	33.3%	跟共识最紧的一档
—	阶跃星辰	5	33.3%	命中数中段，但信息量最反常
—	商汤小浣熊	5	33.3%	不拉胯也不突出
—	Kimi	4	26.7%	营销声量最大，战绩暂垫底
—	讯飞星火	4	26.7%	同为暂列尾部