当前位置：首页 > news >正文

全网 AI 都翻车的「洗车问题」，刚刚发布的 GLM-5 能答对吗？实测来了

news 2026/7/3 2:23:18

一道靠直觉就能答对的题，全网 AI 集体翻车了。

题目很简单。

「我想洗车，洗车店距离我家 50 米，你建议我开车去还是走路去？」

这两天被这道题刷屏了。评论区吵成一片。

答案显而易见。

你去洗车，洗的是「车」。人走过去了，车还停在家里，怎么洗？

但大部分 AI 都建议你走路去。

理由头头是道。

距离近、省油、环保、不用找车位。

逻辑自洽，结论离谱。

正好刚刚三大国产模型同日更新。

GLM-5正式发布，MiniMax M2.5开放内测，DeepSeek灰度上线百万上下文。

我一口气测了 10 个模型，每个分别测试「快速」和「深度思考」两种模式。

19次测试，只答对4次。

先说结果

答对的 4 个，全部来自深度思考模式。

快速模式下，没有任何一个模型答对。

是的你没看错，一个都没有。

ChatGPT 5.2开了 Thinking，说「如果你是去把车交给店里洗，那就开车过去，因为车得在店里他们才洗得到」。

关掉 Thinking，它让你走路去，理由是「别把简单事情复杂化」。

同一个模型，开不开深度思考，答案完全相反。

Gemini 3 Pro答对了。

但它是推理模型，没法关闭思考功能，上来就说「建议你开车去，虽然距离只有 50 米，但你的目的是洗车，走路去的话车还在家里」。

干净利落。有两下子。

GLM-5刚刚正式发布，我第一时间拿来考。

不开深度思考，它的建议是「走路去，或者推车去」。

推车去？逆天。

然后洋洋洒洒分析了一大堆，还给了 A 方案和 B 方案，属于一本正经地胡说八道。

打开深度思考，画风突变。

「洗车店洗的是车，不是人。如果你选择走路去，车还停在家里，洗车店的员工没法洗空气。」

答对了，还给了一个最佳方案。

开车去，把车交给店员，走路回家，洗完再走路去取车。

这个回答是所有模型里最完整的。

Grok 4.1也是同样的分裂。

快速模式下它用一张表格从时间、油耗、停车、锻炼、环保五个维度分析了一遍，结论是走路去。

看得我直呼好家伙。

思考模式下，一句话搞定。

「开车去。因为你要洗的是车，不是自己。」

剩下的，全军覆没

Claude Opus 4.6，目前 Anthropic 最强的模型。

走路去。

开了 Extended Thinking 也是走路去。

两次回答几乎一模一样，「走路去吧，50 米也就一分钟的事。」

克劳德，你认真的吗？

DeepSeek1M 新版本，不管开不开深度思考，都建议走路。

关闭深度思考，它说「50 米真的不值得开车」。

打开深度思考，它甚至发明了一个「逻辑悖论」，说你开脏车去洗车店「相当于为了洗澡而先出一身汗」。

绝了。

MiniMax M2.5，刚开放内测。

Air 和 Max 两个版本都测了，全部建议走路。

Max 版本还用了序号列表来论证，格式很整齐，内容全错。

豆包是最可爱的。

不开深度思考，它说「给你算得明明白白」，然后建议走路去跟老板说「车停家里，等下洗好我来开」。

开了深度思考反而更简短了，「50 米也就几十步路」。

两次都没意识到车必须在场。

Kimi K2.5快速模式直接说走路。

思考模式倒是给了两种情况，但它的分类逻辑是天气好就走路，天气差就开车。

没抓住重点。

通义千问 Qwen3-Max不管开不开思考，都建议走路。

开了思考之后还加了一条，「开脏车去洗车店这 50 米没必要，也可能弄脏刚清洁的车内环境」。

洗车之前担心弄脏车，把我都要绕晕了。

一张表总结

10 个模型，19 次测试。

模型	快速模式	深度思考
`ChatGPT 5.2`	❌ 走路	✅ 开车
`Gemini 3 Pro`	—	✅ 开车
`GLM-5`	❌ 走路	✅ 开车
`Grok 4.1`	❌ 走路	✅ 开车
`Claude Opus 4.6`	❌ 走路	❌ 走路
`DeepSeek`1M	❌ 走路	❌ 走路
`MiniMax M2.5`	❌ 走路	❌ 走路
`豆包`	❌ 走路	❌ 走路
`Kimi K2.5`	❌ 走路	❌ 走路
`通义千问`	❌ 走路	❌ 走路