当前位置: 首页 > news >正文

GPT-5靠“蒙”拿第一?斯坦福揭秘多模态AI的真面目

哈喽,我是黑棠。

你有没有想过,当你把一张照片发给AI让它帮你分析的时候…它可能根本没有看这张图?

斯坦福大学(含李飞飞团队)刚发布了一篇论文,名叫MIRAGE(幻景)。他们做了一个简单的实验:把6大主流视觉基准测试的图片全部悄悄删掉,只保留问题文字,然后让GPT-5、Gemini、Claude继续作答。

结果这些模型还是答对了70-80%的问题。

没有图片,AI依然"看见"了图片

研究者把图片删掉后,没有告诉模型"图片不见了",只是悄悄移除了视觉输入。
结果模型不但没注意到,还开始描述那张根本不存在的图片。它们详细叙述图像特征,给出推理过程,表现得和真的在看图一模一样。研究者把这种现象叫做"幻景效应"(mirage effect)。

幻觉(hallucination)是对真实输入的错误描述;而幻景(mirage)是在没有任何输入的情况下,构造出一个完整的虚假现实,并自信地在此基础上推理。

这不是普通的AI幻觉,而是更深层的失控——模型连"我没看到图"这件事本身都没意识到。研究测试了GPT-5.1、Gemini-3-Pro、Gemini-2.5-Pro、Claude Opus 4.5,在没有图片的情况下,所有模型描述不存在图像的概率超过60%,部分场景接近100%。



一个没看过图片的小模型?打败了所有大模型

研究团队为了搞清楚这个"幻景"到底有多深,做了一个极端实验。

他们用一个仅30亿参数的纯文本模型(没有任何视觉能力),在全球最大的胸部X光问答数据集(ReXVQA,共69.6万道题)上删掉所有图片再做训练——这个模型从头到尾没有见过任何一张X光片。

然后把它放到排行榜上。

它排名第一。打败了GPT-5,打败了Gemini,打败了Claude,还比真实放射科医生的平均水平高出超过10%

更诡异的是:它生成的"视觉分析"推理过程,和真人医生写的几乎无法区分。

视觉AI排行榜,有四分之三是假的…

斯坦福团队由此开发了一套清洗方法B-Clean:先让模型在没有图片的情况下作答,凡是能答对的题,就视为"不依赖视觉",将其从基准测试里剔除。

清洗结果触目惊心:

  • MMMU-Pro(学术视觉理解):删去75.3%的题目
  • MedXpertQA-MM(医疗专家问答):删去74.3%的题目
  • MicroVQA(显微镜图像问答):删去77.0%的题目

那些让你相信"AI视觉能力突飞猛进"的排行榜,四分之三靠的是语言统计规律,而不是真正看图。清洗后,部分模型的排名还发生了变化——原来的第一,不一定还是第一。

为什么AI会闭着眼睛看图?

研究者认为,这和训练方式有关。
多模态模型通常是在海量网络数据上预训练的大语言模型基础上构建的,语言推理能力极强,强到足以从问题的文字本身猜出正确答案。训练时,模型面对"图片+问题+答案"被激励输出正确结果——如果只靠文字统计规律就能做到,模型可能从一开始就走了捷径,没有真正学会依赖图像。

有一个细节尤其关键:当你明确告诉模型"图片不在了,你来猜",它的准确率反而会下降

这说明"幻景模式"调用了比"猜测模式"更深层的能力,包括对数据集隐藏结构、题目统计规律乃至训练数据泄漏的利用——这些靠人工根本检测不出来。
而当AI"知道"自己在猜,它反而变保守了。


你平时有没有把体检报告、医学影像、或者某张重要的图片发给AI分析过?

参考链接:
[1] MIRAGE: The Illusion of Visual Understanding (https://arxiv.org/abs/2603.21687)

http://www.jsqmd.com/news/605030/

相关文章:

  • 腾讯云ICP备案:变更主体备案准备
  • 别让Liquid Glass拖慢你的App!给uni-app开发者的iOS 26动画优化清单(含代码示例)
  • Flutter鸿蒙应用开发:数据分享功能实现
  • 【复现】水下航行器(NMPC)非线性模型预测控制分布式轨迹跟踪研究(Matlab代码实现)
  • 算法初探:机器学习基础与经典监督学习算法解析
  • 科技金融数智底座技术架构及优秀厂商
  • 32-字体反爬
  • 避坑!这些毕设太好抄了,3000+毕设案例推荐第1033期
  • OpenClaw多模态研究助手:千问3.5-35B-A3B-FP8实现论文图表解析与笔记生成
  • OpenClaw飞书机器人集成:Kimi-VL-A3B-Thinking多模态问答助手
  • MGC3130电场式三维手势控制器原理与工程实践
  • 多模态扩展:OpenClaw对接Qwen3-14B镜像实现图文混合处理
  • 平板间二维稳态对流传热方程的软物理信息神经网络实现研究(Python代码实现)
  • OpenClaw学习路径:Qwen3.5-9B从入门到精通
  • OpenClaw+千问3.5-9B会议纪要:语音转文字自动生成重点
  • 小程序如何帮助企业降低获客成本(核心结论)
  • 什么是功率因数 PF?(计算,仿真,验证)
  • Neovim文本编辑器
  • 奇奇怪怪的网站
  • 5个步骤掌握APK-Installer:高效实现Windows安卓应用安装
  • 如何比较不同注册商的域名注册价格_如何查看域名的SEO数据和排名信息
  • 西安保姆服务哪家靠谱
  • Arduino轻量LED节奏控制库:基于位图的同步指示器设计
  • 2026年防雷竣工品牌选型指南:从合规到落地的全维度解析 - 优质品牌商家
  • 光耦电路设计核心:CTR 传输比详解 + 工程实践全要点
  • OpenClaw一键部署教程分享
  • 2025届学术党必备的六大降重复率助手推荐
  • OpenEuler22.03手动编译安装PHP8.3全流程解析
  • 数智赋能订货全链路,千匠网络争做B2B订货平台开发标杆服务商
  • Qt——计算器示例(用户界面与业务逻辑的分离)