北大等研究揭示:AI答题正确背后存在可被捕捉的作弊行为漏洞
这项由北京大学与上海人工智能实验室联合开展的研究,于2026年5月发表在预印本平台arXiv上,论文编号为arXiv:2605.12882v1。有兴趣深入了解的读者可以通过该编号查询完整论文,或访问项目代码库获取更多技术细节。
**一个让人哭笑不得的现象**
假设你在考试中碰到一道历史题,问某位将军在哪场战役中牺牲。你给出了正确答案,但你的论据写的却是另一场完全不相关的战役。这种情况下,改卷老师应该给你打满分吗?
大多数人会说:当然不行。答对了,但答的理由是错的,这本质上是一种"蒙对了"的行为,在需要严格论证的场合——比如法庭陈词、医学诊断、金融审计——这种"正确的错误"极其危险。
然而,目前几乎所有对人工智能文档理解能力的测试,都只检查最终答案是否正确,完全不管AI给出的依据是否站得住脚。这就像只看学生的最终答案,从不检查解题过程一样。
来自北京大学和上海人工智能实验室的研究团队发现了这个巨大的漏洞,并专门为此设计了一套名为CiteVQA的测试基准,用来同时检验AI的"答案"和"证据"两部分——只有两者都对,才算真正答对了。
**一、AI在读文件这件事上到底有多靠谱**
现代AI处理文档的能力确实令人印象深刻。给它一份几十页的合同、一份财务报告、一份医学文献,它能快速提取关键信息、回答复杂问题,速度和效率远超普通人工翻阅。
但这背后藏着一个鲜为人知的问题:AI到底是真的"读懂了"文件,还是凭借自己预训练阶段积累的海量知识"猜"出了答案?
这两者的区别至关重要。以一份企业财报为例,AI也许能正确说出"某公司2023年净利润为50亿元",但这个数字究竟来自财报的第几页、第几张表格、哪个具体段落?AI能准确指出来吗?还是它只是从自己的知识库里"想起来"这个数字,然后随便指了一个看起来像数字的区域充数?
研究团队将这种现象命名为"归因幻觉"——AI给出了正确的答案,却把证据指向了错误的地方。这就像一个目击证人在庭审上说出了正确的嫌疑人姓名,但他提供的不在场证明却完全对不上号。答案巧合地正确了,但整个推理链条是断裂的。
在法律、金融、医疗这类高风险领域,每一个结论都必须能追溯到具体的原始来源。如果AI无法精确定位自己的证据出处,那它本质上就是一个不透明的黑盒,用起来是有相当隐患的。
**二、CiteVQA的设计理念:答案和证据必须一起对**
为了真正测量AI的文档理解可信度,研究团队构建了CiteVQA这套测试基准。它的核心理念极为直接:不仅要求AI给出答案,还要求AI同时提供一个精确的"证据坐标"——具体是文档的哪一页、哪个位置、哪个元素(段落、表格或图片)支持了它的回答。
整个基准包含1897个问题,来自711份PDF文档,横跨法律、金融、医疗、学术科技、工业制造、教育和出版媒体共七个领域,支持中英两种语言,每份文档平均长达40.6页。这些文档不是单页的简单材料,而是真实世界中那种需要翻好几十页才能找到答案的长篇文件。
在问题类型上,研究团队设计了四种不同难度的题型。最常见的是"复杂综合"类问题,占比约44%,需要跨多个段落或章节综合推理;其次是"事实检索"类,约26%,需要找到特定数字或描述;还有"多模态解析"类,约19%,需要理解表格、图片或图表;以及"定量推理"类,约11%,需要在定位证据后进行计算。
更值得关注的是证据的构成:在所有证据元素中,约70%来自文字段落,约22%来自表格,约7%来自图片,另有少量来自公式。这意味着AI不仅要能读文字,还要能理解图表和视觉内容,然后精确定位这些内容在文档中的具体位置。平均每道题需要2.57个证据元素,最多的一道题甚至需要10个不同位置的证据共同支撑。
**三、如何判断AI"证据找对了没有"**
测试基准的评分体系是研究的核心创新之一。研究团队设计了一套多维度的打分机制,用来区分"答对了但证据错了"和"答对了且证据也对了"这两种本质不同的情况。
评分体系中最重要的指标叫做"严格归因准确率",英文缩写SAA。这个指标只有在两个条件同时满足时才给分:第一,AI的文字回答必须正确;第二,AI指出的证据区域必须真的和答案有关。就像一道数学题,必须答案和过程都对,才能得满分。
具体来说,判断证据是否正确有两条路径:一是看AI标记的边界框(也就是AI在文档页面上画出的"证据区域")是否和正确证据有足够的重叠,用一个叫"交并比"的技术指标衡量,简单理解就是AI圈出的区域和正确区域的重叠程度必须超过50%;二是让另一个AI充当"裁判",评估AI标出的区域和最终答案之间的逻辑关联程度,满分5分,4分及以上才算合格。
为了确定哪些证据是"关键的",研究团队还设计了一个叫"遮挡消融"的验证方法——把文档中的每个元素依次遮住,然后问AI能不能还答出正确答案。如果遮住某个元素后AI答错了,那这个元素就被标记为"关键证据"。这个方法的逻辑很朴素:真正有用的证据,遮掉之后就会让答案变差;无关紧要的内容,遮不遮都无所谓。
除了SAA之外,评分体系还包含几个辅助指标:"召回率"衡量AI是否找到了所有关键证据;"相关度"衡量AI找到的证据和答案是否有逻辑联系;"答案准确率"单独衡量文字答案的质量;以及页面级别的召回率、精确率和F1分数,用于更细粒度地分析AI的文档导航能力。
整套标注数据是由自动化流程生成后再经人工专家抽检验证的。研究人员还专门找了几位博士级专家对200个随机样本进行人工评分,并将人工评分与两个AI裁判的评分进行统计比较,结果显示人工评分和AI评分之间没有显著差异,证明这套自动评分机制是可靠的。
**四、这套测试题是怎么"造"出来的**
构建一个同时包含问题、答案和精确证据坐标的高质量数据集,是整个研究中技术难度最高的部分之一。人工标注成本极高且容易出现不一致,所以研究团队开发了一套高度自动化的流水线。
整个流程分四个主要阶段,像是一条精密的工厂生产线。第一个阶段是原料筛选。研究团队从超过1亿份来自Common Crawl公共网络档案的PDF文档中出发,经过分层抽样和两轮AI粗筛,最终精选出711份覆盖七大领域、质量过关的文档作为原材料。
第二个阶段是证据包提取。研究团队借助MinerU文档解析工具,将每份PDF拆解为包含精确坐标的文字块、表格、图片等元素。然后让一个高性能AI充当"智能代理",像侦探一样在这些元素之间穿梭,把散落在不同页面甚至不同文档中的相关证据串联起来,形成一个完整的"证据包"。这个步骤的灵感来自专门处理复杂信息检索任务的框架,确保跨页、跨文档的证据都能被完整捕获。
第三个阶段是问题生成。为了让问题更接近真实业务场景,研究团队从多个开源数据集中收集了真实问题,涵盖学术科技(来自SPIQA数据集)、医疗健康(来自MedQA和PubMedQA)、商业金融(来自ViDoRe V3)、工业建筑(来自MaintNorm和ViDoRe V3)以及政府法律(来自PolicyBench)等领域。这些真实问题被提炼成抽象的问题模板,再由AI根据具体的证据包内容填充生成新的具体问题。这种"模板驱动"的方式既保证了问题的真实性,又能大规模批量生成。
第四个阶段是质量控制,也是最关键的"把关"环节。首先是可回答性验证:把候选问题和对应的证据截图一起交给强力AI,如果AI仅凭证据截图就能答对,这道题才保留;答不对的题直接淘汰。然后是去除"常识题":让AI在完全没有任何文档的情况下回答问题,能答对的题说明AI靠自己的知识就能答,不需要查文档,这种题对测试文档理解能力没有意义,全部剔除。最后才是前面提到的"遮挡消融"实验,精确识别哪些证据是真正关键的。
此外,为了避免文档间的孤立性影响问题质量,研究团队还设计了"多文档链接"机制:通过向量相似度检索找到语义相关的文档,再用AI进行章节级别的精细对比,将孤立文档组合成逻辑关联的文档组,从而生成需要跨文档综合推理的复杂问题。最终的1897个问题中,有52%来自单一文档,约26%来自多文档但只有一份文档含有答案,另有约22%需要从多份文档中综合提取证据。
**五、测试结果揭示了什么:一道横亘在AI面前的沟壑**
研究团队用这套基准测试了20个当前最先进的AI模型,结果令人深思。
先看最顶尖的闭源商业模型。Gemini-3.1-Pro-Preview表现最佳,综合SAA得分为76.0分(满分100)。这个数字乍一看还不错,但换个角度理解:即使是目前最强的AI,仍有约1/4的情况下,要么答错了,要么答对了但证据指向了错误位置。GPT-5.4的单纯文字答案准确率高达87.1,是所有测试模型中最高的,但它的SAA仅为59.0——说明有相当大比例的问题虽然答案写对了,但证据找错了,这正是"归因幻觉"的典型表现。Gemini系列模型在SAA上反而优于GPT-5.4,研究人员推测Gemini可能在原生引用对齐方面做了更多优化。
开源模型与闭源模型之间存在一道明显的断崖。最强的开源模型Qwen3-VL-235B的SAA仅为22.5,连最弱闭源模型的水平都难以达到。小型开源模型的表现更加惨淡,Qwen3-VL-8B的SAA只有7.5,意味着它在约92.5%的情况下,要么答错了要么证据找错了,几乎没有可靠性可言。
从证据定位能力来看,问题甚至比SAA数字显示的更严峻。即使使用宽松的"重叠超过50%就算对"标准,大多数模型依然很难准确定位关键证据区域。更令人担忧的是,很多模型连正确的页面都找不到——Gemini系列的页面级召回率超过87%,表现最好;但GPT-5.2只有69.3%,Qwen3-VL-235B只有57.8%,意味着它们有相当高的比例连答案在哪一页都搞错了。
在不同文档场景下,性能差距也很明显。单文档任务相对最简单,但转到"多文档且需要从多份文档综合证据"的场景后,几乎所有模型的SAA都出现了显著下滑。以Gemini-3.1-Pro-Preview为例,其在单文档场景的证据召回率是68.9,而在多文档多证据场景下跌至55.3,说明跨文档推理和证据定位是当前AI的一个重大短板。
按问题类型来看,AI在"定量推理"类问题上表现相对最好(Gemini-3.1-Pro-Preview达到82.6),因为数字计算本身有客观的逻辑可循,证据和答案的对应关系比较清晰。而"多模态解析"类问题则是最大的难关——这类题要求AI根据视觉描述(比如"找到有绿色斜体数字的那个表格")定位特定文档元素,再从中提取答案,几乎所有模型在这类题上的表现都大幅落后。
按文档领域来看,学术科技类文档的标准格式反而有助于AI定位证据,Gemini-3.1-Pro-Preview在该领域的SAA达到了85.0。而出版媒体类文档(如报纸、杂志)因排版复杂、图文交错,最高SAA只有63.3,是所有领域中最低的。
**六、一个关键发现:证据找得好,答案往往也更准**
研究团队不仅记录了"归因幻觉"现象,还进一步探索了证据质量和答案质量之间的深层关系,结论出人意料地有启发性。
通过将不同模型的"证据质量"(取召回率和相关度的最大值)和"答案准确率"绘制在同一张图上,研究团队发现了一个有趣的趋势:在越过"归因幻觉区"(即证据质量0到30分之间的低分区域)之后,随着模型找到证据的能力越来越强,它的答案准确率也倾向于随之提升。
这个发现的深层含义是:精确的证据定位可能不只是事后的"解释说明",而是真正帮助AI回答正确的功能性支撑。换句话说,能准确找到证据的AI,不只是"更透明",而且可能"更正确"。
为了进一步验证这一点,研究团队做了一个控制实验:在测试时把候选文档范围缩小,让AI只需要在正确页面或正确文档中寻找答案,而不是在整份几十页的文件里大海捞针。结果显示,这种"缩小搜索范围"的操作能带来相当可观的答案准确率提升。比如对Qwen3-VL-8B这个小模型来说,把搜索范围从整个多文档集缩小到唯一包含答案的那份文档后,其答案准确率从53.3跳升到了66.7,提升了13.4个百分点。这表明,AI答不好的一个重要瓶颈,其实在于它找不到正确的证据位置,而不只是缺乏推理能力。
**七、这项研究意味着什么**
说到底,CiteVQA揭示的问题不只是一个技术指标上的缺口,而是关乎AI在高风险场景中是否真的可以信任。
当一个AI系统在医疗诊断、法律咨询或金融审计中给出建议时,我们不仅需要知道它的结论是什么,更需要知道这个结论是从哪里来的,能不能被人工核查。如果AI的推理路径是不透明的,如果它的证据指向是随机的,那么即使答案碰巧正确,也无法建立真正的信任。
归根结底,这项研究指出了AI在向真正可靠的文档智能工具迈进时,还需要翻越的一道重要关口:不只是"能答对",还要"能说清楚为什么对",并且能让人核实这个"为什么"。目前最强的闭源AI在这方面的SAA只有76分,最强开源AI只有22.5分,距离真正可用于高风险决策的水准,还有相当大的提升空间。
对于普通用户来说,这意味着在涉及重要决策时,即便AI给出了看起来正确且有来源的答案,也值得花时间核对它指向的那个"来源"是否真的支持它的结论,而不是直接接受。这套测试工具的公开,也有望推动AI开发者们更重视模型的可解释性和证据追溯能力,朝着更负责任的方向前进。
---
Q&A
Q1:什么是"归因幻觉"?
A:归因幻觉指的是AI给出了正确的文字答案,但它引用的证据来源却是错误的——也就是说,AI答对了但找的依据不对。这种情况在需要严格溯源的法律、医疗、金融场景中极为危险,因为结论看似有据可查,实则证据链断裂。CiteVQA基准就是专门为发现和衡量这种现象而设计的。
Q2:CiteVQA测试和普通AI文档问答测试有什么区别?
A:普通文档问答测试只看AI最终给出的答案对不对,不管AI的推理过程。CiteVQA不同,它要求AI同时给出精确的"证据坐标",即指出答案来自文档的哪一页、哪个具体区域,只有答案和证据都正确才算得分。这种评测方式用"严格归因准确率"(SAA)来衡量,能真实反映AI文档理解的可靠程度。
Q3:目前哪种AI在CiteVQA上表现最好?
A:在CiteVQA测试中,闭源商业模型Gemini-3.1-Pro-Preview表现最佳,综合SAA得分为76.0分(满分100)。开源模型中最强的是Qwen3-VL-235B,但SAA只有22.5分,远低于顶级闭源模型。小型开源模型表现更差,部分模型SAA低于10分,意味着可靠性极低。
