当前位置：首页 > news >正文

Upstage AI发现了生物医学大模型最隐蔽的致命缺陷

news 2026/6/30 1:39:11

这项由韩国AI公司Upstage AI开展的研究，以预印本形式发布于2026年6月20日，论文编号为arXiv:2606.21959，会议归属为AAAI 2026，感兴趣的读者可通过该编号查询完整原文。

一篇医学文章，末尾附着一串规范的文献引用。你点开那个链接，页面正常加载，论文标题、摘要、作者一应俱全——但如果你真的耐心读完那篇被引用的论文，你会发现它根本没提到你刚才读的那个医学主张。这就像你朋友向你推荐了一本书作为自己论点的依据，那本书真实存在，你在图书馆也找到了，但翻遍全书，里面压根没有你朋友说的那句话。

这正是Upstage AI的这项研究揭示的核心问题，也是整篇论文最令人不安的发现之一。

**一、为什么一个"能找到"的引用，可能比"根本不存在"的引用更危险**

当我们把AI模型接入医学文献数据库，让它自主检索、自主回答问题、自主附上参考文献时，这类系统通常被称为"智能代理"（agentic model，即能主动调用工具、多轮搜索、自主决策的AI系统）。这类系统越来越多地被用于辅助生物医学研究，帮助科研人员快速检索文献、梳理研究现状。

研究者最初担心的问题是：AI会不会"编造"根本不存在的文献编号？这种担忧有充分的前例——有研究发现，在数学写作领域，AI生成的参考文献中有高达约54%是凭空捏造的。

然而Upstage AI的研究者做了一件事：他们真正去核查AI给出的每一条文献引用，不仅看引用是否存在，还看引用的内容是否真的支持AI做出的那个具体断言。结果出乎意料。

在审查的4863条引用中，存在编号不存在、查不到对应论文的情况——即"彻底捏造"的引用——仅占0.7%。换句话说，AI几乎从不凭空发明一个假链接。这个数字乍看是好消息。

但麻烦藏在真实存在的引用里。在那些能正常查到的引用中，大约15.9%的引用指向的论文根本不支持AI做出的那个医学断言。引用存在，论文真实，但内容对不上。研究者用了一个专门的词来描述这种现象：「错误论文引用」（wrong-paper citation）。

为什么这比直接捏造更危险？因为读者的心理会自然地放松警惕。当你点开一个链接发现页面是空的，你立刻知道有问题。但当你点开一个链接，看到一篇排版整洁、作者权威、发表于知名期刊的真实论文时，你很可能默认那篇论文就是AI引用它的原因——你不会去逐字核查论文内容是否真的对应AI的那个断言。这是一种"可信外衣"，而错误就藏在这件衣服里面。

**二、OpenBioRQ是什么，它要解决什么根本性的问题**

为了系统研究这个问题，研究者构建了一个全新的测试基准，命名为OpenBioRQ，包含12553道生物医学研究问题，横跨12个医学子领域。

这个基准最核心的特点，是它的问题全部是「真正悬而未决的开放性问题」——没有已知的标准答案。

这个设计选择需要解释清楚，因为它是整项研究的支点所在。

现有的医学AI测试基准，比如MedQA、PubMedQA、BioASQ等，用的都是有标准答案的题目，就像考试卷一样，每道题都有一个正确选项。这种设计本身就给AI留了一个"作弊"的空间：AI可以从自己的训练数据里直接背诵那个标准答案，顺带附上标准答案原本引用的那篇论文编号，完美地通过测试——而不需要真正理解这个问题的文献，也不需要验证它引用的论文是否真的支持它的回答。

当问题本身就没有答案时，这条捷径就彻底堵死了。AI无法"背答案"，也无法通过引用已知的"标准文献"来蒙混过关。它必须真正去检索、真正去推理、真正承认自己不确定——或者，暴露出自己其实在蒙。

研究者将OpenBioRQ的位置描述为一个此前从未被填补的空白：它位于"有工具调用能力"与"问题真正开放"这两个维度的交叉点。之前的测试要么有答案但没有工具调用，要么有工具调用但有答案——只有OpenBioRQ同时满足"代理式工具调用"和"真正的开放问题"这两个条件。

**三、12553道题是怎么来的，"真正开放"是怎么验证的**

OpenBioRQ的问题来自四个不同的来源渠道，研究者将它们称为四条"轨道"。

第一条轨道来自PubMed（全球最大医学文献数据库）、临床试验注册库和arXiv预印本，共6648道题。这些题目之所以被认定为"开放性问题"，是因为研究者用检索工具真正去查过后续文献，没有找到能解答该问题的已发表成果。

第二条轨道来自英国詹姆斯·林德联盟（James Lind Alliance）的优先研究问题合作项目，以及英国国家卫生与临床技术优化研究所（NICE）发布的研究建议，共5905道题。这些机构专门负责整理"医学上尚未解决、最需要研究的问题"，相当于由权威专家机构背书的"悬案清单"。

第三条轨道收集了世卫组织、美国国家科学院等机构发布的研究优先级文件，以及德尔菲专家共识文档，共525道题。第四条轨道来自Cochrane（国际循证医学权威机构）的研究空白文献，共483道题。

从原始文档到最终题库，中间经过了一道精心设计的"烹饪"流程。首先，AI抓取这些文档并从中提取出研究者提出的具体开放性问题——同一篇文献可以提取出多个不同的问题。然后，另一个AI对提取出的问题进行改写，使每道题可以独立阅读、不依赖原文背景。接下来，对相似问题去重，避免同一个问题以不同措辞重复出现。最后，对每道题生成评分标准（更多细节见下文）。

其中最关键的一步，是"开放性"的验证。研究者发现，仅仅让AI根据问题的原始来源文献来判断"这个问题是否已经被解答"，会产生严重的确认偏差——AI几乎把所有问题都标记为"开放"，从不给出"已解决"或"不确定"的标签。

解决方案是强制使用检索工具重新判断。AI必须去搜索后续文献，必须引用找到的具体证据编号来支持自己的判断——如果找不到具体证据，就只能标注为"不确定"，而不能假设问题还开放。这个改动一下子让56.5%的问题状态发生了变化，其中有14%的问题被标注为"不确定"。

然后研究者对最核心的657道"最难"题目又做了一次专项核查，结果是：657道题中，没有一道能被判定为"已解决"。

**四、怎么定义"难"，以及为什么这个定义比人工标注更可靠**

研究者没有让人工专家去主观判断哪道题难哪道题容易，而是用了一个更客观的方法：让三个开源大模型（GLM-5.1、Qwen3.6、DeepSeek-V4）真正去回答每一道题，然后根据成绩来划分难度。

三个模型都回答失败的题，被归入"核心难题"（core set）。在优先研究问题这条轨道的525道题中，有49%的题目三个模型全部失败，45%的题目至少一个模型失败，只有6%是三个模型都能答对的"简单题"。这三个模型的平均得分分别是0.32、0.45和0.31，全部低于0.5的及格线。

这个设计的精妙之处在于：它把"难度"变成了一个可量化、可验证的属性，而不是某个专家的主观判断。而且随着AI能力提升，以前的"核心难题"可能变成"普通题"，基准的标准可以顺势更新，不会像固定的人工标注题库那样永远停留在某个时代。

但研究者也坦诚地承认了这个方法的局限：最终确定的"冰冻核心题目"是在某个温度参数为0的解码条件下选出的423道题，这个选择对解码温度非常敏感。研究者甚至在后来的稳定性测试中发现，当他们重新跑了一遍，有34.7%的边界题目改变了状态——所以这个核心题库是一个时间点的快照，而不是绝对稳定的划分。研究者在论文中非常罕见地主动撤回了自己之前一个关于"85.8%题目稳定保留"的估计，承认该数字不成立。

**五、每道题如何评分，"没有标准答案"的题目怎么打分**

这是整个研究中最有趣的技术挑战之一：没有标准答案的题，用什么标准判断回答好不好？

研究者的解决方案是为每道题生成一份专属的"核查清单"（frozen checklist），在评测开始之前就固定下来。这份清单包含5到8条具体的、可判断真假的标准，分为四种类型。

第一类叫"必须提及"（must mention）：回答中应该包含哪些关键事实、机制或方法。以"针对大脑清淋系统的疗法能否预防阿尔茨海默病"这道题为例，清单要求回答必须提到"AQP4极化"作为一个机制靶点，必须提到"睡眠增强或食欲素受体拮抗剂"作为预临床干预手段。

第二类叫"必须承认"（must acknowledge）：回答必须诚实地承认哪些不确定性或知识空白。同一道题要求回答必须承认"目前没有任何针对清淋系统的疗法进入阿尔茨海默病临床试验"，必须承认"在人体中增强清淋系统功能是否足以改变疾病进程尚不清楚"。

第三类叫"必须引用"（must ground）：回答的某些断言必须附上真实的文献支持，如具体的PMID编号、试验注册号或检索工具的结果。

第四类叫"必须避免"（must avoid）：回答中不能出现某些行为，比如对一个开放性问题给出确定性的"已证实"结论，或者编造引用，或者声称检索工具没有返回任何结果（而实际上没有去查）。

每个标准都有一个重要性权重（1、2或3分）。评分时，评判AI给每条标准打分：满足得1分，部分满足得0.5分，未满足得0分。最终得分是加权平均值，落在0到1之间。一道题得分不低于0.5，就算"解决"了这道题。

这份清单在评测开始前就完全固定，不会随着评测模型的不同而改变。这个设计的好处是：不同的评判AI面对的是相同的具体标准，而不是各自按照自己的理解打"感觉分"。研究者测试发现，用这种方式，两个不同AI评判者之间的一致性（斯皮尔曼相关系数）从0.35跃升到了0.82——这是一个非常显著的改进，意味着评分结果大大减少了对评判者本身的依赖。

**六、智能代理的评测系统如何运作**

在实际评测中，每个AI被给予一道题和十种生物医学工具的访问权限，包括PubMed文献检索、ClinicalTrials.gov临床试验库、OpenFDA药品数据库、UniProt蛋白质数据库、ChEMBL化学数据库、PubChem化合物数据库、KEGG代谢通路数据库等。AI最多可以进行十轮"查找—思考—再查找"的循环，然后给出最终回答。

每次评测都完整记录：AI的最终回答、它调用了哪些工具、每次调用的参数、引用了哪些文献编号、整个过程花了多少时间和计算资源。这些记录既用于评分，也用于研究AI的行为模式。

**七、三个开源模型的行为画像：它们根本不一样**

在覆盖1969道题的较宽泛测试集上，研究者观察了三个开源模型在行为上的巨大差异。

DeepSeek-V4几乎从不"拒绝回答"——它的不回答率只有0.8%。但它却是三个模型里最常放弃使用工具的：有31.3%的回答根本没有调用任何检索工具，全靠AI自己脑子里的知识作答。而且它是引用率最高的，有38.5%的回答附上了文献编号。

GLM-5.1正好相反。它调用工具最频繁，平均每道题发起12.6次工具调用。但它的不回答率高达26.2%——将近四分之一的题目它干脆选择不作答。它的引用率只有3.9%，是三个模型里最低的。

Qwen3.6介于两者之间，但表现出了一种独特的稳定性，在后续更难的题目上展现出来（见下文）。

这三个模型在引用率上相差约10倍，在工具调用行为上的差异也极为显著。但更有意思的事情发生在当题目变得更难的时候。

**八、"代理崩溃"：当题目最难时，AI反而最不用工具**

在525道优先研究问题的专项测试中，一个令人困惑的现象浮现出来：随着题目变难，GLM-5.1和DeepSeek-V4的工具调用率急剧下降。

GLM-5.1的"放弃回答"比例从宽泛测试中的26.2%跳升到69%，零工具调用率从20.8%跳升到65%。DeepSeek-V4的放弃率则从0.8%跳升到62%，零工具调用率也达到了62%。这两个模型在最需要查资料的时候，反而最多地选择了直接从记忆里背答案——或者干脆不答了。

Qwen3.6却截然不同：在更难的题目上，它的零工具调用率保持在22%左右，基本没有变化。

研究者将这种现象命名为"代理崩溃"（agentic collapse）：智能代理在困难任务面前放弃使用它本应使用的工具，退化成一个普通的问答模型，甚至退化成一个沉默的拒答机器。

更进一步，研究者做了一个"封锁工具"的对比实验：把GLM-5.1的所有工具访问权限全部切断，看它的得分会不会大幅下降。结果令人意外：封锁工具后GLM-5.1的得分反而略微上升（从26.6%上升到30.8%），两个数字之间的误差区间还有重叠，统计上无法区分。也就是说，对GLM-5.1而言，工具访问权限没有带来任何可测量的帮助。

即使是表现最好的GPT-5.5，工具封锁实验也显示有工具（59.6%）和没有工具（55.6%）的得分差异很小——远小于人们对"能主动检索文献的AI"的预期增益。

**九、现有医学AI测试已经失去了区分能力**

研究者还做了一个对比，把OpenBioRQ上的测试结果和传统医学AI测试（MedQA-USMLE执照考试题）的结果放在一起比较。

在传统MedQA测试上，六个开源模型的得分挤在89.9%到93.8%之间，只有3.9个百分点的差距。这意味着这类考试已经基本上无法区分不同模型的能力高低——它们全都及格，全都接近满分，差别可以忽略不计。

在OpenBioRQ的核心难题上，同样这六个模型的得分从3.5%到26.6%，差距是7.6倍。更有趣的是，在MedQA上得分最高的模型（Qwen3.5-397B，93.8分），在OpenBioRQ上反而被得分只有91.0分的GLM-5.1超越。考试成绩和真实的研究辅助能力之间的对应关系，远比我们以为的要弱。

**十、顶尖的独立模型测出了什么**

研究者将三个没有参与定义"核心难题"的独立前沿模型（Gemini-3-Pro、Opus-4.7、GPT-5.5）拿来测试这套题目，结果呈现出一个宽广的能力区间。

在完整的657道核心题上，Gemini-3-Pro解决了37.4%，Opus-4.7解决了48.6%，GPT-5.5解决了66.7%。在更严格的423道冰冻核心题上，三者分别为28.8%、37.8%和59.6%。

即便是得分最高的GPT-5.5，也有超过三分之一的核心难题无法解决。这说明这个基准既有足够的区分度（三个模型之间相差超过30个百分点），又没有被最强的模型"打穿"——测试本身仍然有意义，不会因为有一个超级强大的模型出现就立刻变成毫无挑战的签到题。

**十一、"错误引用"不是偶然事故，而是系统性问题**

回到论文最核心的发现：错误论文引用率。

研究者用两种不同系列的AI评判工具（GLM-5.1和Opus-4.7）独立核查了每一条引用，两种工具的结论高度一致（Cohen's kappa系数0.755，这是统计学中用来衡量两个评判者一致程度的指标，0.755已经属于强一致性）。主评判工具测得的错误引用率是15.9%，独立验证工具测得的是10.6%。两个数字不同，但都指向同一个结论：真实存在却不支持对应声明的引用，在所有引用中占了相当可观的比例。

从单个模型来看，DeepSeek-V4和Qwen3.6几乎从不编造引用编号（存在率分别为99.8%和99.6%），却仍然分别有13.1%和20.2%的真实引用指向了错误的论文。GLM-5.1比较特殊，它的引用存在率只有84.7%，编造了一批引用（主要是临床试验的NCT注册号），但由于它产生的引用总数最少，对整体数字的影响有限。

进一步拆分来看，临床试验注册号（NCT编号）的错误引用率比普通论文编号更高：在独立评判工具的核查下，NCT编号的错误率是20.3%，而普通PMID编号的错误率是13.0%。

研究者还做了一个统计检验，看"这条引用是否指向了错误论文"和"这条回答是否通过了'必须引用'这条评分标准"之间是否有关联。结果显示几乎没有关联（风险比为1.07，置信区间0.88-1.31）。换句话说，错误引用不是出现在明显胡说八道的回答中的，而是随机散布在看起来已经做了正经检索工作的回答里。这使得它更难被发现，也更难通过改进评分机制来间接解决。

**十二、合成的"黄金答案"也有同样的问题**

研究者还发现了一个独立的警示性结论，与主要研究发现同样重要。

在构建OpenBioRQ时，研究者为每道题生成了一份由AI合成的"参考答案"，原本设想可以用这些参考答案来帮助制定评分标准。然而在检查这些AI合成参考答案的引用时，他们发现了令人不安的数字：这些参考答案引用的PMID中，几乎100%都能正常查到。但在对这些引用进行内容核查后，约74%的引用指向的论文并不支持对应的声明。两种不同系列的评判工具（主评判工具73.5%，独立工具72.8%）得出了几乎相同的结论。

这意味着，如果将AI生成的参考答案作为"标准答案"来使用，并把那些附在参考答案上的引用当作"正确来源"，就会把大量"看起来有引用、实则指向错误论文"的错误信息当成基准传播下去。这对任何使用AI合成内容构建评测基准的项目都是一个直接的警告。正因如此，研究者在OpenBioRQ中完全不把这些参考答案用于评分，只是偶尔在制定评分标准时作为参考文本。

**十三、这项研究的局限性**

研究者在论文中花了相当篇幅诚实地列出自己研究的局限，这种透明度本身值得关注。

最重要的一点是：所有的引用核查都是由AI评判工具完成的，目前只有一次由非领域专家进行的人工抽样核查（50条引用）。在那次抽样中，人工核查者识别出了6条错误引用（12%），而AI评判工具在相同样本上识别出了18条（36%，主评判）和11条（22%，独立工具）。对清晰的错误引用（比如把一篇眼科研究引用来支持COVID疫苗疗效的说法），人工核查者和AI评判工具的判断一致。但对边界情况，分歧很大。这说明AI评判工具可能存在过度标记的问题，实际错误率可能低于15.9%——但也可能是人工核查者被"主题相关但内容不符"的论文欺骗了，实际错误率更高。这需要领域专家的系统性验证，而这是后续工作，目前尚未完成。

此外，"核心难题"的选定对随机解码参数非常敏感，论文中甚至有一个二次解码测试发现有34.7%的题目改变了状态。研究者因此取消了之前发布的一个稳定性估计数据，改为只报告确定性的冰冻核心清单，而不对其稳定性作出任何声明。

说到底，这项研究做了一件很简单但很重要的事：它不只是问"AI编造了多少假引用"，而是追问"AI给出的真实引用，有多少是挂羊头卖狗肉的"。答案并不让人放心。

当一篇医学文章的参考文献里有约六分之一的引用指向的是根本没提到那个医学主张的真实论文，而这些引用每一条都能正常打开、都看起来专业可信——这是一种比假链接更需要警惕的问题，因为假链接一眼就能看出来，而这种问题不查内容根本发现不了。

对于任何使用AI辅助文献综述、医学写作、或科研检索的人来说，这意味着验证"引用存在"是不够的，还需要去核查"引用的内容是否真的说了AI说它说的那句话"。这是一个更费力的步骤，但目前来看，跳过这一步的代价是肉眼难以察觉的错误。

OpenBioRQ作为一个研究辅助评测工具已公开发布，附带完整的题目来源记录、评分清单、工具调用回放缓存，以及423道冰冻核心题目的固定清单，供研究者复现和使用。感兴趣的读者可通过arXiv:2606.21959查阅完整论文和数据集代码链接。

---

Q&A

Q1：OpenBioRQ和MedQA这类医学考试测试有什么本质区别？

A：MedQA等传统测试用的是有标准答案的题目，AI可以通过记忆答案和对应引用来通过测试，而不需要真正检索文献。OpenBioRQ使用的是目前医学上真正没有答案的开放性问题，AI无法"背答案"，必须真正去检索和推理，这样才能暴露出错误引用、放弃使用工具等实际工作中会出现的问题。

Q2：AI的引用真的存在但内容对不上，这种问题有多严重？

A：在Upstage AI研究审查的4863条引用中，只有0.7%是根本不存在的假引用，但在存在的真实引用中，有15.9%（经独立验证工具测得为10.6%）指向的论文并不支持AI做出的那个具体医学断言。这类"真实存在但内容不符"的引用比假引用更难发现，因为读者点开链接会看到一篇真实论文，很容易默认内容是对的。

Q3：生物医学AI智能代理使用工具是否真的能提升回答质量？

A：根据OpenBioRQ的测试结果，工具访问权限的实际收益非常有限。对崩溃倾向最高的GLM-5.1，封锁所有工具后得分反而略微上升；对GPT-5.5，有工具和没有工具的得分差距也很小。特别是在最难的题目上，模型反而最频繁地放弃使用工具，直接从记忆中作答。这意味着目前的智能代理在最需要检索工具的场景下，实际上最不擅长使用它们。

查看全文

http://www.jsqmd.com/news/1092961/