维也纳工业大学与KR Labs联手出击:让AI回答学术问题不再“瞎编“
这项由奥地利维也纳工业大学(TU Wien)与KR Labs研究机构联合开展的研究,以预印本形式发布于2026年5月20日,论文编号为arXiv:2605.21102v1,归属计算机科学·计算语言学(cs.CL)领域。感兴趣的读者可通过该编号在arXiv平台检索完整原文。
一、AI助手为什么会"信口开河"?
每个用过AI聊天工具的人,或许都有过这样的体验:你问它一个关于某篇论文的问题,它给出一个听起来头头是道的答案,措辞专业、语气笃定,但当你去查证原文时,却发现它说的根本不存在,甚至和原文意思截然相反。这种现象在AI领域有个专门名称,叫做"幻觉"(hallucination)——AI语言模型就像一个博闻强记但有时会无中生有的讲故事者,当它不确定答案时,有时会编造一个听起来合理的回答,而不是老实说"我不知道"。
这个问题在学术研究场景下尤为致命。研究人员每天需要从海量文献中快速找到可靠信息,一旦AI给出错误的论文引用或错误的研究结论,可能导致整个研究方向跑偏,白白浪费大量时间和资源。
现有的一种主流解决思路叫做"检索增强生成"(RAG,Retrieval-Augmented Generation),通俗来说,就是在AI回答之前,先从数据库里找一些相关原文片段,让AI"有据可查"地回答,而不是凭空发挥。然而即便如此,AI仍然可能用自己训练时积累的"固有认知"覆盖掉检索到的真实内容,依然会产生幻觉。就像一个学生考试时明明带了参考资料,却仍然凭印象写出错误答案,完全没有看手边的正确资料。
正是为了彻底堵上这个漏洞,维也纳工业大学与KR Labs的研究团队提出了一套全新的系统——ACL-Verbatim。这套系统的核心理念极其简单粗暴却极其有效:AI的回答不允许自己造句,只能原封不动地从原文中"剪切粘贴"相关文字片段。就像考试时规定答题必须直接抄录参考资料原文,不允许用自己的话改写——这样自然就不会出现张冠李戴的情况。
二、"剪切粘贴"式问答系统是如何运作的?
ACL-Verbatim基于一个名为VerbatimRAG的开源框架构建,专门针对ACL Anthology(ACL文集)这个收录了超过12万篇计算语言学与自然语言处理领域论文的公开数据库。
整个系统的工作流程分为三个环节,环环相扣,形成一条完整的流水线。
第一个环节是数据准备。研究团队从ACL Anthology中下载并处理了114,567篇论文的PDF文件,利用一个名为Docling的开源工具将PDF转换为Markdown格式(一种带有简单排版标记的纯文本格式),便于后续处理。转换时,文字、标题、表格、图片说明等文字内容都被保留,而非文字的图表则用占位符替代。
第二个环节是文本切片与索引。论文不可能整篇都和某个问题相关,因此系统开发了一套专门针对研究论文结构的切片策略,将每篇论文按章节边界切成一段一段(称为"chunk",可以理解为"文本块"),每块大小控制在500到5000个字符之间。切片时还特别注意不把表格或代码块切断,并在每个文本块前面加上对应的章节和小节标题,帮助系统更好地判断内容归属。切好的文本块随后通过两种方式建立索引:一种是传统的全文关键词搜索,另一种是基于IBM开发的granite-embedding-english-r2模型的向量语义搜索。通过这两种方式的结合,系统能够更准确地找到与用户问题语义相关的文本块,而不仅仅是包含相同关键词的段落。
第三个环节,也是整个系统最核心的环节,叫做"抽取"(extraction)。当用户提出一个问题,系统先找到最相关的若干文本块,然后在每个文本块中进一步精确定位——到底哪几句话、哪几个词组,是真正对回答这个问题最有价值的内容?这个精确定位的过程就是"抽取",系统的最终输出不是AI自己写的一段话,而是从原文中直接截取出来的文字片段,原汁原味,一字不差。
三、怎么知道"剪切粘贴"剪得准不准?——数据集的构建
要评估抽取系统做得好不好,需要一个标准答案——也就是人工标注的数据集,明确告诉我们,对于某个问题,某段文字里哪些句子才是真正相关的。
然而,为研究论文问答任务制作这样的数据集并不容易,因为判断哪段话和某个问题相关,有时候需要相当专业的知识积累。
研究团队设计了一套半自动化的流程来解决这个难题。首先,他们从ACL Anthology中随机抽取了333篇英文论文,从每篇论文的索引文本块中随机选取一块。然后,他们借鉴了"ScIRGen"方法论(一种用于大规模生成科学问答数据集的技术框架),让AI大模型自动生成合成问题。
这个问题生成过程分为三步。第一步,让AI根据某段文字,判断这段文字能够回答哪几类问题(比如是对比类问题、因果类问题,还是目标导向类问题等,研究团队预定义了18种问题类型)。第二步,针对每种问题类型,用少样本学习的方式让AI生成一个具体问题。第三步,这是研究团队的创新扩展,把生成的完整、措辞正式的问题,进一步压缩改写为更贴近真实用户在搜索框里敲出来的简短碎片化查询语句。
以论文中的具体案例为例:某段文字来自一篇关于话题建模的论文,AI首先判断这段文字适合生成"对比类"、"因果类"和"目标导向类"三种问题,然后分别生成了完整问题,例如"矩阵分解与Dirichlet方法在处理分层话题建模时有何不同挑战?",最后压缩为搜索查询:"矩阵分解 vs Dirichlet 分层话题建模"。这个压缩后的查询语句更像真实用户的搜索行为。
通过这套流程,研究团队一共生成了906个合成查询。对每个查询,系统检索出最相关的5个文本块,总计产生4530个"查询-文本块"对。
然而,手工标注是耗时费力的,团队只有能力对前20个查询对应的100个查询-文本块对进行人工标注。所有标注工作由论文作者本人(均为NLP研究人员)完成,并进行了异议裁定。标注分为两层:第一层是相关性判断,即这个文本块对回答这个查询有没有用?第二层,对于判定为相关的文本块,标注者还需要用高亮的方式精确圈出,哪些具体文字片段是最有价值的证据。如果相关内容是一张表格或图片,则标注其说明文字。最终,47个文本块被标记为相关(包含78个精确标注的证据片段),另外53个被标记为不相关。
这个过程听起来简单,但实际操作中充满挑战。研究团队坦言,对于很多查询,仅凭NLP研究背景还不足以做出完全有把握的相关性判断。以一个具体例子说明:查询"parsing merge predicate sequence equivalence conditions"(解析合并谓词序列等价条件)检索到了4篇语法解析相关论文的章节,这4篇文章在词汇层面看起来都可能相关,但只有仔细阅读并理解算法细节,才能判断哪两篇确实包含相关内容。而这个判断,对于不是解析算法专家的人来说极为困难。这个案例还揭示了另一个有趣的现象:对于同一个查询,不同文本块中被标注为有价值的片段,其范围可以差异极大——一篇论文中,一段4700字符的算法描述只有一句话(92个字符,占比约2%)被认为是真正核心的;另一篇论文中,整个引言部分几乎全部相关,只删去了少数几句话,保留了76%的原文。
四、哪种"剪刀手"最聪明?——各类抽取模型的比拼
有了标注数据集,就可以评测不同的抽取模型了。研究团队将参赛选手分为三大门派。
第一门派是大语言模型(LLM)直接抽取。这类方法让强大的LLM直接读取问题和文本块,要求它从原文中抽取相关片段,原文禁止改动。研究团队测试了四款主流LLM:Mistral Small 2603、Nemotron-120B-A12B、GLM-5和Qwen 3.6 35B。对于其中三款,研究团队还分别测试了两种不同的提示词方案:一种是默认的精确抽取提示,要求只抽取直接回答问题的句子;另一种是"段落导向"提示,鼓励模型抽取更大范围的段落,包括前后的铺垫句和总结句。
第二门派是轻量级剪枝与高亮基线模型。这里有两个代表:Zilliz Semantic Highlight(由Zilliz公司开发的语义高亮模型,基于BGE-M3重排序器,能在文本块中标注出相关的句子或词组),以及Provence(由Nadezhda Chirkova等人开发的上下文剪枝模型,基于DeBERTa-v3架构,能将文本块中不相关的句子删除,保留相关句子)。这两个模型的参数量远小于LLM,运行速度更快,成本更低。
第三门派是研究团队自己训练的小型学生模型。这类模型是整篇论文最亮眼的主角。团队基于150M参数规模(约1.5亿参数)的ModernBERT构建了一个"词元分类器"(token classifier)。所谓词元分类器,就是对文本块中的每一个词,判断它是不是有价值的证据词——打上"是"或"否"的标签,最终把连续打上"是"的词串联起来,形成被抽取的片段。
这个小模型的训练数据是"银标签"数据,而不是昂贵的人工标注数据。银标签的生成方式是:用前面描述的查询生成流程,从ACL Anthology中采样2000篇论文,生成5892个合成查询,检索对应文本块,然后让Qwen 3.6 35B(段落导向提示)扮演"教师模型",对每个查询-文本块对生成高亮片段作为训练标签。经过过滤后,最终得到了约23235个有效的训练样本,划分为约20916条训练样本和2319条开发集样本。从中可以看出,大约有10k条正例(文本块中有相关片段)和11k条负例(文本块中没有相关片段)。研究团队还注意到,被标注为有价值的文字只占整个文本块字符数的约11.7%,即在词元层面上存在大约1:8的类别不平衡。
研究团队比较了两种骨干模型:普通的answerdotai/ModernBERT-base(预训练的掩码语言模型)和Alibaba-NLP/gte-reranker-modernbert-base(在查询-段落相关性任务上进行了后训练的交叉编码器)。训练时使用8192个词元的超长上下文窗口,确保绝大多数查询-文本块对都能在一个窗口内处理,训练5个轮次,批次大小为8,学习率为2×10^-5。
在推理阶段,团队还增加了两个小技巧:删除长度不足10个字符的片段(过滤掉过于碎片化的伪抽取),以及将间距不超过20个字符的相邻片段合并(避免把一段连续内容切成太多小碎片)。基于重排序器骨干的最终学生模型以KRLabsOrg/acl-verbatim-modernbert为名发布在Hugging Face平台。
五、评测结果揭晓:小模型赢了!
评测在100个查询-文本块对上进行,其中包括47个相关块和53个不相关块。
评测指标方面,研究团队采用了词级精确率(Precision)、词级召回率(Recall)和词级F1分数作为主要指标。词级F1的优点在于,它不要求抽取的片段边界和标注完全一致,而是在词的层面上比较重叠程度,更加宽容也更加合理。举一个直观的例子:假设正确答案是两段各45字符的文字,中间有10字符的无关间隔,如果系统把整段100字符都抽取出来了,用严格的"片段级"指标来评价,这个预测是0分(因为没有一个预测片段和标注片段完全一致);但用词级F1来评价,这个预测的精确率是0.9,召回率是1.0,要合理得多。
除词级F1外,团队还引入了两个不对称指标。"包含度"(Containment)衡量被预测的片段有多少被包含在金标准片段之内(越高说明预测越精准,不乱抽);"覆盖度"(Coverage)衡量金标准片段有多少被预测的片段覆盖到了(越高说明预测越全面,不遗漏)。这两个指标还可以设置宽松程度的阈值,例如"至少80%被包含"或"至少50%被覆盖"。
最终结果的主角是词级F1分数。基于重排序器骨干的ACL-Verbatim学生模型以53.63%的词级F1分数拿下最高分。紧随其后的是GLM-5(48.71%),然后是Mistral Small默认提示(46.94%)和Qwen段落提示(46.73%)。Zilliz Semantic Highlight得到30.07%,Provence得到34.40%,两者排名垫底。更值得关注的是,学生模型只有约1.5亿个参数,而GLM-5、Qwen 3.6 35B等LLM的参数规模动辄数百亿乃至上千亿,两者之间相差了3到4个数量级。换句话说,一个"袖珍"模型在这个任务上胜过了体量是它几百倍的庞然大物,而且推理延迟只有每条样本0.47秒,是同类LLM中最快的之一,还可以在普通CPU上运行。
从精确率和召回率的对比来看,可以看到更深层次的规律。学生模型的词级精确率高达65.43%,是所有模型中最高的;但召回率只有45.43%,低于多个LLM。与之形成对比的是段落导向提示下的Mistral Small,精确率只有34.22%,但召回率高达73.03%。这说明学生模型更加"保守谨慎"——它只在非常确信的情况下才出手抽取,所以抽出来的基本都是真正有价值的内容;而LLM(尤其是用了段落导向提示的)更倾向于"宁可多抽,不能少抽",结果抓了很多无关内容进来。
这种精确率优势在不相关文本块上的表现尤为突出。在100个样本中,有53个文本块是不相关的。学生模型在这53个中有60个未作任何预测(即选择了"弃权",不抽取任何片段),而段落导向的Mistral Small只在35个样本上弃权,意味着它在许多不相关块上也会胡乱抽取内容。
研究团队还用一个具体案例说明了这一点。对于查询"hate speech detection downsampled training examples number"(仇恨言论检测下采样训练样本数量),系统检索到的一篇论文章节详细描述了实验数据集的构成,包括各类标签的统计数字,和"仇恨言论检测"高度相关,但对"下采样"这个具体问题却完全没有涉及。学生模型、Zilliz、以及部分LLM正确地选择了不抽取任何内容;但另外四个模型则错误地抽取了一些关于合并标签或数据集规模的文字,制造了"假阳性"(false positive)。
六、不只是ACL——还有个通用版本
除了专门针对ACL Anthology优化的acl-verbatim-modernbert模型,研究团队还训练并发布了一个跨领域的通用版本,命名为KRLabsOrg/verbatim-rag-modern-bert-v2。
这个通用版本的训练数据更加多元:除了ACL Anthology的银标签数据,还加入了RAGBench(一个涵盖多个行业领域的大规模RAG问答基准)和Squeez(一个专为代码智能体工具输出剪枝设计的数据集)。
在ACL金标签测试集上,通用版本的词级F1为46.29%,虽然低于专门版本(53.63%),但仍然超过了Zilliz(30.07%)和Provence(34.40%)这两个公开基线模型。更重要的是,在RAGBench、Squeez和QASPER(一个基于NLP论文的科学问答基准,属于训练分布之外的测试集)上,通用版本同样超过了这两个基线模型,展现出良好的泛化能力。
七、这项研究的局限性与未来空间
研究团队在论文中坦诚地指出了这项工作的若干局限。
首先,人工标注数据集的规模非常有限,只有100个查询-文本块对,这在很大程度上限制了评测结论的统计可靠性。100条样本构成的测试集,对于一般机器学习研究来说确实偏小,评测结果存在一定的随机性。
其次,标注任务本身的高难度,使得团队无法对标注者之间的一致性进行严格测量,也无法建立完善的异议裁定流程和详细客观的标注指南。标注工作由论文作者自己完成,存在一定的主观性和潜在偏差。
再者,学生模型的训练数据来自LLM生成的银标签,这意味着LLM自身可能携带的一些无意识偏见(比如对某类文本风格的偏好),可能被复制到学生模型中,进而通过学生模型传播和放大。
不过,研究团队也指出,这套方法论具有很强的可扩展性。如果将VerbatimRAG方法应用到更窄的专业领域(例如医学文献、法律文献),问题变得更加聚焦,标注任务会相对客观,这些局限性有望得到显著改善。
归根结底,这项研究给出的信号很清楚:在需要高度精确、可追溯、无幻觉的问答场景下,"只能原文引用"的抽取式方法,配合针对性训练的小型专用模型,是一条既实用又高效的技术路线。它不是要替代大型语言模型,而是为那些对可靠性要求极高的应用场景提供了一种更为踏实稳健的替代方案。
当你下次用某个AI工具查询一篇论文的结论,却不确定它的回答是否真实时,或许你会开始期待,这类系统能够直接把原文帖子给你看,而不是给你讲一个听起来很专业的故事。研究者们的下一步,是否会把这套方法推广到医学文献检索、法律条文查询这些对准确度要求更高的领域?这个问题值得持续关注。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.21102检索完整原文,相关代码和数据集也已全部开源,发布在GitHub(KRLabsOrg/acl-verbatim)和Hugging Face平台(KRLabsOrg/acl-anthology-md及相关模型库)。
Q&A
Q1:ACL-Verbatim系统是如何避免AI产生幻觉内容的?
A:ACL-Verbatim采用"纯抽取"策略,系统回答问题时不允许AI自行组织语言,只能从原始论文文本中直接截取相关片段原封不动地返回给用户。由于回答完全来自原文,没有任何改写或生成的成分,自然也就不可能出现AI"无中生有"的幻觉内容。
Q2:ACL-Verbatim用的150M参数小模型为什么能比几百亿参数的大模型效果更好?
A:小模型专门针对"从文本块中抽取与查询相关的词"这一具体任务,用大量银标签数据进行了专项训练,对这个特定任务高度适配。大语言模型虽然综合能力强,但在这类高精度抽取任务上容易"抓太多",把不相关内容也抽进来,导致精确率低。专才往往能在特定任务上胜过通才。
Q3:VerbatimRAG和普通RAG系统有什么核心区别?
A:普通RAG系统是先检索相关文档段落,再由大语言模型"读完"这些段落后自行生成一段回答,这个生成过程依然可能出现幻觉。VerbatimRAG则在检索之后增加了"抽取"这一步,系统直接从文档中锁定最相关的原文片段输出,完全绕过了语言模型生成步骤,从根源上杜绝了幻觉的产生空间。
