当前位置：首页 > news >正文

机器阅读理解：抽取式问答、多选问答与自由生成问答

news 2026/4/15 22:52:41

点击“AladdinEdu，你的AI学习实践工作坊”，注册即送-H卡级别算力，沉浸式云原生集成开发环境，80G大显存多卡并行，按量弹性计费，教育用户更享超低价。

一、引言

让机器阅读并理解人类语言，是人工智能皇冠上的明珠之一。早在1950年，图灵在其划时代论文《Computing Machinery and Intelligence》中就将“问答”作为检验机器智能的重要标准。七十余年后的今天，随着深度学习和大规模预训练模型的突破性进展，机器阅读理解已从实验室走向现实应用，在搜索引擎、智能客服、教育辅导、法律文书分析等领域大放异彩。

机器阅读理解任务的形式非常直观：给定一段文本和一个与文本内容相关的问题，系统需要自动找出或生成答案。例如：

文本：阿尔伯特·爱因斯坦1879年3月14日出生于德国乌尔姆。他于1921年获得诺贝尔物理学奖，以解释光电效应闻名。
问题：爱因斯坦在哪一年获得诺贝尔奖？
答案：1921年

这一看似简单的任务，实则蕴含了语言理解的多重挑战：词义消歧、指代消解、逻辑推理、多跳关联、常识融合等。根据答案的产出形式，机器阅读理解通常分为三种主流范式：

抽取式问答：答案必须是原文中的一个连续片段。这是最经典、研究最充分的范式，代表数据集如SQuAD。
多选问答：给定若干候选选项，模型从中选出正确答案。答案可能不在原文中直接出现，需要推理和常识支持。代表数据集如RACE、MCTest。
自由生成问答：答案由模型自由生成，不受原文片段的限制。这要求模型具备强大的文本生成能力。代表数据集如NarrativeQA、MS MARCO生成任务。

本文将对这三种范式逐一深入剖析。第二节介绍机器阅读理解的任务基础与主流数据集；第三节详述抽取式问答的技术演进；第四节探讨多选问答的核心方法；第五节深入自由生成问答的前沿进展；第六节进行三种范式的对比分析；第七节讨论挑战与未来方向。

二、机器阅读理解基础

2.1 任务形式化定义

给定一篇文档（Passage）P = ( p 1 , p 2 , … , p m ) P = (p_1, p_2, \dots, p_m)P=(p1,p2,…,pm)和一个问题（Question）Q = ( q 1 , q 2 , … , q n ) Q = (q_1, q_2, \dots, q_n)Q=(q1,q2,…,qn)，机器阅读理解系统的目标是输出答案A AA。

抽取式问答：A AA是P PP中的一个连续子序列p s t a r t … p e n d p_{start} \dots p_{end}pstart…pend。
多选问答：A AA是候选答案集合{ C 1 , C 2 , … , C k } \{C_1, C_2, \dots, C_k\}{C1,C2,…,Ck}中的一个选项。
自由生成问答：A AA是自由文本序列，不限于原文片段。

在某些设置中，问题可能不附带文档，系统需要依靠内部知识（闭卷问答）；但多数MRC研究仍以给定文档为前提（开卷问答）。

2.2 主流评测数据集

数据集	范式	规模	特点
SQuAD 1.1	抽取式	10万+问题	维基百科文章，答案必在原文
SQuAD 2.0	抽取式	15万+问题	新增“不可回答”问题
NewsQA	抽取式	10万+问题	CNN新闻，答案更长更复杂
RACE	多选	9.7万问题	中国中学生英语阅读理解题
MCTest	多选	2640问题	童话故事，需常识推理
NarrativeQA	自由生成	4.6万问题	基于长篇小说摘要，自由生成答案
MS MARCO	抽取/生成	100万+问题	真实Bing搜索查询，答案自由形式
HotpotQA	多跳抽取	11.3万问题	需整合多篇文档的信息
DROP	数值推理	9.6万问题	需进行加减、计数、排序等离散推理

fromtransformersimportBertTokenizer,BertForQuestionAnsweringimporttorch tokenizer=BertTokenizer.from_pretrained('bert-large-uncased-whole-word-masking-finetuned-squad')model=BertForQuestionAnswering.from_pretrained('bert-large-uncased-whole-word-masking-finetuned-squad')defanswer_question(question,passage):inputs=tokenizer(question,passage,return_tensors='pt',max_length=512,truncation=True)withtorch.no_grad():outputs=model(**inputs)start_logits=outputs.start_logits end_logits=outputs.end_logits start_idx=torch.argmax(start_logits)end_idx=torch.argmax(end_logits)# 将token id转回文本答案input_ids=inputs['input_ids'][0]answer_tokens=input_ids[start_idx:end_idx+1]answer=tokenizer.decode(answer_tokens,skip_special_tokens=True)returnanswer passage="Albert Einstein was born in Ulm, Germany on March 14, 1879. He won the Nobel Prize in Physics in 1921."question="In which year did Einstein win the Nobel Prize?"print(answer_question(question,passage))# 输出: 1921

3.5 不可回答问题处理

SQuAD 2.0引入了“不可回答”问题（即文档中不包含答案）。处理策略主要有：

联合训练：BERT输出中加入一个可回答性分类头，训练时同时优化跨度预测损失和可回答性二分类损失。
阈值判断：根据模型预测的起始/结束位置概率的乘积或最佳跨度的得分设定阈值，低于阈值则判定为无答案。
特殊答案标记：如增加一个[CLS]位置的答案跨度，代表“无答案”。

这些方法使模型能够有效识别知识的边界，避免“强行作答”。

3.6 多跳推理与离散推理

标准抽取式问答通常要求答案在单一段落中连续出现。但多跳问答（如HotpotQA）要求模型综合多篇文档中的信息才能推导出答案。解决方案包括：

图神经网络：将多文档中的实体和句子构建为图，利用GCN进行多跳信息聚合。
递归检索-阅读：根据当前推理状态，迭代检索新文档并更新答案候选。
思维链提示：引导LLM逐步推理并输出推理路径。

离散推理（如DROP数据集）涉及数值计算，如“A队得分65，B队得分72，A队落后几分？”抽取式模型需集成数值推理模块（如为BERT添加数值运算层）。

四、多选问答

多选问答给定一个问题、一篇文档和多个候选选项，模型需选出唯一正确选项。与抽取式相比，多选问答更强调比较与推理能力，正确答案往往不是原文的直接复述。

4.1 任务形式与挑战

多选问答的输入通常为( P , Q , C 1 , C 2 , … , C k ) (P, Q, C_1, C_2, \dots, C_k)(P,Q,C1,C2,…,Ck)，输出为正确选项索引。主要挑战包括：

选项间的细微差异：错误选项常包含部分正确信息或似是而非的表述。
常识依赖：许多多选问答需借助外部常识才能做出正确选择（如物理常识、社会规范）。
长距离依赖：文档可能很长（如RACE中的长篇文章），关键信息分散各处。

4.2 经典神经方法

在BERT出现之前，主流方法采用比较聚合架构：

分别对文档、问题和每个选项进行编码。
通过注意力机制，计算每个选项与文档的匹配表示。
将匹配表示聚合，输入分类器输出各选项得分。

例如，Convolutional Spatial Attention Model使用CNN提取文档-选项匹配矩阵中的模式。Co-Matching Network则让文档和选项进行多层次交互匹配。

4.3 基于BERT的多选问答

BERT在多选问答上的标准做法是：将P PP、Q QQ和每个C i C_iCi拼接输入BERT，取[CLS]输出接线性层得到一个得分s i s_isi，最后通过softmax对所有选项得分归一化得到选择概率。

由于每个选项需独立输入BERT，当选项数较多时计算开销大。优化方法包括：

共享文档-问题编码：先对文档和问题进行编码，再分别与各选项交互。
双塔架构：分别编码文档-问题和选项，通过点积计算相似度。

DUMA（Zhu et al., 2020）提出了一种多维注意力架构，在多个MRC多选数据集上取得SOTA。它将文档和选项的交互扩展为多头、多维度，显著提升了推理细粒度。

4.4 融入常识知识

多选问答常需要常识支撑。研究者尝试从外部知识库（如ConceptNet）或预训练语言模型中获取常识。

知识图谱注入：将选项和文档中的实体链接到知识图谱，提取相关三元组作为附加文本输入模型。
知识嵌入增强：如KagNet使用GCN对提取的子图进行编码，再与BERT表示融合。
生成式常识推理：利用COMET等常识生成模型为问题补充推断信息。

4.5 多选问答的代码示例（简化版）

fromtransformersimportBertTokenizer,BertForMultipleChoiceimporttorch tokenizer=BertTokenizer.from_pretrained('bert-base-uncased')model=BertForMultipleChoice.from_pretrained('bert-base-uncased')defanswer_mcq(question,passage,choices):# 构建输入：[CLS] passage + question [SEP] choice_i [SEP]input_ids=[]attention_masks=[]forchoiceinchoices:text=passage+" "+question encoded=tokenizer(text,choice,truncation=True,max_length=512,padding='max_length',return_tensors='pt')input_ids.append(encoded['input_ids'])attention_masks.append(encoded['attention_mask'])input_ids=torch.cat(input_ids,dim=0).unsqueeze(0)# [1, num_choices, seq_len]attention_masks=torch.cat(attention_masks,dim=0).unsqueeze(0)withtorch.no_grad():outputs=model(input_ids=input_ids,attention_mask=attention_masks)pred=torch.argmax(outputs.logits,dim=-1).item()returnchoices[pred]passage="Photosynthesis is the process by which plants use sunlight to synthesize foods."question="What do plants need for photosynthesis?"choices=["Water only","Sunlight","Soil nutrients","Oxygen"]print(answer_mcq(question,passage,choices))# 输出: Sunlight

五、自由生成问答

抽取式问答要求答案严格来自原文，但现实世界中，理想的答案往往需要综合多处信息、进行概括或推理，并以自然流畅的语言表达。自由生成问答正是为此而生。

5.1 任务定义与挑战

给定文档P PP和问题Q QQ，生成答案序列A = ( a 1 , a 2 , … , a l ) A = (a_1, a_2, \dots, a_l)A=(a1,a2,…,al)。答案可以是原文中不存在的词汇，可以是多个原文片段的拼接或改写。主要挑战：

内容保真度：生成的答案必须忠实于原文，不能出现幻觉（Hallucination）。
信息整合：当答案需要多文档或多段落信息时，模型必须准确定位并融合。
生成质量：答案需语言流畅、简洁、完整。

5.2 基于Seq2Seq的生成模型

在预训练生成模型出现前，自由生成问答主要采用带有注意力机制的序列到序列模型。编码器读入文档和问题，解码器逐词生成答案。为提高对原文的保真度，研究者引入了拷贝机制，允许解码器直接从原文复制词汇。

指针生成网络（See et al., 2017）是这一思路的代表：它在每个生成步计算一个拷贝概率，决定是从词表生成还是从原文复制。训练时使用负对数似然损失。

5.3 预训练生成模型的统治

BART、T5、GPT系列等预训练Seq2Seq模型将自由生成问答推向了新高度。以T5为例，它将所有NLP任务统一为“文本到文本”格式。对于生成式问答，输入为question: {Q} context: {P}，输出为答案文本。T5在大规模语料上进行Span Corruption预训练，具备了强大的文本理解和生成能力。

BART则采用去噪自编码器预训练，在生成任务上同样表现出色。在MS MARCO生成任务和NarrativeQA上，微调后的T5/BART大幅超越传统Seq2Seq模型。

5.4 检索增强生成

对于知识密集型问答，单靠模型参数存储的知识可能不够准确或已过时。检索增强生成框架结合了检索器和生成器：

RAG（Lewis et al., 2020）：先用问题检索相关文档，然后将文档和问题输入BART生成答案。RAG在开放域问答上取得了SOTA，且答案可溯源。
REALM、Atlas等模型进一步将检索和生成联合训练，实现端到端优化。

5.5 大型语言模型的零样本生成

GPT-4、Claude、文心一言等超大规模语言模型在零样本或少样本提示下，可直接进行自由生成问答，无需微调。用户只需提供包含文档和问题的提示模板，模型即可输出高质量答案。这极大地降低了定制化问答系统的开发门槛，但幻觉问题仍待解决。

5.6 代码示例：基于T5的生成式问答

fromtransformersimportT5Tokenizer,T5ForConditionalGeneration tokenizer=T5Tokenizer.from_pretrained('t5-base')model=T5ForConditionalGeneration.from_pretrained('t5-base')defgenerate_answer(question,context):input_text=f"question:{question}context:{context}"inputs=tokenizer(input_text,return_tensors='pt',truncation=True,max_length=512)outputs=model.generate(**inputs,max_length=50,num_beams=4,early_stopping=True)answer=tokenizer.decode(outputs[0],skip_special_tokens=True)returnanswer context="The Great Wall of China was built over centuries to protect against invasions."question="Why was the Great Wall built?"print(generate_answer(question,context))# 输出可能: to protect against invasions

六、三种范式的对比分析

维度	抽取式问答	多选问答	自由生成问答
答案形式	原文连续片段	预设选项之一	自由文本
典型数据集	SQuAD, NewsQA	RACE, MCTest	NarrativeQA, MS MARCO
核心技术	跨度预测（起始/结束）	选项比较与排序	Seq2Seq生成
输出可控性	高（答案必在原文）	高（限定选项）	低（可能产生幻觉）
推理复杂度	较低	较高（需比较推理）	高（需整合与生成）
评估难度	容易（精确匹配/F1）	容易（准确率）	困难（语义相似度）
应用场景	搜索引擎片段、客服知识库	标准化考试、教育评测	对话助手、长文总结问答
人类表现	91.2% F1 (SQuAD 1.1)	94.5% Acc (RACE)	评估主观性较强