当前位置：首页 > news >正文

基于LLM的叙事词义消歧与合理性评分框架实践

news 2026/6/22 3:14:06

1. 项目缘起：当叙事遇上多义词，我们如何让AI“读懂”故事？

最近在折腾一个挺有意思的项目，核心就一句话：怎么让大语言模型（LLM）在理解故事的时候，别把“苹果”当成水果公司，也别把“他打开了门”理解成物理开门还是打开了心扉？这听起来像是个语义学问题，但在实际做LLM应用，尤其是涉及复杂叙事生成、剧本分析、游戏剧情自动生成或者智能客服的对话连贯性检查时，就成了一个必须解决的硬骨头。这就是“叙事词义消歧”要干的事。

更进一步的，当我们让LLM基于消歧后的“正确”语义去续写或者评价一个故事片段时，它给出的“这个情节很合理”或者“这里逻辑不通”的判断，到底靠不靠谱？这个判断本身有没有一个可量化、可解释的“合理性评分”？这就是“合理性评分框架”要解决的问题。所以，这个项目标题《基于LLM的叙事词义消歧与合理性评分框架研究》，本质上是在探索如何构建一个更“聪明”、更“可靠”的叙事理解与评估AI系统。

你会发现，无论是“LLM应用开发”、“Agent框架”还是“多轮对话”，这些热词背后，都绕不开一个核心挑战：上下文理解与一致性维护。一个Agent在长程任务中，如果对用户指令中的关键词产生歧义理解，后续所有动作都可能跑偏。多轮对话里，如果模型对上一轮提到的某个实体指代消歧失败，对话就会变得鸡同鸭讲。因此，这个研究并非空中楼阁，而是切中了当前LLM落地应用中最实际、也最棘手的痛点之一。

我打算在这篇分享里，不扯那些宏大的理论，就从一个实践者的角度，聊聊如果要动手搭建这么一个框架，我们需要考虑哪些层面，会遇到哪些坑，以及我个人摸索出来的一些可能有效的路径。这不仅仅是一个算法问题，更是一个涉及数据、评估、工程化的系统工程。

2. 叙事词义消歧：不止于词典，更在于上下文与常识

词义消歧（Word Sense Disambiguation, WSD）是个老课题了，但传统方法在叙事文本面前常常力不从心。叙事文本里的歧义，往往更隐蔽、更依赖语境和世界知识。

2.1 叙事歧义的独特挑战

首先，我们得明确叙事场景下的歧义有哪些类型，这决定了我们解决方案的发力点。

词汇级歧义：这是最经典的。比如“苹果”，在“他吃了一个苹果”和“他买了一台苹果电脑”中意思不同。传统WSD数据集（如SemCor）主要针对这类。
指代歧义：叙事中大量使用代词（他、她、它、这、那）。例如：“小王把书给了小李，他很高兴。”这里的“他”指的是小王还是小李？这需要结合上下文和常识（谁更可能因为“给书”而高兴？）来判断。
事件歧义：一个动词或动作短语可能对应不同的事件框架。例如“开门”，可以指“推开一扇物理的门”，也可以指“开启一个新的机会或阶段”，在隐喻性叙事中很常见。
省略与隐含信息：叙事常常省略共享知识。比如“下午去打球”，省略了“和谁”、“打什么球”、“在哪里”。模型需要补全这些信息才能准确理解。
时序与因果歧义：“他因为没赶上火车而迟到了。”是“没赶上火车”导致“迟到”，但这两个事件谁先谁后？在复杂叙述中，时序关系模糊会导致情节合理性判断失误。

对于LLM而言，挑战在于如何系统性地、而不仅仅是依靠其庞大的参数“直觉性”地处理这些歧义。我的思路是，不能只靠LLM本身，需要设计一个框架来引导和约束它。

2.2 一个可行的消歧框架设计

一个完整的消歧框架，我认为应该包含以下几个模块，它们协同工作：

模块一：上下文感知的候选义项生成传统WSD依赖于预定义的义项词典（如WordNet）。但对于叙事，特别是新兴网络用语、领域特定术语，词典往往滞后。LLM的优势在这里可以发挥。

操作：对于目标歧义词，我们不仅查询标准词典，更将其所在的句子及其前后若干句（一个叙事窗口）输入给LLM，以零样本或小样本提示的方式，让LLM生成该词在当前上下文中可能的含义解释。
- 提示词示例：“请列出句子‘[包含目标词的句子]’中，词语‘[目标词]’所有可能的含义或指代对象。请以列表形式给出。”
为什么这样做：这利用了LLM的生成能力和世界知识，能捕捉到词典之外、语境之中的微妙含义。例如，在游戏剧情文本中，“背刺”这个词，词典义可能没有，但LLM结合“队友”、“副本”等上下文，能生成“在团队合作中从背后攻击队友”这个游戏圈特定含义。

模块二：多维度证据融合与消歧决策生成了候选义项后，需要决定哪一个最可能。这里需要综合多种证据，而不是单一信号。

局部上下文匹配度：计算候选义项的解释与目标词周围词语的语义相关性。可以用嵌入模型（如Sentence-BERT）计算义项描述句与上下文句子的相似度。
叙事一致性检查：将候选义项代入原文，检查是否与上文已消歧的实体、事件产生矛盾。例如，如果上文明确“小李收到了书”，那么下文的“他很高兴”中，“他”指向“小李”的叙事一致性分数应该更高。这可以构建一个简单的实体追踪状态机来辅助判断。
常识合理性验证：利用LLM或常识知识库（如ConceptNet），判断候选义项所描述的情景是否符合常识。例如，“用苹果砸碎了窗户”，这里的“苹果”是“水果”的常识合理性远高于“手机”，因为用手机砸窗户成本太高且不符合常见行为模式。
- 实操技巧：这一步可以设计一个验证提示：“根据常识，判断‘[将候选义项代入后的情景描述]’是否是一个合理/常见的情景？请只回答‘合理’或‘不合理’。”通过批量查询统计合理性比例。

模块三：LLM作为最终仲裁者将前两步得到的证据（候选义项列表、局部匹配分数、一致性检查结果、常识验证结果）整理成结构化的信息，再次输入给一个更强的LLM（如GPT-4、Claude 3），让它做出最终判断。

提示词设计要点：必须提供清晰的决策指令和格式要求。例如：“你是一个叙事分析专家。以下是关于句子中词语‘X’的消歧信息：[结构化证据]。请基于这些证据，选择最符合当前叙事语境的义项。你的输出必须是：义项：[选择的义项描述]。”
为什么需要这一步：前两步的规则和计算可能无法覆盖所有复杂情况，或者证据之间可能存在冲突。LLM作为“仲裁者”，可以综合权衡所有信息，做出更接近人类直觉的判断。这本质上是将规则引擎与LLM的模糊推理能力相结合。

注意：这个框架是“检索增强生成”（RAG）思想在微观任务上的应用。我们不指望LLM凭空记忆和解决所有问题，而是通过构建外部知识（证据）来引导它，提高其输出的准确性和可解释性。

3. 从消歧到评分：如何量化一个故事的“合理”程度？

解决了“故事在说什么”的问题，接下来就要判断“这个故事说得通吗”。合理性评分是个主观性很强的任务，但我们的目标是建立一个相对客观、可重复的评估框架。

3.1 定义“叙事合理性”的维度

我们不能笼统地问LLM“这个故事合理吗？”，必须拆解。我认为至少包含以下几个可操作的维度：

事实一致性：故事内部的事实不能矛盾。例如，前面说“他是个左撇子”，后面写“他用右手熟练地签了名”，这就是不一致。这可以通过构建实体-属性-关系知识图谱来追踪检查。
逻辑连贯性：事件的发展应符合基本的因果、时序逻辑。例如，“他先中弹倒地，然后听到枪声”在物理时序上就不连贯。
角色行为一致性：角色的言行应与其已设定的性格、身份、目标相符。一个胆小怕事的人突然毫无铺垫地英勇就义，会显得突兀。
常识符合度：故事中的现象不应违背普遍认知的物理、社会常识。例如，“他在水里点燃了一支蜡烛”就违背常识。
叙事惯例符合度（可选，针对特定类型）：对于类型小说（如侦探、科幻），需要符合该类型的隐含规则。例如，在古典侦探小说中，侦探不应是凶手。

3.2 构建多轮验证的评分管道

基于以上维度，我们可以设计一个评分框架，它更像一个多阶段的“质检流水线”。

第一阶段：原子事实提取与知识库构建首先，利用LLM或信息抽取模型，从已消歧的叙事文本中，抽取出结构化的事实三元组（主体，关系，客体）和事件（触发词，论元）。

例如，从“昨天下午，愤怒的小王用红色的苹果砸向了小李的窗户。”可以抽出：
- (小王, 情绪状态, 愤怒)
- (小王, 拥有, 苹果) -> (苹果, 颜色, 红色)
- (小王, 动作-砸向, 窗户) -> (窗户, 所属, 小李)
- (事件: 砸向，施事者: 小王，受事者: 窗户，工具: 苹果，时间: 昨天下午)
为什么做这个费力的事：将非结构化的文本转化为结构化的知识表示，是进行自动化逻辑检查的基础。这些三元组和事件构成一个临时的、关于这个故事的微型知识库。

第二阶段：基于规则的快速冲突检测针对“事实一致性”和部分“常识符合度”，可以预先定义一些规则进行快速过滤。

规则示例：
- 唯一性冲突：如果知识库中存在(A, 是, B)和(A, 是, C)，且B和C在常识中是互斥类别（如B=“男性”， C=“女性”），则标记冲突。
- 属性冲突：如果存在(A, 颜色, 红色)和(A, 颜色, 蓝色)，且时间上下文没有表明颜色改变，则标记冲突。
- 时序冲突：如果事件E1的结果是状态S，事件E2的发生需要状态S为前提，但E2的时间在E1之前，则标记冲突。
工具选择：可以编写简单的脚本，或者使用像DuckDB这样的轻量级数据库进行SQL查询来高效实现这类冲突检测。

第三阶段：LLM驱动的深度合理性评估对于更复杂的逻辑连贯性、角色行为一致性、 nuanced的常识符合度，规则就力不从心了，需要请出LLM。

评估策略：不应一次性评估整个故事。而应采用“分而治之”的策略。
1. 切片评估：将长叙事按场景或段落切开，针对每个切片，结合上文语境进行评估。
2. 维度专项评估：为每个合理性维度设计专门的提示词。
  - 角色行为一致性提示示例：“已知角色小明被描述为‘性格内向，害怕与人冲突’。请评估以下情节片段中，小明的行为是否符合其性格设定：‘[情节片段]’。请从‘完全符合’、‘基本符合但略有牵强’、‘不符合’三个等级中选择，并简要说明理由。”
3. 两阶段评估法（我常用的技巧）：
  - 第一阶段：发现问题。提示LLM：“仔细阅读以下故事段落，找出任何在事实、逻辑、常识或角色行为上不合理、矛盾或突兀的地方。请直接列出问题点。”
  - 第二阶段：严重性评分。将上一阶段发现的问题点，逐个提交给LLM：“请判断以下叙事问题对整体故事合理性的破坏程度，评分1-5分（1=轻微瑕疵，5=严重破坏）。问题：[具体问题]”
为什么分维度、分阶段：让LLM一次做太多判断容易混淆或遗漏。专项评估能获得更聚焦、更可靠的反馈。两阶段法则将“发现”和“评判”分离，模仿人类的审阅流程，通常能得到更细致的结果。

第四阶段：分数聚合与可解释性报告将规则检测出的冲突数量（加权扣分）和LLM在各个维度、各个片段上的评分，通过一个加权公式聚合成一个总分（例如0-100分）。

关键点：分数本身不如“诊断报告”有价值。框架的输出必须附带一个可解释的报告，明确指出：
- 在哪里（句子位置）？
- 发生了什么问题（事实矛盾、逻辑跳跃、角色OOC等）？
- 为什么这是个问题（依据是什么）？
- 如何修改的建议？这样的输出，对于写作者、剧情策划或后续的自动修订模块，才有真正的实用价值。

4. 工程落地：框架的组件、流程与迭代挑战

理论设计得再漂亮，不能跑起来都是空谈。这部分聊聊把这个框架工程化时，需要考虑的组件和流程。

4.1 系统组件拆解

一个最小可行产品（MVP）框架可能包含以下组件：

文本预处理模块：负责分段、分词、句子边界检测，为后续处理准备干净的输入。
歧义检测器：不一定对所有词进行消歧，那样成本太高。可以先用一个轻量级模型或规则（如词性标注+命名实体识别）筛选出高歧义风险的词汇（如多义名词、代词、特定动词）。
词义消歧管道：即第二章描述的模块，包括候选生成、证据融合、LLM仲裁。这里涉及多个LLM调用，需要考虑成本、延迟和缓存策略。
知识抽取与存储模块：利用LLM或微调的信息抽取模型，从消歧后的文本中构建故事知识图谱。可以使用图数据库（如Neo4j）或简单的关系型数据库临时存储。
规则推理引擎：执行第二阶段的快速冲突检测。可以是一组预定义的规则脚本。
LLM评估器集群：负责第三阶段的深度评估。这里可能需要管理对不同LLM API的调用（如OpenAI, Anthropic, 本地部署的Llama等），处理速率限制、失败重试。
评分聚合与报告生成器：将各模块的结果汇总，计算最终分数，并生成结构化的评估报告（如JSON格式）。

4.2 核心工作流程

数据流大致如下：

原始叙事文本 → 预处理模块 → 歧义检测器 (识别关键歧义点) → 词义消歧管道 (对关键点进行消歧，输出消歧后文本) → 知识抽取模块 (从消歧后文本抽取结构化事实/事件) → 规则推理引擎 (进行快速冲突检测，输出冲突列表) → LLM评估器集群 (进行深度维度评估，输出问题点及评分) → 报告生成器 (聚合所有信息，生成总分和详细报告)

4.3 迭代中的挑战与应对策略

在实际搭建和迭代中，你会遇到不少坑：

成本与延迟：LLM调用是主要开销。策略：对消歧和评估任务进行分级，对简单、高频的歧义模式（如某些指代），尝试用微调的小模型或规则优先处理，只有复杂情况才调用大模型。大量使用缓存，对相似的上下文查询缓存消歧结果。
评估的评估（元评估）：你怎么知道你的评分框架本身是合理的？策略：必须构建一个高质量的测试集（Benchmark）。可以收集一批叙事片段，邀请人类专家从同样的维度进行合理性标注（分数+评语）。然后用你的框架去跑，计算框架评分与人类评分的一致性（如相关系数）。这是迭代优化框架的黄金标准。
提示工程的稳定性：LLM的输出对提示词非常敏感。策略：不要只设计一套提示词。应采用“提示词池”策略，为同一任务设计多个不同表述但同义的提示词，在运行时随机选择一个，或并行调用后取多数结果，这可以在一定程度上提高稳定性。更重要的是，将提示词及其版本作为可配置项，方便进行A/B测试。
长上下文依赖：叙事可能很长，而LLM有上下文长度限制。策略：采用“滑动窗口”或“关键上下文摘要”技术。对于当前处理的片段，除了其前后文，还可以用LLM自动生成一个更早前文的“摘要”或“关键事实列表”，作为补充上下文输入，以维持长程依赖。
领域适配：一个针对小说训练的框架，直接用于法律案件叙述或医疗记录可能效果不佳。策略：框架需要设计成可插拔的。规则集、常识库、甚至评估维度的权重，都应该可以根据目标领域进行配置和微调。对于特定领域，收集领域内的数据进行提示词微调（Prompt Tuning）或轻量级微调（LoRA）是有效的。

5. 从研究到应用：可能的场景与价值延伸

这样一个框架，其价值绝不止于学术研究。它能直接赋能多个应用场景：

AI辅助创作与编剧工具：为作者提供实时的“合理性检查”，就像语法检查器一样，标记出潜在的情节漏洞、角色崩坏或常识错误，极大提升创作效率和内容质量。
互动叙事与游戏：在剧情分支复杂的游戏中，该框架可以自动评估玩家选择触发的不同剧情线是否自洽、合理，辅助游戏设计师管理庞大的剧情树。
教育领域的写作评估：帮助学生检查记叙文的逻辑是否通顺，事实是否前后一致，提供具体的修改建议，而不仅仅是语法和修辞上的批改。
虚假信息与谣言检测：通过分析一篇叙述性文章内部的事实一致性、逻辑连贯性和常识符合度，可以辅助判断其可信度。矛盾百出的故事，更可能是编造的。
提升对话系统的连贯性：对于追求长上下文、多轮深度对话的聊天机器人或客服Agent，该框架可以作为后台的“一致性守护者”，定期检查对话历史中是否存在事实或逻辑矛盾，并及时进行纠正或澄清，避免AI“精神分裂”。

这个框架的研究和实现，是一个典型的“LLM赋能传统任务”的案例。它没有试图用一个LLM解决所有问题，而是将LLM作为核心组件之一，嵌入到一个有设计、有流程、有规则的系统中，让LLM的能力在约束下得到更可靠、更可解释的发挥。这或许也是未来很多复杂AI应用的主流形态：不是单一的模型，而是精心设计的模型协作系统。

查看全文

http://www.jsqmd.com/news/1058768/