当前位置：首页 > news >正文

ACL 2026 | 通义首提R-EMID框架：形式化揭示角色扮演性能退化机制

news 2026/4/18 15:36:14

TL;DR：本研究提出首个面向角色扮演模型泛化能力的信息论理解框架：通过 R-EMID 度量分布偏移下的性能退化，并形式化揭示用户、角色与对话组合偏移的影响机制。

论文标题：

Understanding Generalization in Role-Playing Models via Information Theory

论文作者：

李永奇、郎皓、黄非、钱铁云、李永彬

收录会议：

ACL 2026 Findings

论文链接：

https://arxiv.org/abs/2512.17270

代码开源：

https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/RPM-Generalization

Highlights：

首次提出角色扮演模型（Role-Playing Models，RPMs）中三类分布偏移现象，包括用户偏移、角色偏移以及对话组合偏移，并提出对应三种分布偏移的 Benchmark，RPGBench。

提出首个基于信息论的用于刻画 RPM 在各类分布偏移下性能下降情况的框架，R-EMID；此外，我们提出一套用于估算 R-EMID 的方法，CoRL，并在所提出的 RPGBench 上验证其有效性。

我们利用 R-EMID 对多种训练方式得到的 RPMs 的泛化性能进行了系统性评估。

背景

随着大语言模型（LLMs）能力不断提升，角色扮演模型（Role-Playing Models，RPMs）的发展已成为推动人机交互进步的关键方向，在娱乐、个性化教育以及情感陪伴等领域展现出重要价值 [1]。

在实际应用中，RPMs 的泛化能力对于用户体验至关重要。例如，面向全球用户的平台（如Character.AI ）需服务来自各种未见过的语言与文化背景的用户；同时，用户也可能要求 RPMs 模拟此前在训练中未曾见过的角色 [2]。

然而，近期研究表明 RPMs 在这些应用中出现各种失败案例，例如生成文化上不恰当的回复，或表现出角色设定前后不一致的问题，这些均引发了对其可靠性的担忧。

这些失败案例表明：当前的角色扮演模型在真实开放环境中部署时表现欠佳，其主要原因可能在于训练数据与测试数据之间存在分布偏移（distribution shifts）。

我们将 RPMs 中的分布偏移划分为三类：

用户偏移（user shift）：例如用户背景为训练中未见的语言或文化背景；
角色偏移（character shift）：例如模型被要求模拟训练中未覆盖的角色类型；
对话组合偏移（dialogue compositional shift）：例如在测试中出现更长、更复杂的多轮交互场景。

深入理解这些偏移如何导致 RPMs 性能下降，对于构建在真实世界应用中具备可靠泛化能力的系统至关重要。

现有基于 LLM-as-a-judge 的评估方法 [3] 尽管可以度量分布偏移下模型的性能下降程度，但它们难以对不同偏移因素各自对性能下降的贡献进行细粒度诊断。

更重要的是，若缺乏一个将 RPMs 性能下降与分布偏移以形式化的方式关联起来的理论框架，便难以系统性地理解 RPM 的泛化机制。

这一空白促使我们提出本研究的核心问题：“我们能否构建一个理论框架，形式化刻画用户偏移、角色偏移与对话组合偏移对 RPM 泛化能力的影响？”

为此，following EMID [4]，我们提出一种基于信息论的度量指标：基于推理的有效互信息差异（Reasoning-based Effective Mutual Information Difference，R-EMID），用于衡量分布偏移下的 RPM 性能下降。

此外，我们推导出 R-EMID 的一个上界（upper bound），该上界可预测 RPM 泛化性能的最坏情形，并从理论上揭示不同分布偏移对性能下降的具体贡献机制。

最后，基于 R-EMID，我们评估了多种方式构建的 RPMs 的泛化性能及泛化风险，得到若干发现。

基于信息论理解角色扮演模型的泛化

2.1 Pilot Study

我们首先构造一个用于评估模型在三种分布偏移下表现的 benchmark，RPGBench，包含 17k 个样本。

在 RPGBench，我们进行了如图所示的前置实验。该前置实验揭示了：随着分布偏移的严重程度增加，性能下降的幅度也随之增大。

这表明，RPMs 中性能下降与分布偏移之间可能存在某种根本性规律，从而促使我们进一步开展理论探究，以揭示其背后的机制原理。

2.2 Reasoning-based Effective Mutual Information Difference（R-EMID）

R-EMID 的形式化表示：

其中：

表示模型在 ID 分布（记为 P）的表现。其中互信息项表示（X,R）（R 表示用于捕获输入 X 与回复 Y 之间关系的推理过程 R）和回复 Y 的互信息。

R-EMID 整体上可以被解释为模型在 ID 分布（P 分布）上的表现减去模型在 OOD 分布（Q 分布）上的表现。

基于此，我们可以进一步推导出 R-EMID 的 upper bound，该 upper bound 可以从理论上揭示不同分布偏移对于泛化表现的贡献程度（详细的理论部分请参见原论文）。

2.3 R-EMID 估计方法

为计算 R-EMID，我们需要两个组件模块：1）生成推理过程 R 的 Reasoning Generator；2）估计条件概率分布 p(y | x, r) 的 Policy Model。

为优化这两个模块以准确计算 R-EMID，我们提出了一个协同进化强化学习（Co-evolving Reinforcement Learning，CoRL）框架（见下图）。

在协同进化过程中，Policy Model 为 Reasoning Generator 提供奖励信号，引导其优化并维持在分布内（in-distribution）。

而 Reasoning Generator 则生成推理过程，以辅助当前 Policy Model 从输入 x 中筛选关键信息，从而更准确地估计条件回复生成概率。

2.4 R-EMID相关实验验证

2.4.1 Effectiveness of R-EMID

我们首先验证了 R-EMID 在实证层面的有效性，即其是否能够有效度量模型的性能下降。

为此，following [1]，我们计算了其与多个 LLM-as-a-judge ensemble 打分结果的相关性。如下图所示：

我们发现，如上图（c）和（d）所示，我们的 R-EMID 呈现出与 LLM-as-a-judge ensemble 打分高相关度。

这表明：我们所提出的 R-EMID 在确保具备理论基础的同时，也兼具在真实世界数据集的实证有效性。

2.4.2 Analysis on R-EMID Upper Bound

我们还对所推导的 R-EMID Upper Bound 的 empirical tightness 进行了验证，结果如下：

从结果中我们可以看出：随着样本量的增加，所估计的 R-EMID 上界呈现出明显的收敛趋势，逐渐逼近经验性 R-EMID 值。

这种收敛表明，该上界在真实中与 R-EMID 高度相关，为其 empirical tightness 提供了有力实证。

基于 R-EMID 评估角色扮演模型的泛化

最后，我们基于 R-EMID 及其估计方法，对各种训练方式得到的角色扮演模型的泛化表现进行了评估。

如上图所示，我们主要有三个发现。

第一，用户偏移对 RPM 泛化构成最高风险；

第二，强化学习（RL）是目前唯一在各类分布偏移下均能持续提升泛化性能的方法，而数据增强（DA）因缺乏对未知测试分布的先验知识，效果不稳定；

第三，简单引入外部蒸馏的推理数据（如 ThinkingSFT/ThinkingRL 方法）反而损害性能，表明 RPM 的泛化提升可能需依赖与角色一致性、用户适配等任务特性深度耦合的推理机制，而非对推理数据的直接蒸馏。

总结

本文聚焦于理解角色扮演模型（RPMs）在分布偏移下的泛化表现。

首先，我们定义了 RPMs 中三类典型的分布偏移：用户偏移、角色偏移与对话组合偏移；

其次，我们提出一种基于信息论的度量指标：基于推理的有效互信息差异（R-EMID），用于量化 RPM 的泛化性能，并推导其上界，从理论上揭示各类分布偏移对 RPM 性能下降的具体贡献机制；

进一步，我们提出协同进化强化学习（CoRL）框架以实现 R-EMID 的有效估计，并通过实验验证了其有效性；

最后，基于 R-EMID 对采用不同训练方法的 RPMs 进行泛化性能评估，得出若干重要发现，为未来构建高鲁棒性、高可靠性 RPM 系统提供了理论依据与实践指导。

参考文献

[1] The oscars of ai theater: A survey on role-playing with language models

[2] Opencharacter: Training customizable role-playing llms with large-scale synthetic personas

[3] Charactereval: A chinese benchmark for role-playing conversational agent evaluation. ACL 2024.

[4] Understanding multimodal llms under distribution shifts: An information-theoretic approach. ICML 2024.

如果对我们的工作感兴趣的话，

欢迎加入我们！

招聘岗位

Research Intern

工作地点

北京

团队介绍

大模型为世界建模，Character Model 进一步为人建模。阿里巴巴通义实验室-对话智能团队，以 Character Model 训练和应用为核心，建设 “有趣+有用” 的多语言、多模态类人智能体，打造了通义星尘（角色扮演 & IP 复刻 & 类人智能体）、通义晓蜜（智能客服）等大模型时代的核心产品。欢迎对大模型感兴趣的你加入我们，一起开拓大模型时代的人机对话的未来。

团队 Google scholar：

https://scholar.google.com/citations?user=5QkHNpkAAAAJ

岗位职责

Character Model、Reinforcement Learning 相关算法研究

岗位要求