ACL 2026 | 通义首提R-EMID框架:形式化揭示角色扮演性能退化机制
TL;DR:本研究提出首个面向角色扮演模型泛化能力的信息论理解框架:通过 R-EMID 度量分布偏移下的性能退化,并形式化揭示用户、角色与对话组合偏移的影响机制。
论文标题:
Understanding Generalization in Role-Playing Models via Information Theory
论文作者:
李永奇、郎皓、黄非、钱铁云、李永彬
收录会议:
ACL 2026 Findings
论文链接:
https://arxiv.org/abs/2512.17270
代码开源:
https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/RPM-Generalization
Highlights:
首次提出角色扮演模型(Role-Playing Models,RPMs)中三类分布偏移现象,包括用户偏移、角色偏移以及对话组合偏移,并提出对应三种分布偏移的 Benchmark,RPGBench。
提出首个基于信息论的用于刻画 RPM 在各类分布偏移下性能下降情况的框架,R-EMID;此外,我们提出一套用于估算 R-EMID 的方法,CoRL,并在所提出的 RPGBench 上验证其有效性。
我们利用 R-EMID 对多种训练方式得到的 RPMs 的泛化性能进行了系统性评估。
背景
随着大语言模型(LLMs)能力不断提升,角色扮演模型(Role-Playing Models,RPMs)的发展已成为推动人机交互进步的关键方向,在娱乐、个性化教育以及情感陪伴等领域展现出重要价值 [1]。
在实际应用中,RPMs 的泛化能力对于用户体验至关重要。例如,面向全球用户的平台(如Character.AI )需服务来自各种未见过的语言与文化背景的用户;同时,用户也可能要求 RPMs 模拟此前在训练中未曾见过的角色 [2]。
然而,近期研究表明 RPMs 在这些应用中出现各种失败案例,例如生成文化上不恰当的回复,或表现出角色设定前后不一致的问题,这些均引发了对其可靠性的担忧。
这些失败案例表明:当前的角色扮演模型在真实开放环境中部署时表现欠佳,其主要原因可能在于训练数据与测试数据之间存在分布偏移(distribution shifts)。
我们将 RPMs 中的分布偏移划分为三类:
用户偏移(user shift):例如用户背景为训练中未见的语言或文化背景;
角色偏移(character shift):例如模型被要求模拟训练中未覆盖的角色类型;
对话组合偏移(dialogue compositional shift):例如在测试中出现更长、更复杂的多轮交互场景。
深入理解这些偏移如何导致 RPMs 性能下降,对于构建在真实世界应用中具备可靠泛化能力的系统至关重要。
现有基于 LLM-as-a-judge 的评估方法 [3] 尽管可以度量分布偏移下模型的性能下降程度,但它们难以对不同偏移因素各自对性能下降的贡献进行细粒度诊断。
更重要的是,若缺乏一个将 RPMs 性能下降与分布偏移以形式化的方式关联起来的理论框架,便难以系统性地理解 RPM 的泛化机制。
这一空白促使我们提出本研究的核心问题:“我们能否构建一个理论框架,形式化刻画用户偏移、角色偏移与对话组合偏移对 RPM 泛化能力的影响?”
为此,following EMID [4],我们提出一种基于信息论的度量指标:基于推理的有效互信息差异(Reasoning-based Effective Mutual Information Difference,R-EMID),用于衡量分布偏移下的 RPM 性能下降。
此外,我们推导出 R-EMID 的一个上界(upper bound),该上界可预测 RPM 泛化性能的最坏情形,并从理论上揭示不同分布偏移对性能下降的具体贡献机制。
最后,基于 R-EMID,我们评估了多种方式构建的 RPMs 的泛化性能及泛化风险,得到若干发现。
基于信息论理解角色扮演模型的泛化
2.1 Pilot Study
我们首先构造一个用于评估模型在三种分布偏移下表现的 benchmark,RPGBench,包含 17k 个样本。
在 RPGBench,我们进行了如图所示的前置实验。该前置实验揭示了:随着分布偏移的严重程度增加,性能下降的幅度也随之增大。
这表明,RPMs 中性能下降与分布偏移之间可能存在某种根本性规律,从而促使我们进一步开展理论探究,以揭示其背后的机制原理。
2.2 Reasoning-based Effective Mutual Information Difference(R-EMID)
R-EMID 的形式化表示:
其中:
表示模型在 ID 分布(记为 P)的表现。其中互信息项表示(X,R)(R 表示用于捕获输入 X 与回复 Y 之间关系的推理过程 R)和回复 Y 的互信息。
R-EMID 整体上可以被解释为模型在 ID 分布(P 分布)上的表现减去模型在 OOD 分布(Q 分布)上的表现。
基于此,我们可以进一步推导出 R-EMID 的 upper bound,该 upper bound 可以从理论上揭示不同分布偏移对于泛化表现的贡献程度(详细的理论部分请参见原论文)。
2.3 R-EMID 估计方法
为计算 R-EMID,我们需要两个组件模块:1)生成推理过程 R 的 Reasoning Generator;2)估计条件概率分布 p(y | x, r) 的 Policy Model。
为优化这两个模块以准确计算 R-EMID,我们提出了一个协同进化强化学习(Co-evolving Reinforcement Learning,CoRL)框架(见下图)。
在协同进化过程中,Policy Model 为 Reasoning Generator 提供奖励信号,引导其优化并维持在分布内(in-distribution)。
而 Reasoning Generator 则生成推理过程,以辅助当前 Policy Model 从输入 x 中筛选关键信息,从而更准确地估计条件回复生成概率。
2.4 R-EMID相关实验验证
2.4.1 Effectiveness of R-EMID
我们首先验证了 R-EMID 在实证层面的有效性,即其是否能够有效度量模型的性能下降。
为此,following [1],我们计算了其与多个 LLM-as-a-judge ensemble 打分结果的相关性。如下图所示:
我们发现,如上图(c)和(d)所示,我们的 R-EMID 呈现出与 LLM-as-a-judge ensemble 打分高相关度。
这表明:我们所提出的 R-EMID 在确保具备理论基础的同时,也兼具在真实世界数据集的实证有效性。
2.4.2 Analysis on R-EMID Upper Bound
我们还对所推导的 R-EMID Upper Bound 的 empirical tightness 进行了验证,结果如下:
从结果中我们可以看出:随着样本量的增加,所估计的 R-EMID 上界呈现出明显的收敛趋势,逐渐逼近经验性 R-EMID 值。
这种收敛表明,该上界在真实中与 R-EMID 高度相关,为其 empirical tightness 提供了有力实证。
基于 R-EMID 评估角色扮演模型的泛化
最后,我们基于 R-EMID 及其估计方法,对各种训练方式得到的角色扮演模型的泛化表现进行了评估。
如上图所示,我们主要有三个发现。
第一,用户偏移对 RPM 泛化构成最高风险;
第二,强化学习(RL)是目前唯一在各类分布偏移下均能持续提升泛化性能的方法,而数据增强(DA)因缺乏对未知测试分布的先验知识,效果不稳定;
第三,简单引入外部蒸馏的推理数据(如 ThinkingSFT/ThinkingRL 方法)反而损害性能,表明 RPM 的泛化提升可能需依赖与角色一致性、用户适配等任务特性深度耦合的推理机制,而非对推理数据的直接蒸馏。
总结
本文聚焦于理解角色扮演模型(RPMs)在分布偏移下的泛化表现。
首先,我们定义了 RPMs 中三类典型的分布偏移:用户偏移、角色偏移与对话组合偏移;
其次,我们提出一种基于信息论的度量指标:基于推理的有效互信息差异(R-EMID),用于量化 RPM 的泛化性能,并推导其上界,从理论上揭示各类分布偏移对 RPM 性能下降的具体贡献机制;
进一步,我们提出协同进化强化学习(CoRL)框架以实现 R-EMID 的有效估计,并通过实验验证了其有效性;
最后,基于 R-EMID 对采用不同训练方法的 RPMs 进行泛化性能评估,得出若干重要发现,为未来构建高鲁棒性、高可靠性 RPM 系统提供了理论依据与实践指导。
参考文献
[1] The oscars of ai theater: A survey on role-playing with language models
[2] Opencharacter: Training customizable role-playing llms with large-scale synthetic personas
[3] Charactereval: A chinese benchmark for role-playing conversational agent evaluation. ACL 2024.
[4] Understanding multimodal llms under distribution shifts: An information-theoretic approach. ICML 2024.
如果对我们的工作感兴趣的话,
欢迎加入我们!
招聘岗位
Research Intern
工作地点
北京
团队介绍
大模型为世界建模,Character Model 进一步为人建模。阿里巴巴通义实验室-对话智能团队,以 Character Model 训练和应用为核心, 建设 “有趣+有用” 的多语言、多模态类人智能体,打造了通义星尘(角色扮演 & IP 复刻 & 类人智能体)、通义晓蜜(智能客服)等大模型时代的核心产品。欢迎对大模型感兴趣的你加入我们,一起开拓大模型时代的人机对话的未来。
团队 Google scholar:
https://scholar.google.com/citations?user=5QkHNpkAAAAJ
岗位职责
Character Model、Reinforcement Learning 相关算法研究
岗位要求
在国际顶会/顶刊一作发表过论文者优先;
博士优先,有 Large language models and Reinforcement learning 算法相关研究经验者优先;
实习时间至少 6 个月以上,稳定长时间实习者优先。
简历投递
hao.lang@alibaba-inc.com
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
