当前位置: 首页 > news >正文

ACL 2026 | 通义首提R-EMID框架:形式化揭示角色扮演性能退化机制

TL;DR:本研究提出首个面向角色扮演模型泛化能力的信息论理解框架:通过 R-EMID 度量分布偏移下的性能退化,并形式化揭示用户、角色与对话组合偏移的影响机制。

论文标题:

Understanding Generalization in Role-Playing Models via Information Theory

论文作者:

李永奇、郎皓、黄非、钱铁云、李永彬

收录会议:

ACL 2026 Findings

论文链接:

https://arxiv.org/abs/2512.17270

代码开源:

https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/RPM-Generalization

Highlights:

首次提出角色扮演模型(Role-Playing Models,RPMs)中三类分布偏移现象,包括用户偏移、角色偏移以及对话组合偏移,并提出对应三种分布偏移的 Benchmark,RPGBench。

提出首个基于信息论的用于刻画 RPM 在各类分布偏移下性能下降情况的框架,R-EMID;此外,我们提出一套用于估算 R-EMID 的方法,CoRL,并在所提出的 RPGBench 上验证其有效性。

我们利用 R-EMID 对多种训练方式得到的 RPMs 的泛化性能进行了系统性评估。

背景

随着大语言模型(LLMs)能力不断提升,角色扮演模型(Role-Playing Models,RPMs)的发展已成为推动人机交互进步的关键方向,在娱乐、个性化教育以及情感陪伴等领域展现出重要价值 [1]。

在实际应用中,RPMs 的泛化能力对于用户体验至关重要。例如,面向全球用户的平台(如Character.AI )需服务来自各种未见过的语言与文化背景的用户;同时,用户也可能要求 RPMs 模拟此前在训练中未曾见过的角色 [2]。

然而,近期研究表明 RPMs 在这些应用中出现各种失败案例,例如生成文化上不恰当的回复,或表现出角色设定前后不一致的问题,这些均引发了对其可靠性的担忧。

这些失败案例表明:当前的角色扮演模型在真实开放环境中部署时表现欠佳,其主要原因可能在于训练数据与测试数据之间存在分布偏移(distribution shifts)。

我们将 RPMs 中的分布偏移划分为三类:

  • 用户偏移(user shift):例如用户背景为训练中未见的语言或文化背景;

  • 角色偏移(character shift):例如模型被要求模拟训练中未覆盖的角色类型;

  • 对话组合偏移(dialogue compositional shift):例如在测试中出现更长、更复杂的多轮交互场景。

深入理解这些偏移如何导致 RPMs 性能下降,对于构建在真实世界应用中具备可靠泛化能力的系统至关重要。

现有基于 LLM-as-a-judge 的评估方法 [3] 尽管可以度量分布偏移下模型的性能下降程度,但它们难以对不同偏移因素各自对性能下降的贡献进行细粒度诊断。

更重要的是,若缺乏一个将 RPMs 性能下降与分布偏移以形式化的方式关联起来的理论框架,便难以系统性地理解 RPM 的泛化机制。

这一空白促使我们提出本研究的核心问题:“我们能否构建一个理论框架,形式化刻画用户偏移、角色偏移与对话组合偏移对 RPM 泛化能力的影响?”

为此,following EMID [4],我们提出一种基于信息论的度量指标:基于推理的有效互信息差异(Reasoning-based Effective Mutual Information Difference,R-EMID),用于衡量分布偏移下的 RPM 性能下降。

此外,我们推导出 R-EMID 的一个上界(upper bound),该上界可预测 RPM 泛化性能的最坏情形,并从理论上揭示不同分布偏移对性能下降的具体贡献机制。

最后,基于 R-EMID,我们评估了多种方式构建的 RPMs 的泛化性能及泛化风险,得到若干发现。

基于信息论理解角色扮演模型的泛化

2.1 Pilot Study

我们首先构造一个用于评估模型在三种分布偏移下表现的 benchmark,RPGBench,包含 17k 个样本。

在 RPGBench,我们进行了如图所示的前置实验。该前置实验揭示了:随着分布偏移的严重程度增加,性能下降的幅度也随之增大。

这表明,RPMs 中性能下降与分布偏移之间可能存在某种根本性规律,从而促使我们进一步开展理论探究,以揭示其背后的机制原理。

2.2 Reasoning-based Effective Mutual Information Difference(R-EMID)

R-EMID 的形式化表示:

其中:

表示模型在 ID 分布(记为 P)的表现。其中互信息项表示(X,R)(R 表示用于捕获输入 X 与回复 Y 之间关系的推理过程 R)和回复 Y 的互信息。

R-EMID 整体上可以被解释为模型在 ID 分布(P 分布)上的表现减去模型在 OOD 分布(Q 分布)上的表现。

基于此,我们可以进一步推导出 R-EMID 的 upper bound,该 upper bound 可以从理论上揭示不同分布偏移对于泛化表现的贡献程度(详细的理论部分请参见原论文)。

2.3 R-EMID 估计方法

为计算 R-EMID,我们需要两个组件模块:1)生成推理过程 R 的 Reasoning Generator;2)估计条件概率分布 p(y | x, r) 的 Policy Model。

为优化这两个模块以准确计算 R-EMID,我们提出了一个协同进化强化学习(Co-evolving Reinforcement Learning,CoRL)框架(见下图)。

在协同进化过程中,Policy Model 为 Reasoning Generator 提供奖励信号,引导其优化并维持在分布内(in-distribution)。

而 Reasoning Generator 则生成推理过程,以辅助当前 Policy Model 从输入 x 中筛选关键信息,从而更准确地估计条件回复生成概率。

2.4 R-EMID相关实验验证

2.4.1 Effectiveness of R-EMID

我们首先验证了 R-EMID 在实证层面的有效性,即其是否能够有效度量模型的性能下降。

为此,following [1],我们计算了其与多个 LLM-as-a-judge ensemble 打分结果的相关性。如下图所示:

我们发现,如上图(c)和(d)所示,我们的 R-EMID 呈现出与 LLM-as-a-judge ensemble 打分高相关度。

这表明:我们所提出的 R-EMID 在确保具备理论基础的同时,也兼具在真实世界数据集的实证有效性。

2.4.2 Analysis on R-EMID Upper Bound

我们还对所推导的 R-EMID Upper Bound 的 empirical tightness 进行了验证,结果如下:

从结果中我们可以看出:随着样本量的增加,所估计的 R-EMID 上界呈现出明显的收敛趋势,逐渐逼近经验性 R-EMID 值。

这种收敛表明,该上界在真实中与 R-EMID 高度相关,为其 empirical tightness 提供了有力实证。

基于 R-EMID 评估角色扮演模型的泛化

最后,我们基于 R-EMID 及其估计方法,对各种训练方式得到的角色扮演模型的泛化表现进行了评估。

如上图所示,我们主要有三个发现。

第一,用户偏移对 RPM 泛化构成最高风险;

第二,强化学习(RL)是目前唯一在各类分布偏移下均能持续提升泛化性能的方法,而数据增强(DA)因缺乏对未知测试分布的先验知识,效果不稳定;

第三,简单引入外部蒸馏的推理数据(如 ThinkingSFT/ThinkingRL 方法)反而损害性能,表明 RPM 的泛化提升可能需依赖与角色一致性、用户适配等任务特性深度耦合的推理机制,而非对推理数据的直接蒸馏。

总结

本文聚焦于理解角色扮演模型(RPMs)在分布偏移下的泛化表现。

首先,我们定义了 RPMs 中三类典型的分布偏移:用户偏移、角色偏移与对话组合偏移;

其次,我们提出一种基于信息论的度量指标:基于推理的有效互信息差异(R-EMID),用于量化 RPM 的泛化性能,并推导其上界,从理论上揭示各类分布偏移对 RPM 性能下降的具体贡献机制;

进一步,我们提出协同进化强化学习(CoRL)框架以实现 R-EMID 的有效估计,并通过实验验证了其有效性;

最后,基于 R-EMID 对采用不同训练方法的 RPMs 进行泛化性能评估,得出若干重要发现,为未来构建高鲁棒性、高可靠性 RPM 系统提供了理论依据与实践指导。

参考文献

[1] The oscars of ai theater: A survey on role-playing with language models

[2] Opencharacter: Training customizable role-playing llms with large-scale synthetic personas

[3] Charactereval: A chinese benchmark for role-playing conversational agent evaluation. ACL 2024.

[4] Understanding multimodal llms under distribution shifts: An information-theoretic approach. ICML 2024.

如果对我们的工作感兴趣的话,

欢迎加入我们!

招聘岗位

Research Intern

工作地点

北京

团队介绍

大模型为世界建模,Character Model 进一步为人建模。阿里巴巴通义实验室-对话智能团队,以 Character Model 训练和应用为核心, 建设 “有趣+有用” 的多语言、多模态类人智能体,打造了通义星尘(角色扮演 & IP 复刻 & 类人智能体)、通义晓蜜(智能客服)等大模型时代的核心产品。欢迎对大模型感兴趣的你加入我们,一起开拓大模型时代的人机对话的未来。

团队 Google scholar:

https://scholar.google.com/citations?user=5QkHNpkAAAAJ

岗位职责

Character Model、Reinforcement Learning 相关算法研究

岗位要求

  1. 在国际顶会/顶刊一作发表过论文者优先;

  2. 博士优先,有 Large language models and Reinforcement learning 算法相关研究经验者优先;

  3. 实习时间至少 6 个月以上,稳定长时间实习者优先。

简历投递

hao.lang@alibaba-inc.com

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

http://www.jsqmd.com/news/661423/

相关文章:

  • YOLACT++模型训练后,如何用你的‘小模型’在真实场景中跑起来?从测试到部署的完整流程
  • UnityStandaloneFileBrowser跨平台实战:Windows、Mac、Linux三平台兼容性深度解析
  • 告别虚拟机!手把手教你给树莓派/香橙派配置ADB调试环境(基于FunctionFS)
  • SQL中JOIN不同存储引擎表的影响_索引兼容性与查询性能评估
  • 【仅限本届大会授权发布】:AGI能力评估黄金标准V2.1正式启用——覆盖137个边缘场景,但91%企业尚未完成兼容性自检
  • granite-4.0-h-350m保姆级教程:Ollama本地大模型部署+函数调用+文本提取全流程
  • 从KRC2到KRC4:老司机带你盘点KUKA机器人那些年用过的‘电脑’和‘驱动’,附WorkVisual配置避坑点
  • 分析服务不错的澳洲工作签证推荐公司,靠谱吗 - myqiye
  • QSPI协议 - 超越XIP:在内存映射、四线模式与DMA协同中压榨极致性能
  • 终极免费时钟应用:Simple Clock如何帮你告别混乱,轻松管理每一天?[特殊字符]
  • Mentor Xpedition 实战:从现有设计高效提取Symbol与CELL,构建标准化器件库
  • 实战Gemma微调:5种方法让你的AI模型更专业
  • Quartus RS232 UART IP核 配置与Verilog数据流控制实战
  • 告别Kibana臃肿!轻量级ES集群管理神器Cerebro保姆级安装教程(CentOS 7.x + Java 8)
  • 2026年3月评价高的水泥罐供应商哪家好,灰罐/散装水泥罐/储罐/储油罐/地埋油罐/100T水泥罐,水泥罐工厂推荐 - 品牌推荐师
  • Vue实战指南(08)之Element Plus图标库的深度应用
  • 云容笔谈入门必看:理解‘云想衣裳花想容’提示词构建东方意境方法
  • 通往人工意识的最后三道关卡(2026奇点大会闭门报告首曝:全球仅7家机构通过第2关)
  • OmenSuperHub深度解析:惠普OMEN游戏本WMI BIOS控制与性能优化架构剖析
  • Visual Studio Live Share核心架构解析:实时协作的技术实现原理
  • SITS2026前沿发布:如何用AI在3秒内生成高精准度代码告警?附可落地的Prompt工程模板
  • GHelper终极指南:5步安装华硕笔记本轻量控制神器,彻底摆脱Armoury Crate臃肿困扰
  • Elasticsearch可视化管理终极指南:es-client让复杂查询变得简单
  • Polyglot情感分析完全教程:136种语言的情感极性检测
  • 支付宝红包套装回收最新流程+价格一览 - 圆圆收
  • 瑞祥商联卡回收价格一般几折?实测靠谱平台推荐 - 圆圆收
  • 3分钟搞定!Windows上安装Android应用的终极方案:告别模拟器卡顿
  • 墨语灵犀古风交互设计教程:砚池输入框与妙手化境按钮实现
  • Uniapp小程序里用ECharts画K线图,我踩过的那些‘坑’和‘神操作’
  • 如何轻松完成京东e卡回收?详细步骤新手必看 - 团团收购物卡回收