当前位置：首页 > news >正文

UC Davis发现:AI评分系统理解个人偏好偏差超20个百分点研究突破

news 2026/6/6 7:21:06

这项由加利福尼亚大学戴维斯分校（University of California, Davis）研究团队完成的工作，以预印本形式于2026年4月8日发布在arXiv平台，编号为arXiv:2604.07343v1，收录于计算机科学·计算与语言（cs.CL）领域，目前正处于同行评审阶段。

你有没有遇到过这样的情况：向AI助手提问，它给出的回答在质量上无可挑剔，逻辑清晰、内容准确、语气礼貌，但就是感觉"不对"——不是你真正想要的那种答案。也许你一向喜欢直接沟通、喜欢别人建议你主动和他人交流，但AI却给了你一堆"自我调整"的建议，和你的性格完全背道而驰。这种微妙的"不对劲"，正是这项研究试图正面攻克的核心问题。

AI系统的核心目标之一，是让语言模型的行为与人类价值观保持一致。为了做到这一点，研究者通常会训练一个叫做"奖励模型"的东西——可以把它理解为一位专职"品味评分员"。这位评分员的工作，是在AI生成多个候选回答之后，替人类挑出最好的那一个。这位评分员训练得越准，AI最终给出的答案就越符合人类期望。问题在于，现有的这位"评分员"主要学的是"大众口味"——什么是正确的、有用的、无害的——而对于每个人独特的个人喜好，它几乎是睁眼瞎。

这项研究的核心贡献，是构建了一个名为**Personalized RewardBench**（个性化奖励模型基准测试）的评估工具，用来专门测量这位"评分员"究竟有多懂你这个具体的人。研究团队在测试了目前最先进的一批AI评分系统之后，得出了一个让人警醒的结论：即使是表现最好的系统，在理解个人偏好这件事上的正确率也不超过76%。换句话说，每四次评分中就有超过一次判断错了方向。而当研究者给系统提供完整的个人偏好线索后，理论上能达到的正确率接近99%。这中间超过20个百分点的差距，正是当前AI个性化能力的真实鸿沟。

---

一、为什么"评分员"这么重要，而它又错在哪里

要理解这个问题，不妨用一个生活中的比喻来搭建整个理解框架。把AI训练的过程想象成一家餐厅培养服务员的过程。餐厅雇了一位"品质督导"，他的职责是在厨师端出多道菜之后，挑选出最好的那道送给顾客。这位督导经过多年训练，非常擅长判断一道菜的火候是否到位、摆盘是否精美、食材是否新鲜——这些都是"通用质量标准"。

然而，餐厅的顾客各有不同。有人不吃辣，有人忌口蒜，有人希望分量大，有人则偏爱精致小份。当这位督导面对"哪道菜最好"这个问题时，他给的答案基于的是普遍意义上的烹饪水准，而不是这位具体顾客的口味档案。结果就是，他送上去的菜在客观上无可挑剔，但那位对蒜过敏的顾客可能一口都咽不下去。

这个比喻精准地描述了当前AI"奖励模型"的困境。现有系统，无论是直接输出分数的"评分型"系统，还是通过推理过程来做比较的"生成型"系统，都主要学会了判断"这个回答在客观质量上是否优秀"，而非"这个回答是否符合这位用户的个人偏好"。

更关键的问题在于，现有的基准测试（也就是用来衡量这些评分员表现的"考卷"）也存在同样的盲区。它们通常通过选择"质量更差的模型生成的答案"或者"人为注入错误的答案"来构造所谓的"错误选项"，然后看评分员能不能挑出那个"质量更好的选项"。这种考卷考的其实是评分员能不能区分好坏，而不是能不能区分"适合你"和"不适合你"。

更糟糕的是，这些考卷上的成绩，往往无法准确预测这位"评分员"在真实工作场景中的表现。一个在考卷上得了高分的督导，放在真实的餐厅里，不见得就能让每位顾客满意——因为考卷根本没有测他会不会关注顾客的个人口味。

---

二、这张全新的"考卷"是怎么设计出来的

为了解决上面这个根本性问题，研究团队设计了一套全新的评估方式。用餐厅比喻来说，他们做的事情是：先详细记录每位顾客的历史点餐记录和个人喜好，然后针对每位顾客精心准备两道菜——一道严格按照他的个人口味档案来做，另一道则故意违背他的口味偏好但在客观质量上同样无懈可击，最后考察督导能不能挑出那道真正符合这位顾客口味的菜。

具体来说，研究团队利用了一个叫做LaMP-QA的数据集作为原材料。这个数据集本身是一个"个性化问答"的测试集合，里面收录了真实用户提出的问题，以及每个用户过去的历史帖子和个人叙述。每道题目都附带了一套"个人评分标准"——也就是这位用户在回答这个问题时具体希望看到哪些方面的内容，这套标准由人工验证，契合度评分高达4.9分（满分5分），可靠性非常高。

研究选取了三个"个人偏好差异最明显"的领域：艺术与娱乐、生活方式与个人发展、社会与文化。之所以选这三个方向，是因为这些领域的问题没有唯一正确答案，完全取决于个人的价值观、经历和喜好——这正是考验个性化理解能力的最佳场景。

为了构建每个用户的个人档案，团队使用了一种叫做"检索增强"的技术。简单说，就是从用户过去的大量历史互动记录中，自动找出最相关的10条，拼成一份"这个人是谁、他通常关心什么"的简要画像。

在生成回答对的环节，团队采用了一个关键的创新设计。"正确答案"由Google的Gemini-3-Flash模型在明确知晓用户个人评分标准的情况下生成——相当于厨师拿到了顾客的口味档案。"错误答案"则同样由这个模型生成，但这次输入的是"用户明确不希望看到的内容方向"——相当于厨师被告知要刻意避开顾客喜欢的一切，但仍然可以做出客观上不错的菜。这样一来，两道菜的"通用质量"旗鼓相当，唯一的区别就在于是否符合这位顾客的个人口味。

整套测试集完全由测试题目组成，没有任何训练数据混入其中。艺术与娱乐类包含767道题，生活方式类包含989道题，社会与文化类包含1074道题，每道题平均涉及4到5个具体的个人评分维度。

---

三、人工验证：这张考卷考的真的是"个人偏好"而非"质量高低"吗

设计出这套考卷之后，研究团队需要回答一个关键问题：这两道菜真的只有口味上的差异，而不是一道明显比另一道做得好吗？

为此，团队专门请了人工评审，对所有"正确答案"和"错误答案"从四个维度逐一打分。前三个维度衡量通用质量：事实准确性（信息是否正确无误）、相关性与指令遵循（是否真正回答了问题）、有帮助性与无害性（是否真正有用且没有不良内容）。第四个维度则衡量个性化契合度：这个回答是否真正满足了这位用户的个人评分标准。打分范围从1分（完全不合格）到5分（完全满足）。

结果验证了团队的设计意图。"正确答案"在三个通用质量维度上的得分分别是：事实准确性约4.94至4.99分，相关性约4.97至4.99分，有帮助性约4.89至4.97分。"错误答案"在这三个维度上同样保持了相当高的水准：事实准确性约4.55至4.72分，相关性约4.50至4.63分，有帮助性约4.30至4.55分。两类答案的通用质量差距非常有限，都处于"高质量"区间。

然而在个性化契合度这一维度上，两者出现了天壤之别。"正确答案"的个人评分标准契合度在4.84至4.93分之间，接近满分。而"错误答案"则跌至1.44至1.49分，几乎垫底。这个结果清楚地表明：这张考卷里的两个选项，通用质量上半斤八两，唯一的决定性差异就是有没有满足这位用户的个人偏好。这正是这套测试想要测量的东西。

---

四、现有的"评分员"们，成绩究竟如何

测试结果出来之后，整体画面相当令人清醒。研究团队测试了三大类共二十余个当前最先进的奖励模型系统，涵盖直接输出数值分数的"标量型奖励模型"、通过语言推理来比较选项的"生成型奖励模型"，以及专门针对个性化场景微调过的"个性化奖励模型"。

即使是表现最好的系统，Google的Gemini-3-Flash，也只在"生活方式与个人发展"这个类别里达到了75.94%的正确率，在"艺术与娱乐"类别里是72.36%，在"社会与文化"类别里是75.51%。GPT-5.1在这三个类别里分别是65.45%、70.88%和66.76%，Anthropic的Claude-Sonnet-4-6则是67.28%、70.68%和73.56%。

在标量型奖励模型这一类，internlm2-7b-reward的表现相对突出，在生活方式类达到了71.69%，在社会与文化类达到了74.95%。然而令人意外的是，参数量更大的internlm2-20b版本，在所有三个类别里都不如7b版本——这说明在个性化偏好理解这件事上，模型规模的扩大并不会自动带来进步。类似的"越大越差"现象也出现在mR3系列的14B和8B版本之间。

那些专门为个性化场景微调过的奖励模型，表现同样不尽如人意。Bradley-Terry方法在三个类别里分别是63.75%、66.84%和64.99%，PAL方法则更低，最差的情况下只有48.76%到49.34%，几乎等同于随机猜测的水平。

与此形成鲜明对比的是，当研究者把真实的个人评分标准直接喂给Gemini-3-Flash，让它作为一个知道所有个人偏好信息的"理想督导"来判断时，正确率在三个类别里分别达到了97.78%、99.09%和98.60%——几乎是满分。这两个数字之间超过20个百分点的巨大差距，既说明这套考卷本身的答案是清晰可辨的（不是题目太难或者本来就没有正确答案），也说明现有系统的问题根本在于无法推断和应用用户的个人偏好。

---

五、用户档案能帮上忙吗，以及应该怎么用

既然问题在于系统不了解用户的个人偏好，一个自然的想法是：直接把用户的历史档案塞给这些评分员，让它们自己去读，不就行了？

实验结果给出了一个出乎意料的答案：直接塞反而会让情况变得更糟。研究团队发现，在大部分测试模型上，把用户的历史档案直接附加到输入里，比完全不给档案信息的情况下表现还要差。原因在于，这些评分员是在标准的"问题-回答"格式下训练出来的，突然多了一大段"用户历史聊天记录"，对它们来说就是格式不匹配的噪声，不仅没有帮助，反而造成了干扰——这就好比一个从来没读过菜单的服务员，你突然扔给他一叠手写的顾客日记，他只会更加手足无措。

为了解决这个问题，研究团队提出了一个两步走的策略。第一步，先用一个专门训练过的"翻译官"（在论文里称为"计划器"），把用户的历史档案转化为结构化的个人评分标准——也就是把那叠手写日记浓缩成一份简洁的口味清单，列明"这位顾客喜欢什么、不喜欢什么"。第二步，再把这份口味清单交给评分员，让它在这个清晰指引下进行评分。

这个"先翻译，再评分"的方案效果显著。在Skywork、InternLM、RM-R1和Gemini这四个系列的模型上，使用这个方案之后，性能都有了明显回升，大多数情况下不仅弥补了直接注入档案带来的损失，而且比完全不用档案的基准情况还要好。这个结果表明，用户档案本身是有价值的信息，关键在于用正确的方式把它转化成评分员能理解的格式。

对于那些专门微调过的个性化奖励模型，研究团队也专门做了对比实验。结果同样有趣：参数量更小的Llama-3.2-3B模型，在加入用户档案之后，在生活方式类别里达到了71.99%，在社会与文化类别里达到了72.07%，明显高于参数量更大的Llama-3.1-8B在同一场景下的67.04%和68.34%。这再次印证了一个结论：对于个性化理解这种能力，模型架构的适应性和数据效率比单纯堆砌参数规模更重要。

---

六、考卷上的成绩能预测真实工作表现吗

一套评估工具的价值，最终取决于它能不能准确预测"被评估的系统在实际应用中表现如何"。这是这项研究投入大量精力验证的另一个核心问题。

研究团队设计了两种"真实工作场景"来检验这一点。第一种叫做Best-of-N（从N个中选最好的，简称BoN）：让一个较小的语言模型（Qwen2.5-0.5B-Instruct）针对每道题目生成16个不同的候选回答，然后让被测的奖励模型从中选出它认为最好的一个，最后用一个更强的大模型（Qwen2.5-32B-Instruct）按照用户的个人评分标准来评判这个被选中的回答质量如何。第二种叫做PPO（近端策略优化），这是一种强化学习训练方法：用被测的奖励模型直接训练那个较小的语言模型，让它的行为朝着奖励更高的方向调整，训练完成后再评估这个被优化过的模型在回答问题时的表现。

之所以使用较小的Qwen2.5-0.5B作为受训模型，是一个刻意的实验设计：它的基础能力有限，所以最终表现的好坏主要取决于奖励模型的引导质量，而不是模型本身的能力。

评估指标方面，团队使用了四种衡量排名一致性的方法。Spearman's ρ衡量整体排名的单调一致性，简单说就是"考卷上排第一的系统，在实际工作里是不是也接近第一"。NDCG和Weighted τ则更关注顶部排名的准确性，也就是"最优秀的几个系统有没有被准确识别出来"。RBO衡量两个排名列表从顶部开始的重叠程度。

结果相当有说服力。Personalized RewardBench在BoN场景下的NDCG达到了0.9180，Weighted τ达到了0.3409，Spearman's ρ达到了0.2571。在PPO场景下，NDCG达到了0.9265，Weighted τ达到了0.4793，Spearman's ρ达到了0.3714。相比之下，对照基准PersonalRewardBench（来自Chatbot Arena的个性化版本）在BoN场景下的NDCG只有0.6586，Weighted τ甚至是负数（-0.0736），意味着它的排名结果与实际工作表现完全背道而驰——在考卷上排名高的系统，在实际工作中反而表现差。PRISM数据集的个性化版本也类似，Weighted τ仅有0.0170，基本等同于没有预测价值。

换句话说，用Personalized RewardBench的考卷成绩来预测哪个评分员在实际工作中表现更好，准确度远高于现有的其他测试方案。这才是一张好考卷真正应该做到的事情。

---

说到底，这项研究揭示了当前AI对齐技术中一个被长期低估的盲区。目前的"品味评分员"们，在判断"一个回答客观上够不够好"这件事上已经相当熟练，但在判断"这个回答有没有真正满足这位用户的个人需求"时，仍然存在相当大的认知鸿沟。

这个发现的意义并不局限于技术层面。当AI系统被越来越广泛地应用于教育辅导、健康建议、生活决策等与个人深度相关的场景时，一个无法准确理解个人偏好的"评分员"，可能会在训练过程中系统性地引导AI产生那种"看起来很好但就是不对"的回答——通用质量合格，个性化体验糟糕。

研究团队提出的基准测试工具已经开源，可以通过arXiv编号2604.07343查阅完整论文，数据集也在Huggingface平台上公开，供研究者直接使用。正如研究者在论文中指出的，如何训练出真正具备个性化理解能力的奖励模型，仍然是一个大有可为的开放问题。毕竟，一位真正称职的"品味评分员"，不只是懂烹饪，还得真正认识每一位顾客。

---

Q&A

Q1：Personalized RewardBench是什么，和普通的奖励模型基准测试有什么不同？

A：Personalized RewardBench是由UC Davis团队构建的一套评估工具，专门用来测试AI奖励模型能否理解个人偏好。与普通基准测试不同，它构造的两个候选答案在客观质量上旗鼓相当，唯一的区别是一个满足了用户的个人评分标准，另一个则故意违背了这些标准。这样的设计确保测试考察的是"有没有读懂这个人"，而不是"能不能区分好坏"。经人工验证，两类答案在事实准确性、相关性和帮助性方面差异极小，只在个性化契合度上差距巨大。

Q2：现有最先进的AI奖励模型在个性化偏好理解上表现有多差？

A：根据这项研究的测试，即使是表现最好的系统（Gemini-3-Flash），正确率也没有超过76%，在艺术与娱乐类别里只有72.36%。而当研究者给系统提供完整的个人偏好标准作为参考时，理论上能达到的正确率接近99%。这意味着现有系统与理想状态之间存在超过20个百分点的差距。更值得注意的是，模型参数量的增大并不能自动改善这种个性化理解能力，部分大参数模型反而不如小参数版本表现好。

Q3：为什么直接把用户历史档案喂给奖励模型反而会让效果变差？

A：现有奖励模型是在标准的"问题-回答"格式下训练的，没有处理用户历史档案的能力。直接把大量历史互动记录附加到输入中，会造成训练格式与测试格式的严重不匹配，形成噪声干扰。研究团队发现更有效的做法是先用一个专门训练过的"计划器"模块，把历史档案转化为结构化的个人评分标准，再把这个清晰的口味清单交给奖励模型。这种两步走的方案在多个模型系列上都能稳定提升性能。

查看全文

http://www.jsqmd.com/news/653041/