当前位置: 首页 > news >正文

大模型也能「千人千面」?UIUC团队提出个性化LLM路由新框架

随着大语言模型(LLM)的快速发展,我们正进入一个“模型选择”本身变得越来越复杂的时代。

一方面,大模型数量不断增加,不同模型在性能、推理成本以及回答风格上差异显著。

另一方面,在真实应用场景中,用户之间的偏好并不相同:有的用户更看重准确性,有的更关注成本,还有的更在意表达风格是否清晰、简洁或富有真情实感。

然而,现有的大多数 LLM 路由方法,仍然停留在统一的数值目标假设之下:要么只优化性能,要么只考虑成本,或者在二者之间设定阈值进行判断。这使得这些方法在多用户场景中难以适配,也无法真正做到“以用户为中心”。

针对这一问题,来自 UIUC 的研究团队在 TMLR 发表了最新工作 PersonalizedRouter,提出了一种面向多用户场景的个性化大模型路由框架,尝试学习用户隐藏的偏好特征,解决“不同用户该选最合适的大模型”的问题。

论文标题:

PersonalizedRouter: Personalized LLM Routing via Graph-based User Preference Modeling

论文地址:

https://arxiv.org/abs/2511.16883

代码地址:

https://github.com/ulab-uiuc/PersonalizedRouter

方法核心:基于用户隐藏偏好特征,进行LLM选择

PersonalizedRouter 的核心思想是:不再假设用户偏好是已知或固定的,而是从历史交互数据中,学习每个用户的隐式偏好,并据此为每一次查询选择最合适的大模型。

与以往基于向量匹配或规则判断的方法不同,PersonalizedRouter 从结构化建模的角度重新思考了 LLM 路由问题。

研究者将用户交互数据转化为一个异构图,其中包含四类节点:用户(User)任务(Task)查询(Query)大模型(LLM),不同类型节点之间通过边连接,例如用户–任务、任务–查询、查询–LLM 等。

其中,查询–LLM 边是整个路由决策的关键,边的特征来自用户的历史选择结果(如性能–成本加权权衡数值,或由 LLM-as-a-Judge 选出的最佳回答),它直接对应了在某一次交互中,这个查询最终由哪个 LLM 执行。

在图构建完成后,通过在该图上使用图神经网络(GNN),经过多轮传播后,每一类节点都会得到一个高维嵌入向量。

其中用户节点的嵌入编码了该用户在历史交互中体现出的偏好特征,因此模型可以在消息传递过程中逐步学习到不同用户在性能、成本和回答风格上潜在的偏好差异。

最终,LLM 选择被统一建模为一个链接预测问题。模型会将用户、任务和查询三个节点的最终嵌入进行融合,得到的联合嵌入用于刻画当前用户在某个任务下查询的需求。

接下来,该联合嵌入将会分别与每一个候选 LLM 的嵌入进行匹配计算。最终得到的分数用户衡量哪一个模型最可能是“这个用户最满意的选择”。

两种模拟策略,系统评估「个性化能力」

在多用户 LLM 路由场景下,真实用户偏好既复杂又难以直接获取。如果仅在单一评价指标下进行评估,很容易错误估计模型的实际水平。

因此为了系统性地评估不同路由方法在多用户场景下的表现,论文设计了两种模拟评估策略:

1. 多成本-性能权衡模拟

聚焦于性能与推理成本之间的权衡,通过不同权重组合,模拟从性能优先到节省成本优先等多种用户类型。

论文通过线性组合构造一个统一的 reward 函数,reward 函数由回答的性能和成本约束,其中性能与成本分别拥有不同权重。

2. LLM-as-a-Judge 模拟

在很多应用场景中,用户更关心 LLM 的回答是否符合自己的阅读和理解习惯,而这类偏好往往难以用传统指标量化。

论文利用额外的大模型作为裁判,根据不同用户画像(如工程师、学生、内容创作者等)来判断哪种回答更符合其偏好,从而模拟选出最适合各个群体的答案。

PersonaRoute-Bench:更大规模的多用户评测基准

为了检验个性化路由在真实系统级别的可扩展性,研究者构建了 PersonaRoute-Bench,将评测从小规模用户推进到更贴近真实应用的千级用户规模。

在这个基准中,研究者围绕两个关键目标进行设计:1)用户偏好分布要足够丰富,减少使用刻板用户风险;2)偏好标注机制更加稳健,减少单一裁判模型引入的偏差。

在多成本-性能权衡模拟路径下,研究者通过采用更细粒度的偏好阈值,将reward 函数形成更连续的偏好值,以模拟真实世界中用户多样性的场景。

在 LLM-as-a-Judge 模拟路径下,研究者采用了三种不同的裁判 LLM,每种裁判 LLM 依次采用两种不同的裁判指令模板进行选择。最终每一个用户画像将在 6 种裁判配置下进行用户偏好模拟。

实验结果:在多种场景下显著优于现有方法

实验结果表明,PersonalizedRouter 在多项关键指标上均显著超过现有主流方法:

如上图所示,在小规模设置(9 名用户、10 个候选 LLM)和 PersonaRoute-Bench 大规模设置场景下,PersonalizedRouter 能够在两种设置下同时取得优势。

进一步对比小规模与大规模实验可以发现 PersonalizedRouter 在用户数量从个位数扩展到千级时,性能在保持领先的情况下,相比较最佳表现仅下降约 5%。

如上图所示,在引入新用户或新模型的场景下,PersonalizedRouter表现出强大的泛化性,仍可达到完整训练模型大部分的性能。

如上图所示,考虑到模拟用户不能完全模拟真实用户行为分布,研究者在一个Human-as-a-Judge小规模真实用户交互数据集上进行了实验,PersonalizedRouter 在真实用户偏好下的仍具强大的能力。

总结:“以用户为中心”的路由愈发重要

在大模型能力特长不断分化、用户需求持续变化的背景下,这项工作表明,LLM 路由不应只是性能或成本的权衡,而应从用户出发,能够学习并适配用户差异。

通过将用户偏好视为可学习的隐藏变量,并在多用户、大规模场景下验证其可扩展性,PersonalizedRouter 展示了一种更接近真实系统需求的路由范式,也为构建以用户为中心的多模型协同系统提供了可行路径。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

http://www.jsqmd.com/news/201722/

相关文章:

  • 基于工业控制的vivado安装教程深度剖析
  • 1小时打造Instagram下载MVP产品
  • 树莓派4b安装系统常见显卡驱动缺失问题快速理解
  • 算法日记:分治-快排(颜色分类,排序数组,数组中的第k个最大元素 面试题17.14.最小k个数)
  • 盲人语音导航设备:GLM-4.6V-Flash-WEB转化为环境声音提示
  • AI如何帮你打造智能Redis可视化客户端
  • 深入理解库、静态库、动态库与ELF文件格式,CPU执行流程(1)
  • FFMPEG零基础入门:5个常用命令搞定日常视频处理
  • MISRA C++对汽车MCU编程的影响与优化
  • 数学题拍照答疑App:GLM-4.6V-Flash-WEB解析几何图形辅助解题
  • 新能源工控设备中PCB线宽与电流关系的实际考量
  • 比传统开发快10倍:AI一键生成B站UP主助手工具
  • XUnity Auto Translator:游戏多语言本地化的终极解决方案
  • 医院自助挂号机升级:GLM-4.6V-Flash-WEB读取医保卡与病历封面
  • 3步构建系统禁用确认流程原型
  • BJT三极管结构解析:手把手小白指南
  • 开发者收藏!10 个减少重复 CRUD 的开源工具
  • 学长亲荐!8款一键生成论文工具测评:本科生毕业论文写作全攻略
  • PyInstaller实战:5个真实项目打包案例详解
  • 5分钟原型开发:用Node.js验证你的产品创意
  • read/write 系统调用与内核 I/O 优化机制详解
  • GLM-4.6V-Flash-WEB在金融票据识别中的适应性调整建议
  • XSHELL效率革命:5个技巧节省50%终端操作时间
  • ARM架构下AI辅助开发的5个高效实践
  • 51单片机蜂鸣器硬件调试技巧:电压与电流检测方法
  • Shell 管道操作的退出码陷阱(command > >(tee logfile.log) 2>1进程替换解决退出码问题)
  • 3d打印机器拓竹A1详细参数表
  • 【论文精读(二十一)】ASSANet:给PointNet++做个“外科手术”,速度翻倍精度暴涨(NeurIPS 2021)
  • GLM-4.6V-Flash-WEB日志分析:定位推理异常的关键线索
  • NOTEBOOKLM在教育领域的5个实际应用案例