当前位置: 首页 > news >正文

阿里:构建生成式用户画像

📖标题:UserGPT Technical Report
🌐来源:arXiv, 2605.08766v1

🛎️文章简介
🔸研究问题:如何解决传统基于标签的用户画像方法存在的逻辑不一致、长尾行为泛化能力差,以及现有大语言模型在复杂隐式个性化推理中表现不足的问题?
🔸主要贡献:提出了 UserGPT 框架,通过行为模拟引擎、数据语义化流水线及课程驱动的后训练策略,显著增强了大模型对用户长期行为历史的推理与总结能力。

📝重点思路
🔸构建用户行为模拟引擎,利用人格驱动代理和环境交互代理生成包含多年生命周期、具备逻辑一致性和噪声的真实感用户行为轨迹,解决真实数据稀缺问题。
🔸设计以数据为中心的语义化模块,通过微观实体细化去除营销噪声并补充稀疏信息,结合宏观时空行为语料构建,将杂乱日志转化为结构化、高密度的多源用户行为序列。
🔸提出课程驱动的后训练范式,包含多阶段监督微调(从标准问题到争议问题再到综合总结)和双过滤组相对策略优化强化学习,逐步提升模型的时序推理和逻辑一致性能力。
🔸建立整体人格推理基准 HPR-Bench,涵盖原子属性推断和用户画像总结两个任务,通过多层级质量控制和人工验证,为评估大模型的用户理解能力提供标准化测试集。

🔎分析总结
🔸UserGPT 在原子标签预测任务上 Avg@10 得分达 0.7325,在画像总结任务上 Acc Ex 得分达 0.7528,性能媲美或超越参数量大数十倍的顶尖基座模型。
🔸生成的用户画像总结能将平均 15K token 的行为历史压缩至 1.2K token,压缩率高达 97.9%,同时保持了约 97.5% 的核心信息覆盖率。
🔸消融实验证明,仅使用高质量争议样本训练比混合数据效果更好,且多阶段课程学习策略能有效平衡原子属性准确性与综合叙述的连贯性。
🔸即使是最先进的通用大模型,在未经过领域特定适配时,在处理家庭背景等复杂维度及区分临时意图与稳定偏好方面仍存在显著缺陷。

💡个人观点
论文采用生成式叙事来构建用户画像,构建了一套完整的数据闭环。

http://www.jsqmd.com/news/913879/

相关文章:

  • Linux生产者消费者模型:从原理到工程实践深度解析
  • Claude NPV分析五维验证法:IRR/PI/MIRR/ROIC/ΔNPV协同校验,规避黑箱估值陷阱
  • AI 认知迭代背景下知识生产的范式转移与青年学子的前进方向探索
  • 别再只用Action了!用UnityEvent重构你的UI按钮与游戏事件系统,提升编辑器友好度
  • T-pro-it-2.0-GGUF快速入门:5分钟在本地部署AI模型的完整教程
  • CAXA电子图板中文版保姆级下载及安装步骤指南
  • 别再找破解版了!用Tampermonkey + GM_download API自制音乐下载工具全流程
  • 从“网格终止”到“冗余版本”:深入解读LTE Turbo码里那些容易被忽略的设计细节
  • 告别虚拟机!用群晖Docker容器化OpenWrt,打造轻量级家庭网络实验室
  • TypeScript编程:命名空间(Namespace)与模块化详解
  • PostgreSQL12恢复配置总结
  • Fluent PBM后处理详解:Discrete vs. Continuous方法下,Number Density、n(L)、n(V)到底该选哪个?
  • CVE-2018-8174漏洞复现实验报告
  • 防火墙配置与外网访问
  • 别再为找不到引导盘发愁了!手把手教你解决Dell服务器安装CentOS7时的‘dracut’报错
  • 从51到STM32:为什么我建议你先学标准库再碰HAL库(附江科协视频推荐)
  • QTableView 简单使用(笔记)
  • 别再为投稿PDF乱码发愁了!Pattern Recognition Letters投稿文件类型选择全解析
  • 别再手动调资源了!Spark动态资源分配(Dynamic Allocation)在YARN/K8s上的保姆级配置指南
  • 从《原神》血条到VR菜单:拆解Unity Canvas三种渲染模式在真实项目里的应用
  • 如何快速提升GitHub访问速度:免费浏览器插件终极指南
  • Java打印避坑指南:用PDFBox和AWT精准控制纸张与边距(附完整代码)
  • 微信如何创建群投票|西瓜评选零门槛靠谱教程 - 投票小程序
  • 告别手动!为你的Unity项目打造一个AssetPostprocessor自动图片导入配置器
  • 三菱FX3U PLC串口通讯实战:从RS/RS2指令到Modbus RTU读取编码器数据
  • 群晖Docker跑OpenWrt旁路由,保姆级避坑指南(含macvlan网络配置详解)
  • 别再硬编码了!SAP MB51报表增强的优雅解法:利用隐式增强与自定义表动态扩展ALV
  • 破四唯、给企业放权、建黑名单——2026浙江职称评审迎来最严改革
  • 别再乱勾选MicroLIB了!STM32串口打印printf的两种配置方式详解(附避坑指南)
  • 从‘感觉’到‘算法’:智能家居中的模糊控制实战(以空调温控为例)