2025_NIPS_InterMT: Multi-Turn Interleaved Preference Alignment with Human Feedback
文章核心总结与创新点
核心内容
本文针对多模态大模型(MLLMs)在多轮交错式理解与生成任务中的对齐缺口,提出首个聚焦该场景的人类偏好数据集INTERMT,配套构建评估基准INTERMT-BENCH。数据集通过工具增强的智能体工作流生成52.6k多轮问答实例,涵盖15+视觉-语言任务,结合32.4k人类标注偏好对(分全局/局部9个维度),用于优化模型对动态人类偏好的捕捉。研究验证了局部(单轮)偏好建模对长程交互对齐的有效性,揭示了裁判模型的多轮缩放规律,并指出当前MLLMs在全局偏好判断上与人类存在显著差距。
核心创新点
- 首个多轮交错式偏好数据集:INTERMT首次针对多轮、交错式多模态理解与生成任务,同时捕捉全局(对话级)和局部(单轮级)人类偏好,拆解为9个细分维度。
- 工具增强的智能体构建流程:融合先进MLLMs与图像生成、编辑、检索工具,模拟真实多轮交互场景,高效构建高质量交错式问答实例。
- 多维度评估体系:提出INTERMT-BENCH,涵盖评分评估、配对比较、关键步骤识别三大任务,全面衡量MLLMs在多轮多模态任务中的人类价值对齐能力。
- 偏好建模新发现:验证局部偏好建模比直接建模全局偏好更有效,发现全局到局部的偏好迁移更易实现,揭示裁判模型的多轮缩放规律(训练轮数增加提升未来偏好预测能力,但长程泛化效果递减)。
