当前位置: 首页 > news >正文

解决GRPO优势归因错误,Chunk-GRPO让文生图模型更懂节奏

文本到图像(T2I)生成模型的发展速度超出很多人的预期。从SDXL到Midjourney,再到最近的FLUX.1,这些模型在短时间内就实现了从模糊抽象到逼真细腻的跨越。但问题也随之而来——如何让模型生成的不仅仅是"一张图",而是"正确的那张图"?这涉及到如何让AI理解人类在审美、风格和构图上的真实偏好。

强化学习(RL)成为解决这个问题的关键技术。通过将人类偏好分数作为奖励信号,可以对这些大模型进行微调。群体相对策略优化(GRPO)是近期比较热门的方案。但清华大学和快手的研究团队最近发现,这个方法存在一个隐藏的根本性缺陷。

这个缺陷会让模型学错东西,即便最终生成的图像看起来还不错。论文"SAMPLE BY STEP, OPTIMIZE BY CHUNK: CHUNK-LEVEL GRPO FOR TEXT-TO-IMAGE GENERATION"提出了一个叫Chunk-GRPO的解决方案,思路直接并且效果出众,算是训练生成模型思路上的一次转向。

GRPO的问题:不准确的优势归因

要理解Chunk-GRPO做了什么,得先搞清楚现有方法的问题出在哪。论文把这个问题叫做**"不准确的优势归因"**(inaccurate advantage attribution)。

可以用一个类比来说明。假设你在教学徒做酸面团面包,整个流程有17个步骤。学徒做了两个面包——面包A各方面都很棒,面包B勉强及格。作为师傅,你给A打了高分(+10),给B打了低分(+2)。

标准GRPO的做法相当于告诉学徒:"面包A的每一个步骤都比B好。"它把最终的高分奖励追溯性地分配给制作A的所有17个步骤。

但实际情况可能是,做A的第3步时学徒差点打翻面团,而做B的第3步手法其实很标准。标准GRPO仍然会奖励A的糟糕第3步,惩罚B的正常第3步,就因为最终结果不同。这就是"不准确的优势归因"——模型被强化的某个具体动作,单独看其实是个错误。训练几千次之后,这种错误的反馈信号会让模型困惑,导致训练不稳定,效果也达不到最优。

论文用图像生成的真实案例展示了这个问题:

 

https://avoid.overfit.cn/post/801e16bc6ddb464bbeb532f74cdceb91

http://www.jsqmd.com/news/28573/

相关文章:

  • 2025 年 10 月虎头鲨/沙塘鳢/呆子鱼/虾虎鱼养殖厂家推荐排行榜,鱼苗批发,成鱼价格,中华河川沙鳢,土憨巴塘鳢专业养殖公司精选!
  • 2025 年 11 月人造草坪足球场厂家最新推荐,产能、专利、环保三维数据透视!
  • SpiritConfigTool.jar 做什么的
  • agent框架
  • 长句分析全攻略
  • MySQL 慢查询日志slow query log - 指南
  • 2025 年 11 月离心喷雾干燥机,振动流化床干燥机,带式干燥机厂家最新推荐,品牌深度解析采购无忧之选!
  • unity技巧备忘
  • 前端开发技术栈
  • SOA、ESB、微服务、分布式概念及专业名词阐述
  • unity技巧
  • 项目2:图书管理系统(数据库入门)
  • CF2153B Bitwise Reversion | 数学 | 模拟
  • DRL-QLearning与DQN
  • 2025 年 11 月真空耙式干燥机,高效沸腾干燥机,盘式干燥机厂家最新推荐,高性能,稳定性强的行业优选
  • 2025 年 11 月盘式干燥机,空心桨叶干燥机,振动流化床干燥机厂家最新推荐,技术实力与市场口碑深度解析
  • 2025 年 11 月双锥回转真空干燥机,离心喷雾干燥机,带式干燥机厂家最新推荐,专业制造与品牌保障口碑之选
  • DRL-时序差分学习
  • 再见了ThreadLocal,我决定用ScopedValue!
  • 查询增强插件pgfincore - 教程
  • 2025 年 11 月双锥回转真空干燥机,真空耙式干燥机,盘式干燥机厂家最新推荐,聚焦资质、案例、售后的六家机构深度解读
  • 2025 年 11 月高效沸腾干燥机,旋转闪蒸干燥机,空心桨叶干燥机厂家最新推荐,产能、专利、环保三维数据透视
  • 如何把未分配的硬盘空间分配到另一个磁盘?Windows 11,如何将未分配的磁盘分配给 C 盘?怎么把未分配的磁盘合并到d盘
  • LLM应用敏感数据防泄露指南:AI安全围栏筑牢企业自研AI应用安全防线
  • C++中`std::function`和`std::bind`的详细解析
  • k8s-应用部署和组件及常用命令(2)
  • 高级语言程序设计第3次作业
  • C++多线程相关应用
  • CSP-J 2025 复赛解析
  • 加速 Docker 镜像下载的神器:KSpeeder 上手体验