HP-Edit: A Human-Preference Post-Training Framework for Image Editing
论文信息: arXiv:2604.19406 | CVPR 2026 | 华为诺亚方舟实验室 & 哈工大 & 南开大学
核心一句话: 用少量人工偏好标注训练 VLM 评分器(HP-Scorer),再以其为奖励信号 + 困难样本筛选器,通过 Flow-GRPO 对图像编辑模型进行人类偏好对齐的后训练。
1. 问题与动机
现有痛点
图像编辑模型(如 Qwen-Image-Edit-2509、FLUX.1-Kontext)通过 SFT 训练,存在两个核心问题:
- 数据源偏移(Data Source Misalignment):训练数据混杂卡通、合成图像等非真实场景内容,与人类对真实世界编辑的偏好不对齐
- 偏好标注成本高昂:构建偏好对齐数据集需要大量人工标注,难以规模化
为什么 RLHF 没有直接迁移到编辑场景?
图像生成领域的 RLHF(Diffusion-DPO、Flow-GRPO)已证明有效,但编辑场景有本质区别:
- 生成:开放式的,"好看"就行
- 编辑:需要同时满足任务准确性(如忠实删除物体)和偏好对齐(如结果自然真实)——这是双重约束
核心假设
用少量人工偏好评分数据训练的 VLM 评分器,可以作为人类偏好的可扩展代理,既用于构建偏好数据集,又作为 RL 后训练的奖励函数。
2. 核心方法与原理

2.1 整体架构:三阶段流水线
Stage 1: HP-Scorer 训练少量人工评分(0-5) → 任务感知评分Prompt迭代优化 → VLM评分器Stage 2: 人类偏好数据构建真实图像 + VLM生成指令 → 模型编辑 → HP-Scorer评分 → 过滤掉高分简单样本 → RealPref-50KStage 3: 任务感知RL后训练RealPref-50K + HP-Scorer作为奖励 → Flow-GRPO在线训练 → 对齐后的模型
三个阶段环环相扣:HP-Scorer 是连接数据构建与 RL 训练的枢纽。
2.2 Stage 1: HP-Scorer — 从 VLM 到人类偏好代理
设计逻辑: 不从零训练评分器,而是利用预训练 VLM(Qwen3-VL-32B-Instruct)的视觉理解能力,通过精心设计的评分 Prompt 引导其输出与人类一致的分数。
评分标准(0-5 分):
| 分数 | 含义 |
|---|---|
| 0 | 完全错误,不遵循指令 |
| 1 | 部分正确但大方向错 |
| 2 | 基本正确但有关键偏差 |
| 3 | 遵循指令但视觉质量差 |
| 4 | 基本遵循,视觉质量好 |
| 5 | 完全遵循,高质量真实结果 |
Prompt 迭代优化的关键设计:
初始 Prompt 只包含基本评分标准,效果不佳。核心创新是逐步添加任务特定的推理问题:
- 物体交换(Object Swap):检查替换是否可行且完整
- 物体移除(Object Removal):检查残留伪影和背景一致性
- 颜色变化(Color Change):检查颜色变化的范围和自然度
- ...
迭代过程:人工评分 → 对比 HP-Scorer 输出 → 发现偏差 → 增加针对性推理问题 → 重新评估 → 直到收敛。
直觉解释: 这相当于给 VLM 一份"评分检查清单",让它先逐项检查再打分,而不是直接凭感觉评分。任务特异性的检查项确保了评分的精确性。
为什么不直接用 GPT-4o? 论文明确指出 GPT-4o API 延迟不稳定,无法用于在线 RL 训练(需要快速、稳定的奖励信号)。因此用 Qwen3-VL-32B 本地部署作为训练时的评分器,GPT-4o 仅用于评估。
2.3 Stage 2: RealPref-50K — 困难样本聚焦
数据构成: 55,795 条编辑三元组 $(A, B, T)$,其中 $A$ 是源图像,$B$ 是编辑结果,$T$ 是编辑指令,覆盖 8 种任务。
核心洞察:预训练模型已经能处理大部分简单情况。
这意味着如果直接用全部数据做 RL 训练,大量样本会获得满分(5 分),梯度信号极弱——模型已经做对了,没有改进空间。
解决方案:丢弃高分样本(Hard-Case Filtering)。 具体来说,得分 5 的样本被剔除,只保留得分 0-4 的"困难"样本组成 $D^\dagger$。
直觉解释: 这就像教学——学生已经掌握的知识不需要反复练习,应该把时间花在还不会的题目上。RL 训练同理,困难样本提供更丰富的梯度信息。
类别平衡策略: 使用 CLIP 计算输入图像与所有 MS-COCO 类别的相似度,确保各物体类别的均匀覆盖,避免偏好学习偏向常见类别。
2.4 Stage 3: 任务感知 RL 后训练(Flow-GRPO)
数学基础:
Flow Matching 的前向过程:
$$x_t = (1-t)x_0 + t \cdot x_1, \quad t \in [0,1]$$
模型学习速度场 $v_\theta(x_t, t)$ 来近似目标速度 $x_1 - x_0$,训练目标:
$$\mathcal{L}{FM} = \mathbb{E}\left[|v_\theta(x_t,t) - (x_1 - x_0)|^2\right]$$
从确定性 ODE 到随机 SDE: 标准 Flow Matching 是确定性的,无法提供 RL 所需的策略分布。Flow-GRPO 将其转换为等价边际概率密度的 SDE:
$$dx_t = \left(v_t(x_t,t) + \frac{\sigma_t^2}{2t}\left(x_t + (1-t)v_t(x_t,t)\right)\right)dt + \sigma_t dw$$
其中 $w$ 是标准维纳过程,$\sigma_t$ 控制生成过程中的随机性。这个转换保证了 SDE 的边际分布与原始 ODE 一致,使得 GRPO 可以在这种随机框架下优化。
GRPO 的优势计算: 对同一 Prompt $c$,生成 $G$ 个样本,第 $i$ 个样本的优势:
$$\hat{A}^i = \frac{R(x_T^i, c) - \text{mean}({R(x_T^j, c)})}{\text{std}({R(x_T^j, c)})}$$
直觉:在同组样本内做相对比较,高奖励的样本被强化,低奖励的被抑制。
GRPO 目标函数:
$$J_{\text{Flow-GRPO}}(\theta) = \mathbb{E}{c,{x^i} \sim \pi{\theta_{\text{old}}}}\left[\frac{1}{G}\sum_i \frac{1}{T}\sum_t \min\left(r_ti(\theta)\hat{A}i, \text{clip}(r_t^i(\theta), 1-\varepsilon, 1+\varepsilon)\hat{A}^i\right) - \beta \cdot D_{KL}(\pi_\theta | \pi_{\text{ref}})\right]$$
其中 $r_t^i(\theta) = \frac{p_\theta(x_{t-1}|x_t,c)}{p_{\theta_{\text{old}}}(x_{t-1}|x_t,c)}$ 是重要性采样比率,clip 机制防止策略更新过大,KL 散度项防止偏离参考策略太远。
奖励归一化: HP-Scorer 输出 0-5 分,通过 sigmoid 映射到 [0,1]:
$$r = \frac{1}{1 + \exp(-\alpha \cdot s + \beta)}$$
其中 $\alpha=2, \beta=5$,这组参数使得:
- 得分 5 → $r \approx 1$(接近满分)
- 得分 2.5 → $r \approx 0.5$(中间值)
- 得分 0 → $r \approx 0$(接近零分)
训练配置: 仅训练 LoRA(rank 32),冻结主体参数。这既控制了训练成本,也降低了过度优化的风险。
3. 实验设计逻辑
3.1 实验作为论证链条
实验设计围绕一个核心论证:HP-Edit 的每个组件都是必要的,且整体优于部分之和。
消融实验的四行结果构成递进论证:
| 配置 | HP-Score | 论证作用 |
|---|---|---|
| Baseline | 4.472 | 起点 |
| BaseData + BaseScorer | 4.391 | 反而下降→ 证明原始数据+简单评分器不可行 |
| RealPref-50K + BaseScorer | 4.577 | 数据质量有效 → 困难样本筛选是关键 |
| RealPref-50K + HP-Scorer | 4.667 | 评分器质量有效 → 两个组件互补增强 |
最关键的发现是第二行性能下降——这证明了一个反直觉但重要的结论:不好的偏好数据比没有偏好数据更糟。简单样本的奖励信号太弱,甚至会误导优化方向。
3.2 评估体系
主评估:RealPref-Bench(1,638 条)
- 每个子任务约 200 条,手工验证指令与人类偏好对齐
- 使用 GPT-4o 版 HP-Scorer 评分(非训练用的 Qwen3-VL 版本)
跨基准验证:GEdit-Bench-EN + DreamBench++
- 证明改进不是对 RealPref-Bench 的过拟合
- GEdit-Bench 上 HP-Score、G_PQ、G_O 三项均达到 SOTA
用户研究: 5 名标注者评估 1K+ 编辑对,Pearson 相关系数 0.89,验证 HP-Scorer 与人类判断的高度一致性。
3.3 DPO vs GRPO 对比
| 方法 | HP-Score |
|---|---|
| DPO | 4.521 |
| GRPO + HP-Scorer | 4.590 |
| HP-Edit (Full) | 4.667 |
DPO 的局限:离线方法,依赖预挖掘的 winner/loser 对;GRPO 在线采样 + HP-Scorer 反馈,能动态探索更优解。
3.4 缺失的实验
- 多模型泛化验证:实验仅在 Qwen-Image-Edit-2509 上验证,缺少在 FLUX.1-Kontext、Step1X-Edit 等其他基座模型上的结果
- HP-Scorer 的 VLM 规模消融:仅使用 Qwen3-VL-32B,缺少更小模型(如 7B)能否胜任的分析
- 高分过滤阈值消融:仅实验了丢弃得分 5 的样本,缺少丢弃 4+5 或仅丢弃 5 的对比
4. 创新点与局限
真正的创新
-
VLM 评分器的任务特异性 Prompt 迭代优化:不是简单地把评分标准丢给 VLM,而是通过"检查清单"式的推理问题让 VLM 逐步逼近人类判断。这比通用的评分 Prompt 精确得多,且成本远低于纯人工标注。
-
困难样本过滤作为 RL 数据策略:反直觉地丢弃高分样本,保留"模型做不好的案例"用于 RL 训练。这与课程学习(Curriculum Learning)的思路相反——不是从简到难,而是只用难题。这是因为 RL 的梯度信号来自奖励差异,简单样本的奖励差异太小。
-
统一框架:HP-Scorer 同时作为数据过滤器(Stage 2)和奖励函数(Stage 3),减少了系统复杂度,也确保了数据构建和 RL 训练的偏好一致性。
与最接近工作的本质区别
- vs Diffusion-DPO:DPO 是离线方法,需要预先构造偏好对;HP-Edit 是在线方法,通过 GRPO 动态采样 + 评分器反馈,能发现更优编辑方案
- vs Flow-GRPO(原始):原始 Flow-GRPO 面向 T2I 生成,缺少编辑场景的任务特异性奖励;HP-Edit 的 HP-Scorer 是为编辑任务专门设计的
- vs EditThinker:EditThinker 用 MLLM 做多轮迭代编辑+反思;HP-Edit 用 VLM 做单次评分 + RL 优化,思路完全不同
