EditThinker: Unlocking Iterative Reasoning for Any Image Editor
主要思想:
- 提出多轮编辑:
- 第一轮:输入原图、编辑指令,edit模型得到输出图;MLLM根据输入图、指令、输出图判断指令一致性,输出指令一致性反思、refine之后的指令、当前编辑图得分score
- 第二轮:基于refine后的指令、输入图,进行二次编辑,并进一步使用MLLM分析
- 第n轮:直到score满足要求则停止编辑
- MLLM训练:
- 基于Qwen3-VL-8B-Instruct,采用SFT+RL训练优化,得到可以评判并优化编辑指令的MLLM模型
- SFT、RL的数据来源基于GPT-4.1构建,包括编辑轨迹生成、编辑轨迹筛选等步骤,且提出SFT、RL阶段适用不同score的数据
![../../_attachments/image 29.png]]
![../../_attachments/image 30.png]]
