浙江大学揭秘:为什么AI画图时“记住噪声“能让效果提升12倍效率?
这项由浙江大学联合上海浙江大学高等研究院、上海数学与交叉科学研究院共同完成的研究,发表于2026年第43届国际机器学习大会(ICML 2026),会议地点为韩国首尔,收录于PMLR 306论文集。感兴趣的读者可通过论文编号arXiv:2605.09433查阅完整原文。
当你打开某款AI绘图软件,输入一段描述,几秒钟后屏幕上便浮现出一幅画作。这个看似魔法般的过程,背后其实是一场精心设计的"从噪点到图像"的旅程。然而,浙江大学的研究团队发现,现有的AI绘图优化技术长期以来忽视了一个至关重要的东西——那团最初的噪点本身。正是这个发现,让他们将训练效率提升了整整十二倍。
一、AI画图:一场从混沌到秩序的旅程
要理解这项研究,得先弄清楚现代主流AI绘图模型是怎么工作的。目前最先进的图像生成模型,比如FLUX和Stable Diffusion 3,本质上是在做一件事:把一堆随机噪点,按照某条特定的路径,一步步"雕刻"成一张图片。
研究团队采用的技术叫做"整流流"(Rectified Flow,简称RF)。可以把它理解成这样一幅场景:你手里握着一团棉絮(代表随机噪点),你要把它捏成一只兔子的形状(代表最终图片)。普通的方法捏得弯弯曲曲,路径复杂。而整流流的厉害之处在于,它的捏法几乎是走直线的——从起点到终点,路径笔直,几乎不绕弯路。
正因为路径是笔直的,只要你知道起点(那团噪点)和终点(那张图片),你就可以用简单的线性插值来推算中间任意时刻的状态——就像你知道火车的出发站和终点站,以及它匀速行驶,就能算出任何时刻它在哪里。这个"直线特性"是整流流区别于传统扩散模型的核心优势,也是这项研究能够成立的物理基础。
然而,当前所有主流的AI绘图偏好优化方法,都犯了一个同样的错误:它们在收集训练数据时,只保存了那只兔子(最终图片),把那团原始棉絮(初始噪点)给扔掉了。
二、被遗忘的"起点":为什么初始噪点不是废料
研究团队指出,现有的偏好数据集——就是那些记录了"这张图比那张图好"的对比数据——普遍只存储了最终的胜出图片和落选图片,完全丢失了生成这两张图时各自使用的初始噪点。
这件事之所以是个严重问题,可以用一个更直观的类比来解释。假设你是一位导演,要评判两个演员的表演质量。其中一个演员从准备阶段就开始录像,你能看到他从最初的状态一步步磨练出最终表演的全过程。另一个演员只给你看了最终表演的录像,你完全不知道他中间经历了什么。评判前者显然更准确、更公平,因为你掌握了完整的"轨迹信息"。
在AI绘图的语境里,那团初始噪点就相当于演员的准备状态。不同的初始噪点,会经过不同的路径,生成截然不同的图片。对于整流流模型来说,初始噪点不是随便可以替换的背景信息,它是决定整条生成轨迹的"身份证"。丢失了它,就等于丢失了这条轨迹最关键的起点。
传统的优化方法(以Diffusion-DPO为代表)面对这个问题时的做法是:重新随机抽取一团噪点,用"往图片上加噪声"的方式来反推中间状态。但这个做法有个根本性的缺陷——它重新抽取的噪点,和当初真正生成那张图的噪点根本不是同一个,路径完全对不上。这就像你试图用一张陌生城市的地图,来还原某人在自己家乡的行走路线,结果显然南辕北辙。这种路径失配导致的后果就是:训练不稳定、效率低下、优化效果打折扣。
三、PNAPO:带着"出发地点"去优化
浙江大学的团队提出了一个改进方案,名为"先验噪声感知偏好优化"(Prior Noise-Aware Preference Optimization,PNAPO)。这个方案的核心思路极其朴素:在构建训练数据时,把那团初始噪点一起存下来。
具体来说,传统的偏好数据是一个三元组:提示词、胜出图片、落选图片。PNAPO把它扩展成了一个六元组:提示词、胜出图片、胜出图片对应的初始噪点、落选图片、落选图片对应的初始噪点,以及这两张图之间量化的质量差距分数。
数据集的构建分三步完成。第一步是准备提示词。研究团队使用了一个名为DiffusionDB的大型数据集,它包含了180万条真实用户使用的文本描述。他们对这些提示词进行了严格筛选:先用内容安全工具过滤掉不良内容(保留了约83.67%的提示词),再通过文本相似度和语义相似度两轮去重(分别以Jaccard相似度和CLIP余弦相似度0.8为阈值),最后用KNN聚类算法把提示词分成100个语义群,从每个群中均衡采样,确保覆盖的话题足够多样。最终精炼出2万条高质量且多样化的提示词。
第二步是生成图片并保存噪点。对每条提示词,模型各生成两张图片,同时把生成每张图时采样的初始噪点一并记录下来。值得注意的是,这里直接用已经微调过的模型来生成数据,而不是用原始基础模型——这样做是为了确保偏好优化的过程更加稳定。
第三步是打分标注。团队用一个预训练的图像质量评分模型HPSv2.1来给每对图片打分,计算出两张图之间的分数差值。这个差值不是简单的"好/坏"二选一标签,而是一个连续的数值,能够反映"稍微好一点"和"好很多"之间的微妙区别,为后续的动态调节训练提供了基础。
四、直线路径的妙用:用插值代替猜测
有了配对的初始噪点之后,PNAPO就能发挥整流流"直线特性"的最大价值了。
在优化过程中,需要比较模型在生成路径中间某个时刻的表现。由于有了起点(初始噪点)和终点(最终图片),根据整流流的直线特性,中间任意时刻t的状态,就是用公式 x_t = (1-t)×图片 + t×噪点 来计算的。这就是线性插值——和你小学学过的"按比例混合"是同一个道理。
这种做法和传统Diffusion-DPO相比,从数学上被证明引入的误差更小。研究团队用KL散度(一种衡量两个概率分布差异程度的指标,可以理解为"走错路的程度")严格推导出:PNAPO的估计方式所走的"弯路",始终不大于传统方法所走的"弯路"。换句话说,PNAPO对真实生成轨迹的还原,在理论上就是比传统方法更准确的。
这个发现还解释了为什么PNAPO能大幅降低训练成本。传统方法因为路径估计不准,相当于在一个非常大的搜索空间里摸索,每次梯度更新都带着很多噪声。PNAPO通过约束路径估计的空间,把这个搜索范围大大缩小,每次更新都更有效率。从实验数据来看,在FLUX模型上,PNAPO只需要约35.2个GPU小时,而传统Diffusion-DPO需要约422.4个GPU小时,效率差距达到了12倍。在Stable Diffusion 3 Medium(SD3-M)模型上,PNAPO约需20.8个GPU小时,而传统方法约需249.6个GPU小时,同样是12倍的差距。
五、动态调节:训练也需要因时制宜
PNAPO的另一个创新是引入了"动态正则化策略",用来解决传统偏好优化训练过程中固执地"用同一把尺子量所有东西"的问题。
理解这个问题,可以借助一个教学的场景。假设你是老师,学生交上来的作业质量参差不齐:有些作业差得一眼就能看出来(奖惩力度理应大),有些作业只是比另一份稍微好一点点(奖惩力度应该相对小)。传统方法给所有作业套用同一个固定的奖惩系数β,显然不够精准。
更进一步,随着训练的推进,模型已经学得越来越好了,如果还像最初那样用很强的力度推动它远离参考模型,反而会适得其反,让它越学越偏。就像学生学到了一定程度,老师应该逐渐放手,让他自己巩固,而不是还在旁边用力推。
PNAPO的动态正则化把β系数拆成了三部分的乘积。基础系数β是一个固定的初始值,保证了整体优化方向的正确性。样本难度控制器f(δr)是一个与两张图质量差值δr相关的函数,通过sigmoid函数将质量差值映射到0到1之间——质量差距越大,这个因子越接近1,推动力越大;差距越小,推动力越小,精细打磨。训练进度控制器g(n)则是一个随训练步数n变化的余弦衰减函数:在训练初期(步数小于n?之前),保持满功率推进;当步数超过n?之后,g(n)开始缓缓下降,到步数达到n?时,它已经降到了初始值的一半;之后维持在这个较低水平。研究团队经过实验验证,当n?设为1000、n?设为2000时,训练效果最好。
从梯度分析来看,这个动态策略的深层逻辑在于:当模型对某对图片的判断还不准确(边际为负)时,适当提高β能加速它对正确方向的学习;当模型判断已经准确(边际为正)时,降低β能防止它过度偏离参考模型,保持稳定性。消融实验证明,仅加入样本难度控制器f(δr),各项指标就有明显提升;仅加入训练进度控制器g(n),效果也优于固定β;二者结合才能达到最优。
六、实验结果:数字背后的真实改变
研究团队在两个最先进的整流流图像生成模型上进行了全面验证:FLUX.1-dev和Stable Diffusion 3 Medium。在FLUX上采用LoRA(一种低秩参数适配技术,可以理解为只微调模型中一小部分关键"旋钮")进行微调,在SD3-M上进行全参数微调。对比基线方法包括原始基础模型、监督微调(SFT)、Diffusion-DPO、IPO和CaPO等多个方向。
在偏好评分方面,研究团队使用了HPDv2(包含3200条测试提示词)和OPDv1(包含7459条测试提示词)两个独立测试集,通过PickScore、HPSv2.1、ImageReward、LAION美学评分和CLIP文本对齐度五个维度进行综合评估,同时记录PNAPO模型相对于各基线的胜率。结果显示,PNAPO在几乎所有指标上都超越了所有基线方法。以OPDv1测试集的HPSv2.1分数为例,PNAPO微调后的SD3-M达到了33.09分,比原始SD3-M高出1.13分;PNAPO微调后的FLUX达到了32.10分,比原始FLUX高出1.36分。PNAPO-FLUX的HPSv2.1胜率对比DPO-FLUX达到84.6%,对比IPO-FLUX达到81.1%。
在文本对齐方面,研究团队使用GenEval这个专门评估图像与文字描述对应程度的基准进行测试。SD3-M在PNAPO加持下,整体评分从0.68提升至0.73,提升幅度7.4%,比CaPO方法高出2.8个百分点。FLUX则从0.65提升至0.69,提升幅度6.2%,比DPO-FLUX高出4.5个百分点。细分来看,PNAPO-SD3-M在计数(Count)这个最难的子任务上从0.56提升到了0.71,在属性绑定(Attribute)上也有明显进步。
为了验证人类的真实感受,研究团队还进行了用户研究,邀请了10位参与者,每人评估20对随机选出的图片,对比PNAPO-FLUX与其他方法的效果。在整体偏好方面,PNAPO-FLUX获得了56%的偏好率;在视觉吸引力方面达到72%;在文字对齐程度方面达到52%。这些数据统计上显著地证明了PNAPO与人类审美判断的高度吻合。
消融实验进一步拆解了各个组件的贡献。加入初始噪点配对(即PNAPO的核心改动)后,相比标准DPO,PickScore从22.97提升至23.06,HPSv2.1从30.84提升至31.08,美学评分从6.307提升至6.394。在此基础上再加入动态正则化,各指标进一步全面提升至最优水平(HPSv2.1达到31.71,美学评分达到6.475)。即便移除初始噪点(仅保留动态正则化),效果仍然优于原始DPO,说明动态调节策略本身也有独立价值。
在奖励模型的选择上,实验表明使用文本感知型奖励模型(PickScore和HPSv2.1)训练出来的模型,在视觉质量和文字渲染两方面都有综合提升;而单纯使用美学评分模型,虽然美学分数更高,但文字对齐度会有所牺牲。HPSv2.1因为综合考量了多个维度,在所有奖励模型中表现最均衡。
七、局限与展望:这项研究还有哪些未竟之路
研究团队也坦诚地指出了当前方法的局限性。PNAPO的训练数据必须由被优化的那个模型自身生成,因为不同模型使用的噪点分布不同,无法直接互通。简单来说,不能用FLUX生成的数据去训练SD3-M,反之亦然。这在一定程度上限制了数据的复用性。
此外,DiffusionDB数据集中的提示词质量参差不齐,许多提示词描述并不连贯,可能限制了生成图片的上限质量。团队提出,未来可以借助多模态大语言模型对提示词进行润色和改写,进一步提升数据集的整体质量。
从更长远的方向来看,研究团队希望将PNAPO从离线学习扩展到在线学习范式,让模型能够在与真实用户的持续交互中不断迭代改善。动态参数优化策略也有进一步发展的空间,可以探索更精细的自适应调节机制。
说到底,这项研究做的事情,在直觉上非常自然:生成一张图的"故事",从最初那团随机噪点就开始了,凭什么优化的时候可以把这个起点忽略掉?浙江大学的团队用这个看似简单的洞察,配合整流流本身的数学特性,设计出了一套更忠实于真实生成过程的优化框架。
这对普通用户意味着什么?简单来说,就是用更少的算力、更短的时间,训练出对齐人类偏好效果更好的AI绘图模型。这意味着更低的开发成本,意味着更快的技术迭代,也意味着未来使用AI工具创作图像时,你得到的结果会更接近你真正想要的样子。
当然,更好的图像生成能力也是一把双刃剑。研究团队在论文中专门讨论了潜在的伦理风险:更逼真的图像可能被用于制造虚假内容、侵犯隐私或产生版权纠纷;偏好优化如果依赖有偏差的评分数据,也可能固化和放大特定的审美偏见。这些问题的答案,需要技术社区和社会一起探索。
有兴趣深入了解完整推导和实验细节的读者,可以通过arXiv编号2605.09433查阅原论文。
---
Q&A
Q1:PNAPO和Diffusion-DPO的根本区别是什么?
A:Diffusion-DPO在优化时随机抽取一个全新的初始噪点来还原生成路径,和真实生成图片时用的那个噪点完全不同,路径估计存在偏差。PNAPO的做法是在生成训练图片时就把初始噪点一起保存下来,优化时直接用真实的"起点-终点"对来通过线性插值还原中间状态,路径估计更准确,训练效率因此提高了约12倍。
Q2:PNAPO的动态正则化具体是怎么调节训练的?
A:动态正则化把优化力度的系数β拆成三部分:一个固定基础值、一个与两张对比图质量差距挂钩的因子(差距越大推动力越强)、一个随训练步数逐渐衰减的因子(训练越深入越保守)。三者相乘,让模型在训练早期和面对明显质量差距时积极学习,在训练后期逐渐收敛,避免过度偏离原始模型。
Q3:PNAPO为什么只能用同一个模型生成的数据来训练自己?
A:因为不同的图像生成模型内部使用的噪点分布机制不同,噪点和图片之间的对应关系是模型特有的。用FLUX生成的噪点-图片对,和SD3-M内部的生成逻辑对不上,强行用来训练会导致路径信息不匹配,反而引入更大误差。所以每个模型只能用自己生成的数据来进行PNAPO优化。
