当前位置：首页 > news >正文

浙江大学揭秘:为什么AI画图时“记住噪声“能让效果提升12倍效率？

news 2026/7/15 0:16:32

这项由浙江大学联合上海浙江大学高等研究院、上海数学与交叉科学研究院共同完成的研究，发表于2026年第43届国际机器学习大会（ICML 2026），会议地点为韩国首尔，收录于PMLR 306论文集。感兴趣的读者可通过论文编号arXiv:2605.09433查阅完整原文。

当你打开某款AI绘图软件，输入一段描述，几秒钟后屏幕上便浮现出一幅画作。这个看似魔法般的过程，背后其实是一场精心设计的"从噪点到图像"的旅程。然而，浙江大学的研究团队发现，现有的AI绘图优化技术长期以来忽视了一个至关重要的东西——那团最初的噪点本身。正是这个发现，让他们将训练效率提升了整整十二倍。

一、AI画图：一场从混沌到秩序的旅程

要理解这项研究，得先弄清楚现代主流AI绘图模型是怎么工作的。目前最先进的图像生成模型，比如FLUX和Stable Diffusion 3，本质上是在做一件事：把一堆随机噪点，按照某条特定的路径，一步步"雕刻"成一张图片。

研究团队采用的技术叫做"整流流"（Rectified Flow，简称RF）。可以把它理解成这样一幅场景：你手里握着一团棉絮（代表随机噪点），你要把它捏成一只兔子的形状（代表最终图片）。普通的方法捏得弯弯曲曲，路径复杂。而整流流的厉害之处在于，它的捏法几乎是走直线的——从起点到终点，路径笔直，几乎不绕弯路。

正因为路径是笔直的，只要你知道起点（那团噪点）和终点（那张图片），你就可以用简单的线性插值来推算中间任意时刻的状态——就像你知道火车的出发站和终点站，以及它匀速行驶，就能算出任何时刻它在哪里。这个"直线特性"是整流流区别于传统扩散模型的核心优势，也是这项研究能够成立的物理基础。

然而，当前所有主流的AI绘图偏好优化方法，都犯了一个同样的错误：它们在收集训练数据时，只保存了那只兔子（最终图片），把那团原始棉絮（初始噪点）给扔掉了。

二、被遗忘的"起点"：为什么初始噪点不是废料

研究团队指出，现有的偏好数据集——就是那些记录了"这张图比那张图好"的对比数据——普遍只存储了最终的胜出图片和落选图片，完全丢失了生成这两张图时各自使用的初始噪点。

这件事之所以是个严重问题，可以用一个更直观的类比来解释。假设你是一位导演，要评判两个演员的表演质量。其中一个演员从准备阶段就开始录像，你能看到他从最初的状态一步步磨练出最终表演的全过程。另一个演员只给你看了最终表演的录像，你完全不知道他中间经历了什么。评判前者显然更准确、更公平，因为你掌握了完整的"轨迹信息"。

在AI绘图的语境里，那团初始噪点就相当于演员的准备状态。不同的初始噪点，会经过不同的路径，生成截然不同的图片。对于整流流模型来说，初始噪点不是随便可以替换的背景信息，它是决定整条生成轨迹的"身份证"。丢失了它，就等于丢失了这条轨迹最关键的起点。

传统的优化方法（以Diffusion-DPO为代表）面对这个问题时的做法是：重新随机抽取一团噪点，用"往图片上加噪声"的方式来反推中间状态。但这个做法有个根本性的缺陷——它重新抽取的噪点，和当初真正生成那张图的噪点根本不是同一个，路径完全对不上。这就像你试图用一张陌生城市的地图，来还原某人在自己家乡的行走路线，结果显然南辕北辙。这种路径失配导致的后果就是：训练不稳定、效率低下、优化效果打折扣。

三、PNAPO：带着"出发地点"去优化

浙江大学的团队提出了一个改进方案，名为"先验噪声感知偏好优化"（Prior Noise-Aware Preference Optimization，PNAPO）。这个方案的核心思路极其朴素：在构建训练数据时，把那团初始噪点一起存下来。

具体来说，传统的偏好数据是一个三元组：提示词、胜出图片、落选图片。PNAPO把它扩展成了一个六元组：提示词、胜出图片、胜出图片对应的初始噪点、落选图片、落选图片对应的初始噪点，以及这两张图之间量化的质量差距分数。

数据集的构建分三步完成。第一步是准备提示词。研究团队使用了一个名为DiffusionDB的大型数据集，它包含了180万条真实用户使用的文本描述。他们对这些提示词进行了严格筛选：先用内容安全工具过滤掉不良内容（保留了约83.67%的提示词），再通过文本相似度和语义相似度两轮去重（分别以Jaccard相似度和CLIP余弦相似度0.8为阈值），最后用KNN聚类算法把提示词分成100个语义群，从每个群中均衡采样，确保覆盖的话题足够多样。最终精炼出2万条高质量且多样化的提示词。

第二步是生成图片并保存噪点。对每条提示词，模型各生成两张图片，同时把生成每张图时采样的初始噪点一并记录下来。值得注意的是，这里直接用已经微调过的模型来生成数据，而不是用原始基础模型——这样做是为了确保偏好优化的过程更加稳定。

第三步是打分标注。团队用一个预训练的图像质量评分模型HPSv2.1来给每对图片打分，计算出两张图之间的分数差值。这个差值不是简单的"好/坏"二选一标签，而是一个连续的数值，能够反映"稍微好一点"和"好很多"之间的微妙区别，为后续的动态调节训练提供了基础。

四、直线路径的妙用：用插值代替猜测

有了配对的初始噪点之后，PNAPO就能发挥整流流"直线特性"的最大价值了。

在优化过程中，需要比较模型在生成路径中间某个时刻的表现。由于有了起点（初始噪点）和终点（最终图片），根据整流流的直线特性，中间任意时刻t的状态，就是用公式 x_t = (1-t)×图片 + t×噪点来计算的。这就是线性插值——和你小学学过的"按比例混合"是同一个道理。

这种做法和传统Diffusion-DPO相比，从数学上被证明引入的误差更小。研究团队用KL散度（一种衡量两个概率分布差异程度的指标，可以理解为"走错路的程度"）严格推导出：PNAPO的估计方式所走的"弯路"，始终不大于传统方法所走的"弯路"。换句话说，PNAPO对真实生成轨迹的还原，在理论上就是比传统方法更准确的。

这个发现还解释了为什么PNAPO能大幅降低训练成本。传统方法因为路径估计不准，相当于在一个非常大的搜索空间里摸索，每次梯度更新都带着很多噪声。PNAPO通过约束路径估计的空间，把这个搜索范围大大缩小，每次更新都更有效率。从实验数据来看，在FLUX模型上，PNAPO只需要约35.2个GPU小时，而传统Diffusion-DPO需要约422.4个GPU小时，效率差距达到了12倍。在Stable Diffusion 3 Medium（SD3-M）模型上，PNAPO约需20.8个GPU小时，而传统方法约需249.6个GPU小时，同样是12倍的差距。

五、动态调节：训练也需要因时制宜

PNAPO的另一个创新是引入了"动态正则化策略"，用来解决传统偏好优化训练过程中固执地"用同一把尺子量所有东西"的问题。

理解这个问题，可以借助一个教学的场景。假设你是老师，学生交上来的作业质量参差不齐：有些作业差得一眼就能看出来（奖惩力度理应大），有些作业只是比另一份稍微好一点点（奖惩力度应该相对小）。传统方法给所有作业套用同一个固定的奖惩系数β，显然不够精准。

更进一步，随着训练的推进，模型已经学得越来越好了，如果还像最初那样用很强的力度推动它远离参考模型，反而会适得其反，让它越学越偏。就像学生学到了一定程度，老师应该逐渐放手，让他自己巩固，而不是还在旁边用力推。

PNAPO的动态正则化把β系数拆成了三部分的乘积。基础系数β是一个固定的初始值，保证了整体优化方向的正确性。样本难度控制器f(δr)是一个与两张图质量差值δr相关的函数，通过sigmoid函数将质量差值映射到0到1之间——质量差距越大，这个因子越接近1，推动力越大；差距越小，推动力越小，精细打磨。训练进度控制器g(n)则是一个随训练步数n变化的余弦衰减函数：在训练初期（步数小于n?之前），保持满功率推进；当步数超过n?之后，g(n)开始缓缓下降，到步数达到n?时，它已经降到了初始值的一半；之后维持在这个较低水平。研究团队经过实验验证，当n?设为1000、n?设为2000时，训练效果最好。

从梯度分析来看，这个动态策略的深层逻辑在于：当模型对某对图片的判断还不准确（边际为负）时，适当提高β能加速它对正确方向的学习；当模型判断已经准确（边际为正）时，降低β能防止它过度偏离参考模型，保持稳定性。消融实验证明，仅加入样本难度控制器f(δr)，各项指标就有明显提升；仅加入训练进度控制器g(n)，效果也优于固定β；二者结合才能达到最优。

六、实验结果：数字背后的真实改变

研究团队在两个最先进的整流流图像生成模型上进行了全面验证：FLUX.1-dev和Stable Diffusion 3 Medium。在FLUX上采用LoRA（一种低秩参数适配技术，可以理解为只微调模型中一小部分关键"旋钮"）进行微调，在SD3-M上进行全参数微调。对比基线方法包括原始基础模型、监督微调（SFT）、Diffusion-DPO、IPO和CaPO等多个方向。

在偏好评分方面，研究团队使用了HPDv2（包含3200条测试提示词）和OPDv1（包含7459条测试提示词）两个独立测试集，通过PickScore、HPSv2.1、ImageReward、LAION美学评分和CLIP文本对齐度五个维度进行综合评估，同时记录PNAPO模型相对于各基线的胜率。结果显示，PNAPO在几乎所有指标上都超越了所有基线方法。以OPDv1测试集的HPSv2.1分数为例，PNAPO微调后的SD3-M达到了33.09分，比原始SD3-M高出1.13分；PNAPO微调后的FLUX达到了32.10分，比原始FLUX高出1.36分。PNAPO-FLUX的HPSv2.1胜率对比DPO-FLUX达到84.6%，对比IPO-FLUX达到81.1%。

在文本对齐方面，研究团队使用GenEval这个专门评估图像与文字描述对应程度的基准进行测试。SD3-M在PNAPO加持下，整体评分从0.68提升至0.73，提升幅度7.4%，比CaPO方法高出2.8个百分点。FLUX则从0.65提升至0.69，提升幅度6.2%，比DPO-FLUX高出4.5个百分点。细分来看，PNAPO-SD3-M在计数（Count）这个最难的子任务上从0.56提升到了0.71，在属性绑定（Attribute）上也有明显进步。

为了验证人类的真实感受，研究团队还进行了用户研究，邀请了10位参与者，每人评估20对随机选出的图片，对比PNAPO-FLUX与其他方法的效果。在整体偏好方面，PNAPO-FLUX获得了56%的偏好率；在视觉吸引力方面达到72%；在文字对齐程度方面达到52%。这些数据统计上显著地证明了PNAPO与人类审美判断的高度吻合。

消融实验进一步拆解了各个组件的贡献。加入初始噪点配对（即PNAPO的核心改动）后，相比标准DPO，PickScore从22.97提升至23.06，HPSv2.1从30.84提升至31.08，美学评分从6.307提升至6.394。在此基础上再加入动态正则化，各指标进一步全面提升至最优水平（HPSv2.1达到31.71，美学评分达到6.475）。即便移除初始噪点（仅保留动态正则化），效果仍然优于原始DPO，说明动态调节策略本身也有独立价值。

在奖励模型的选择上，实验表明使用文本感知型奖励模型（PickScore和HPSv2.1）训练出来的模型，在视觉质量和文字渲染两方面都有综合提升；而单纯使用美学评分模型，虽然美学分数更高，但文字对齐度会有所牺牲。HPSv2.1因为综合考量了多个维度，在所有奖励模型中表现最均衡。

七、局限与展望：这项研究还有哪些未竟之路

研究团队也坦诚地指出了当前方法的局限性。PNAPO的训练数据必须由被优化的那个模型自身生成，因为不同模型使用的噪点分布不同，无法直接互通。简单来说，不能用FLUX生成的数据去训练SD3-M，反之亦然。这在一定程度上限制了数据的复用性。

此外，DiffusionDB数据集中的提示词质量参差不齐，许多提示词描述并不连贯，可能限制了生成图片的上限质量。团队提出，未来可以借助多模态大语言模型对提示词进行润色和改写，进一步提升数据集的整体质量。

从更长远的方向来看，研究团队希望将PNAPO从离线学习扩展到在线学习范式，让模型能够在与真实用户的持续交互中不断迭代改善。动态参数优化策略也有进一步发展的空间，可以探索更精细的自适应调节机制。

说到底，这项研究做的事情，在直觉上非常自然：生成一张图的"故事"，从最初那团随机噪点就开始了，凭什么优化的时候可以把这个起点忽略掉？浙江大学的团队用这个看似简单的洞察，配合整流流本身的数学特性，设计出了一套更忠实于真实生成过程的优化框架。

这对普通用户意味着什么？简单来说，就是用更少的算力、更短的时间，训练出对齐人类偏好效果更好的AI绘图模型。这意味着更低的开发成本，意味着更快的技术迭代，也意味着未来使用AI工具创作图像时，你得到的结果会更接近你真正想要的样子。

当然，更好的图像生成能力也是一把双刃剑。研究团队在论文中专门讨论了潜在的伦理风险：更逼真的图像可能被用于制造虚假内容、侵犯隐私或产生版权纠纷；偏好优化如果依赖有偏差的评分数据，也可能固化和放大特定的审美偏见。这些问题的答案，需要技术社区和社会一起探索。

有兴趣深入了解完整推导和实验细节的读者，可以通过arXiv编号2605.09433查阅原论文。

---

Q&A

Q1：PNAPO和Diffusion-DPO的根本区别是什么？

A：Diffusion-DPO在优化时随机抽取一个全新的初始噪点来还原生成路径，和真实生成图片时用的那个噪点完全不同，路径估计存在偏差。PNAPO的做法是在生成训练图片时就把初始噪点一起保存下来，优化时直接用真实的"起点-终点"对来通过线性插值还原中间状态，路径估计更准确，训练效率因此提高了约12倍。

Q2：PNAPO的动态正则化具体是怎么调节训练的？

A：动态正则化把优化力度的系数β拆成三部分：一个固定基础值、一个与两张对比图质量差距挂钩的因子（差距越大推动力越强）、一个随训练步数逐渐衰减的因子（训练越深入越保守）。三者相乘，让模型在训练早期和面对明显质量差距时积极学习，在训练后期逐渐收敛，避免过度偏离原始模型。

Q3：PNAPO为什么只能用同一个模型生成的数据来训练自己？

A：因为不同的图像生成模型内部使用的噪点分布机制不同，噪点和图片之间的对应关系是模型特有的。用FLUX生成的噪点-图片对，和SD3-M内部的生成逻辑对不上，强行用来训练会导致路径信息不匹配，反而引入更大误差。所以每个模型只能用自己生成的数据来进行PNAPO优化。

查看全文

http://www.jsqmd.com/news/854921/