当前位置：首页 > news >正文

机器学习周报四十七

news 2026/7/24 15:19:56

文章目录

- 摘要
- Abstract
- - 1、TripleFDS
  - - 1.1数据集
    - 1.2 模型结构
    - 1.3 训练方法
    - 1.4训练结果
    - 1.5 总结
- 总结

摘要

本周重新阅读了AAAI2026的论文TripleFDS，模型在较少的数据集上实现了当时的SOTA的结果，创新性很强，而且可以零样本泛化到文本编辑的其他任务，但是也有局限性。

Abstract

This week, I revisited the AAAI 2026 paper TripleFDS. The model achieved state-of-the-art results on a small dataset with strong innovation, and it can zero-shot generalize to other text editing tasks. However, it also has limitations.

1、TripleFDS

本周重新阅读了AAAI2026的论文确定了自己的研究方向，就去寻找三大顶会论文，从中寻找研究方法和研究问题，试图从中找到新的方法或者问题。在半年后我再重读这个论文，又有了不一样的体会。

1.1数据集

这是一篇关于场景文本编辑的论文，发表在AAAI 2026上；场景文本编辑（STE）旨在自然修改图像中的文本，同时保持视觉一致性，其决定性因素可分为三部分：文本风格、文本内容和背景。编辑如下图：将Hello替换到World的背景图片上，生成新的Hello的图片。

以往的方法在可编辑属性的不完全解缠方面遇到困难，通常只关注一个方面：如编辑文本内容，从而限制了可控性和视觉一致性。为克服这些限制，提出了TripleFDS，这是一个具有解缠模块属性的STE新框架，以及配套的数据集SCB合成。SCB合成利用“SCB群”这一新颖构造，为三重特征解缠提供了强大的训练数据，该构造将每幅图像的三个属性结合起来，生成多样的解缠训练群。利用该构念作为基础训练单元，TripleFDS首先解开三重特征，通过组间对比正则化确保语义准确，并通过样本内多特征正交性减少冗余。在合成阶段，TripleFDS进行特征重映射，以防止重建过程中出现“捷径”现象，并减少潜在的特征泄漏。

SCB群，如前所述，就是将图片的背景、风格、内容互相交换得到的一组对比数据，在2x2x2的数据组下，两种背景、两种风格、两种内容之间相互组合，得到一个包含八张图片的数据。下图是一个3x3x3的数据组的示意图。数据集的生成方法是SRnet所提供的。

为了提升模型对现实世界中可能出现的复杂情况的泛化，还合成了一种困难的数据集，如下图所示，其中easy数据集的角度以及对比度都会比hard要好，hard样本的字体以及对比度、位置和角度视觉上比easy要难分辨。模型总共合成了100万张图片。模型经过不同的消融实验，测试到对模型最好的组合结果就是2x2x2.

1.2 模型结构

模型的主要结构如下图

VAE Encoder：图片首先经过VAE Docoder转变为token，token之后跟随三个查询：q_c、q_s、q_b；分别代表内容查询、风格查询和背景查询；

Disentanglement Module：特征解纠缠模块，是一个Transformer-decoder，主要做的是特征提取的任务，将[token,q_c,q_s,q_b]拼接输入经过decoder得到三个解开纠缠的特征。直接对其中的内容特征(content)经过一个linear层，这个linear层作为文本识别头，直接识别提取内容与真实内容，做识别损失。

域内损失：对于同一个内容域的图片计算对比损失，只拉近相同内容的图片，推开不同内容的图片，类似的处理也对风格和背景域进行。
域间损失：为了确保提取的内容域的特征纯净，不包含其他域的图片，所以需要计算一个正交损失，计算不同域特征之间的余弦相似度，要求相似度尽可能的小。

特征映射：模型为了让损失尽快的降低，可能会出现两种情况，一是提取三个一样的特征，这三个特征都可以代表这张图片，二是提取一个代表这个图片的特征，剩余两个特征提取为随机映射，只学习一个特征，而且将所有特征混杂在一起重建的效果也是最好的，虽然又三个损失函数限制这两种情况，但是模型可能还是会找到一个局部最优使得难以训练。
所以作者加入了特征映射，意思是将提取到的特征不直接作为重建的特征，而是在一个组数据内，提取到的其他的相同背景图片的特征作为重建时的背景特征，相同风格的风格特征作为重建时的风格特征。而内容特征不经过映射。

经过了特征映射，避免了模型提取到一样的特征，或者直接只提取一个特征，这样重建的时候就会失败。混合模块是一个新的Transformer-decoder，架构与上一个decoder相同，只是这一次query只有一个q_i，经过Synthsis Module混合特征以及q_i进行查询，q_i融合了前面所需要的所有的重建特征，经过VAE Decoder得到编辑后的风格图片。

1.3 训练方法

模型是端到端的有监督训练，VAE部分不参与训练，有合成数据的监督，所以在最后还有一个重建损失，总的损失函数如下：

1.4训练结果

编辑指标如下所示：
Tamper-Scene为识别数据集，Tamper-Syn2K为合成数据集，ScenePair为现实世界数据集。
可以发现，TripleFDS模型的识别效果以及编辑效果相比于之前的做法在大多数指标上是提升的。

得益于模型强大的提取能力，模型可以零样本泛化到其他的任务，如：擦除文本、更换背景/内容/风格、保持风格/内容/背景。

受益于强大的特征提取，模型的识别能力也有很大的提升，所以在面对全尺寸图片时，可以较准确的定位到目标区域，进行编辑。

即使没有经过现实世界数据的微调，模型对现实世界的数据进行编辑时得到的效果在视觉上还是很好的。

1.5 总结

模型的创新性：
1、特征映射，这是模型能够有效分离特征的关键部分，由于映射，避免模型走捷径不学习真正的特征。
2、识别损失，识别损失是模型一个关键的部分，如果没有识别损失，内容特征不经过映射，模型的特征不会分离得那么纯净，因为不同图片的背景或者风格、内容之间总有那么一个是不同的，不经过映射，模型将这个不同的部分的特征也编码到内容特征中，intra loss也可以因为这点不同而分开，inter loss也无法区分，因为只是设定相同内容的作为一个类，而不强调特征的来源。这也是为什么消融实验中识别损失和重建损失作为baseline的原因，没有识别模型不会训练得成功。
3、transformer架构的应用，decoder-only模型，与之前的众多的工作使用unet架构不同，模型使用的是自回归的架构，这更促进统一机器学习架构的发展。

基于以上的分析，当前模型还可以研究的方向
1、识别损失是必须要的，受制于字典的大小，模型当前只是实现了英文文本的编辑，在面对多种语言，如中日韩等语言的能力上还没有实现。
2、decoder模型的局限，decoder模型有一个mask self-attention机制，如果将一个特征设定为128的序列长度，模型的总输入长度就会达到732+1(mask token)，而这样的decoder流程需要两次。额外加上VAE部分的占用，模型的训练时间和推理时间以及显存占用，都会很大。
3、模型需要大量的合成数据的训练，数据集大小达到了800万张图片，没有对现实世界数据的自监督或者无监督训练，即使对泛化层面已经有所考量，但是还是不够完善。