当前位置: 首页 > news >正文

提升GAN可控性:精确操控合成图像的属性

提升GAN可控性:精确操控合成图像的属性

生成对抗网络(GAN)近年来在从零开始合成逼真视觉图像方面展现出了卓越的能力。然而,要精确控制GAN输出图像的特定特征——例如光照条件、视角,或者人物是微笑还是皱眉——一直是个难题。大多数现有方法依赖于在GAN的参数空间中进行试错式的探索。近期一种控制合成人脸的方法涉及使用图形软件生成三维原型,这一过程繁琐,控制能力有限,并且通常仅限于单一图像类别。

在今年的国际计算机视觉大会(ICCV)上,我们与某中心的一位杰出科学家合作,提出了一种控制GAN输出的新方法。该方法允许通过数值指定图像参数(例如视角或人物年龄),并且适用于多种图像类别。我们的方法在几项控制精度指标上超越了之前的方案,同时我们也通过用户研究对其进行了评估。用户发现,使用我们的方法生成的图像比使用两种领先的先前方法生成的图像更为逼真,认可比例约为2:1。

潜在空间

GAN的训练设置涉及两个机器学习模型:生成器判别器。生成器学习生成能够“欺骗”判别器的图像,而判别器则学习区分合成图像与真实图像。

在训练过程中,模型学习一组已学习图像参数上的概率分布(在StyleGAN系列模型中,有512个参数)。该分布描述了真实图像中出现的参数值范围。合成新图像就是从该分布中随机选取一个点,并将其传递给生成器。

图像参数定义了一个潜在空间(在StyleGAN中为512维)。图像属性的变化——从高到低的相机角度、从年轻到年老的面孔、从左到右的光照等——可能沿着该空间的特定轴线分布。但由于生成器是一个“黑盒”神经网络,该空间的结构是未知的。

先前关于可控GAN的研究涉及探索该空间以试图了解其结构。但这种结构可能是不规则的,因此了解一种属性对了解其他属性帮助不大。此外,属性之间可能存在纠缠,改变一个属性也会改变其他属性。

最近的工作采用了一种更系统的方法,生成器的输入指定了人脸的图像属性,并根据其输出与具有相同属性的三维图形模型的匹配程度来评估生成器。

然而,这种方法有一些局限性。一是它只适用于人脸。二是它可能产生看起来较为合成的输出图像,因为生成器学习的是匹配合成训练目标的属性。最后,很难用图形模型捕捉更整体的属性,比如一个人的年龄。

可控GANs

在我们的论文中,我们提出了一种控制GAN的方法,该方法仅需要数值输入,能够修改广泛的图像属性,并且适用于多种图像类别。

首先,我们使用对比学习来结构化潜在空间,使得我们感兴趣的属性沿着不同的维度分布——也就是说,它们被解耦了。然后,我们学习一组可以单独修改这些属性的控制器。

方法概述

我们首先选择一组希望控制的图像属性,并构建一个表示空间,使得该空间的每个维度对应一个属性(如上图中的 Z 空间)。然后,我们在该空间中选择点对,这些点对在某一维度上具有相同的值,但在其他维度上具有不同的值。

在训练期间,我们通过这些点对通过一组全连接的神经网络层,这些层学习将我们构建的空间中的点映射到已学习的潜在空间中的点(图中的 W 空间)。潜在空间中的点将作为我们生成器的控制器。

除了标准的对抗性损失(如果生成器未能欺骗判别器,则会受到惩罚)外,我们还计算一组额外的损失,每个属性一个。这些损失基于现成的、可计算图像属性(年龄、表情、光照方向等)的模型。这些损失迫使具有共享属性的图像在潜在空间中更接近,同时迫使不共享属性的图像彼此远离。

训练完生成器后,我们在潜在空间中随机选择点,生成相应的图像,并测量它们的属性。然后,我们训练一组新的控制器,以测量到的属性作为输入,并输出潜在空间中对应的点。当这些控制器训练完成后,我们就拥有了一种将特定属性测量值映射到潜在空间点的方法。

评估

为了评估我们的方法,我们将其与之前两种使用三维图形模型训练人脸生成器的方法进行了比较。我们发现,与使用早期方法生成的人脸相比,使用我们的方法生成的人脸能更好地匹配输入参数。

我们还请人类受试者对我们的方法和两种基线方法生成的图像的真实感进行评分。在67% 的情况下,受试者认为我们的图像比任何一种基线图像都更自然。两种基线方法中较好的一种得分仅为22%

最后,我们询问人类受试者是否同意我们生成的、已控制属性的人脸确实展示了这些属性。对于其中五个属性,同意率从87%到98% 不等。在第六个属性——抬高的相机角度——上,同意率仅为约66%。这可能是因为在低角度下,效果过于微妙而难以察觉。

在这些评估中,我们必然地将自己限制在生成人脸上,因为这是唯一有强基线方法可用的领域。但我们也尝试了生成狗的脸部图像合成绘画,这两种都是先前方法无法处理的。结果可以从下面的图像中评判:

此处原文应有图像,但翻译文本中不包含图像描述。原意是展示了在狗脸和绘画类别上的生成效果。

研究领域

  • 计算机视觉
  • 机器学习

标签

  • 生成对抗网络(GANs)
  • 合成数据生成
  • ICCV
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
    对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.jsqmd.com/news/100508/

相关文章:

  • 详细介绍:基于YOLOv5-AUX的棕熊目标检测与识别系统实现
  • 简单大数据分析测试
  • IDEA/pycharm快捷键
  • 状态丢失问题
  • 【权威指南】Dify集成Tesseract 5.3语言包的7个关键步骤
  • 【Agent工具调用Dify参数校验全解析】:掌握高效接口验证的5大核心策略
  • 2025年底,我们用什么框架来开发智能体?
  • R语言处理临床数据缺失值的7种武器(附真实病例数据代码实战)
  • 美国降息,日本加息,为何让币圈交易员紧张不安?
  • 在算家云搭建Linly-Talker数字人语音模型
  • 10 个继续教育课堂汇报工具,AI 工具推荐与对比总结
  • EmotiVoice开源TTS引擎使用教程
  • LobeChat能否支持GraphQL查询?接口灵活性分析
  • python笔记-模块
  • 【R Shiny性能飞跃秘诀】:3步实现多模态内容按需加载,节省70%内存开销
  • 为什么90%的多模态Agent集成失败都源于启动顺序?真相在这里
  • 基于SpringBoot+Vue的电影院管理系统设计与实现开题报告
  • MySQL Shell 使用方法
  • LobeChat能否播报新闻?每日资讯自动推送
  • Dify 1.7.0音频质量检测黑科技(行业首个支持多语种自适应评估)
  • 为什么你的量子模拟无法扩展?R语言多qubit架构陷阱全揭示
  • VSCode远程开发连接云端Anything-LLM进行低延迟交互
  • 【赵渝强老师】Oracle的体系架构
  • 2025经颅电刺激仪制造公司权威推荐榜:华恒京兴领衔,精准神经调控技术赋能医疗康复 - torzi_JavaScript
  • 10 个MBA论文降重工具,AI写作优化软件推荐
  • 【Dify Tesseract自定义词典实战指南】:手把手教你提升OCR识别准确率90%以上
  • Spring Boot 整合 Redis 实战指南:从配置到场景落地 - 实践
  • 嵌入式和软件系统中常见通信协议
  • 为什么你的Agent无法跨容器通信?Docker网络配置终极排查指南
  • 【高可用多模态系统构建】:必须掌握的3种Docker启动编排策略