当前位置：首页 > news >正文

声音图像：用 AI 创作令人惊叹的视听艺术

news 2026/4/13 9:42:26

原文：towardsdatascience.com/images-that-sound-creating-stunning-audiovisual-art-with-ai-024a317c7472?source=collection_archive---------2-----------------------#2024-08-05

https://medium.com/@maxhilsdorf?source=post_page---byline--024a317c7472--------------------------------https://towardsdatascience.com/?source=post_page---byline--024a317c7472-------------------------------- Max Hilsdorf

·发表于 Towards Data Science ·8 分钟阅读·2024 年 8 月 5 日

–

背景

你可能已经见过 AI 生成图像，比如这四只柯基犬。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8d9d61768e52f3121749a0b167aa5d7a.png

声音图像：在单一画布上创作图像与声音 —arxiv.org/pdf/2405.12221

也许你曾见过 AI 生成声音，例如这些柯基犬的叫声：

如果我告诉你这两种生成方式是完全相同的，你会怎么想？自己看看并听听吧！

现在，你可能对我说的“它们是一样的”感到困惑。但不用担心，你很快就会明白！

2024 年 5 月，来自密歇根大学的三位研究人员发布了一篇名为《声音图像：在单一画布上创作图像与声音》的论文。

在这篇文章中，我将解释

什么是生成“声音图像”，以及这与人类之前的工作有何关联
本模型如何在技术层面上工作，以通俗易懂的方式呈现
为什么这篇论文挑战了我们对 AI 可以做什么以及应该做什么的理解

什么是声音图像？

要回答这个问题，我们需要理解两个术语：

波形
声谱图

在现实世界中，声音是由物体的振动产生的声波（随着时间推移的空气压力变化）。当通过麦克风捕捉到声音或通过数字合成器生成声音时，我们可以将这种声音波形表示为波形图：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7a29480323464d1286efbc88fd608ecc.png

一首声音歌曲的波形。音乐与图像由作者创作。

波形对于记录和播放音频很有用，但通常在音乐分析或音频数据的机器学习中被避免。相反，使用的是一种更具信息量的信号表示——声谱图。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/01b95620dae17bc6e8b6aa452c876577.png

一首声学歌曲的梅尔频谱图。音乐和图像由作者提供。

声谱图告诉我们哪些频率在时间上更突出或较弱。然而，对于本文，关键要注意的是，声谱图是一种图像。由此，我们回到了最初的概念。

在生成上面的柯基声音和图像时，人工智能创造了一种声音，这种声音在转换成声谱图后，看起来像一只柯基。

这意味着该人工智能的输出同时既是声音又是图像。

人工智能是如何生成这些艺术作品的？

尽管你现在理解了“发声的图像”是什么意思，但你可能仍然想知道这怎么可能。人工智能是如何知道哪个声音会生成所需的图像呢？毕竟，柯基声音的波形看起来与柯基完全不相似。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/82f1b8103f8259b0ecbcc20db1943364.png

由“发声的图像”生成的柯基声音的波形。图像由作者提供。

首先，我们需要理解一个基础概念：扩散模型。扩散模型是像 DALL-E 3 或 Midjourney 这样的图像模型背后的技术。实质上，扩散模型将用户的提示编码成一个数学表示（一个嵌入），然后从随机噪声中一步步生成所需的输出图像。

这是使用扩散模型创建图像的工作流程

使用人工神经网络将提示编码成一个嵌入（一些数字）
初始化一个带有白噪声（高斯噪声）的图像
逐步去噪图像。基于提示嵌入，扩散模型确定一个最优的小去噪步骤，使图像更接近提示描述。我们将其称为去噪指令。
重复去噪步骤，直到生成无噪声的高质量图像

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/355f6d2080168bcfaf7da17c3e681dc5.png

图像扩散模型的高级内部工作原理。图像由作者提供。

为了生成“发声的图像”，研究人员采用了一种巧妙的技术，将两个扩散模型结合为一个。一个扩散模型是文本到图像模型**（Stable Diffusion），另一个是文本到声谱图模型（Auffusion）**。每个模型接收自己的提示，提示被编码成一个嵌入，并决定其自己的去噪指令。

然而，多个不同的去噪指令是有问题的，因为模型需要决定如何去噪图像。在论文中，作者通过对两个提示的去噪指令进行平均，解决了这个问题，从而有效地引导模型平等地优化这两个提示。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/484825ab7e29159658a52709ee2073f1.png

“能发声的图像”高级内部机制。图片由作者提供。

从高层次来看，你可以把它理解为确保最终的图像能同等地反映图像和音频提示。这样做的一个缺点是，输出结果总是两者的混合，而模型产生的每个声音或图像并不一定都会很好看/好听。这种固有的权衡显著限制了模型的输出质量。

本文如何挑战我们对 AI 的理解

展望：人工智能在艺术创作中的其他创意应用

“声音图像”并不是第一个有潜力创造美丽艺术的人工智能应用。在这一部分，我想展示一些其他的人工智能艺术尝试，希望能激发你的灵感，并让你对人工智能产生不同的思考。

修复艺术

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2a605af850dc0b4198e6336a1c871ce0.png

这幅《亚马逊战士之战》的马赛克图像，由人工智能重建。取自这篇论文。

AI 通过精准修复受损的艺术品，帮助恢复艺术，确保历史作品能保存得更久。这种技术与创造力的结合使我们的艺术遗产得以为未来世代保存。。

让画作复生

一段 YouTube 视频，展示蒙娜丽莎说唱《Paparazzi》（AI 生成）。

AI 可以为照片添加动画，创建具有自然动作和同步嘴型的真实视频。这使得历史人物或艺术作品，如蒙娜丽莎，可以动起来并说话（或说唱）。虽然在深度伪造的背景下，这项技术无疑是危险的，但如果应用于历史肖像，它可以创造出有趣和/或有意义的艺术。[]

将单声道录音转为立体声

AI 有潜力通过将单声道混音转换为立体声混音来增强旧录音。虽然有经典的算法方法来实现这一点，但 AI 承诺使人工立体声混音听起来越来越真实。和。

结论

《发出声音的图像》是我 2024 年最喜欢的论文之一。它使用先进的 AI 训练技术，达成一种纯粹艺术性的成果，创造出一种全新的视听艺术形式。最令人着迷的是，这种艺术形式目前超出了人类的能力范围。我们可以从这篇论文中了解到，AI 不仅仅是模仿人类行为的一套自动化工具。相反，AI 可以通过提升现有的艺术作品或创作全新的作品和艺术形式，丰富我们生活中的美学体验。我们才刚刚看到 AI 革命的开始，我迫不及待地想要塑造和体验它（艺术方面）的后果。

关于我

我是一名音乐学家和数据科学家，分享我对当前 AI 与音乐话题的看法。以下是我与这篇文章相关的一些之前的工作：

2024 年 3 个音乐 AI 突破：towardsdatascience.com/3-music-ai-breakthroughs-to-expect-in-2024-2d945ae6b5fd
Meta 的 AI 如何基于参考旋律生成音乐：medium.com/towards-data-science/how-metas-ai-generates-music-based-on-a-reference-melody-de34acd783
AI 音乐源分离：它是如何工作的，为什么这么难：medium.com/towards-data-science/ai-music-source-separation-how-it-works-and-why-it-is-so-hard-187852e54752

在Medium和Linkedin上找到我！

查看全文

http://www.jsqmd.com/news/168101/

Miniconda-Python3.10环境下安装NLTK进行文本分析

proteus8.17下载及安装常见问题深度剖析

Miniconda-Python3.10镜像如何实现按Token计费的精准核算

GitHub项目依赖锁定：Miniconda-Python3.10生成environment.yml文件

Docker run启动失败排查：常见Miniconda-Python3.10容器错误解析

Miniconda-Python3.10镜像如何实现GPU算力弹性伸缩

Jupyter密码设置教程：保护你的Miniconda-Python3.10远程访问安全

科研论文可复现的关键：Miniconda-Python3.10隔离环境保障依赖一致性

SSH免密登录配置：提升连接Miniconda-Python3.10容器的操作流畅度

Miniconda-Python3.10镜像在游戏NPC对话生成中的应用

HTML前端调用Python API服务：Miniconda-Python3.10后端支撑实战

利用寄存器状态解析HardFault_Handler问题（工业应用）

⚡_实时系统性能优化：从毫秒到微秒的突破[20251230170523]

GitHub Actions持续集成中引入Miniconda-Python3.10自动化测试AI代码

[特殊字符]_Web框架性能终极对决：谁才是真正的速度王者[20251230171355]

《鲁班经》讲的是什么：奇门遁甲；曹操的天时地利人和

Keil5芯片包下载安装验证：实战案例演示步骤

将Jupyter Notebook转为HTML报告：Miniconda-Python3.10一键导出方案

GPU利用率低？通过Miniconda-Python3.10优化PyTorch数据加载性能

Miniconda-Python3.10镜像如何提升AI服务SLA水平

STM32嵌入式GUI设计：LVGL界面编辑器实战

告别依赖冲突！使用Miniconda-Python3.10镜像构建纯净PyTorch开发环境

GPU温度监控脚本：Miniconda-Python3.10中实时采集硬件状态信息

no stlink delected 错误快速理解与基础排查

Python安装总出错？推荐使用Miniconda-Python3.10镜像标准化开发流程

JLink驱动安装实测分享：64位系统适配说明

Spring-boot读书笔记一@Component.vs.@bean

Miniconda环境下PyTorch模型降级回滚方案

SSH密钥认证配置步骤：安全连接运行Miniconda镜像的远程主机

GPU算力资源如何高效利用？Miniconda-Python3.10环境调优实战

相关文章：