15.ai重生:从配音黑科技到AI传奇
目录
一、15.ai 的成长史
二、 AI 语音发展史
拼接式合成
参数式合成
WaveNet (2016.9)
Parallel WaveNet (2017.10)
Tacotron2 (2017.12)
WaveRNN (2018.2)
FastSpeech (2019)
HiFi-GAN (2019)
15.ai (2020.3)
Jukebox (2020.4)
法律风险初显
AudioLM (2022.9)
VALL-E (2023.1)
Stable Audio (2023.9)
三、发展与回归时刻
四、总结
一、15.ai 的成长史
2025年5月19日,一则新闻开始在各大平台传播。停止了三年后15.ai又回来了。那么这个三四年前的AI配音网站究竟有着怎样的故事呢?他又是如何成为了当年世界上最先进的AI配音技术呢?
1998年2月20日,15出生于美国。这位老哥一直以来的网名就叫15,从未透露过真实名字。大约在2013年,他接触到了《我的小马驹:友谊的魔法》,但由于学业问题,他一直没有深入这个粉丝圈。
2015年,他考上了麻省理工学院。
15的这个项目最初开始于2016年,也就是他读大一的时候。那年Google学术的DeepMind团队发表了一篇开创性的论文,叫《WaveNET:原始音频的生成模型》,在语音合成方面展现了前所未有的音频质量。当时的15正在开发深度学习语音合成的研究项目,这篇论文被他一读再读。
接下来的三年,15持续进行研究。2017年Google发布了Tacotron。到2019年,他们在麻省理工学院展示了能够复制WaveNet和Tacotron 2的结果。当时还在读大三时,15预测未来有一天只需要15秒的数据就能复制一个人的声音,“15”这个网名也由此而来。
在考虑读研还是就业的时候,15没有继续升学,而选择了和朋友一起创业。一年半后的2020年,他离开了这家公司,继续回到人工智能的研究当中。但由于研究生院的申请周期已经过去,他决定一个人将研究进行到底。
15立马开始工作,他为网站搭建了一个功能齐全的前端和后端,同时也在网上搜索有趣的数据源。最终他得出结论,网上的数据源有很多,但要么单调,要么质量低劣,不能满足研究需求。
那么哪里还有一个真正合适的语料库?这时15猛然就想到了他中学在看的那部动画片——《小马宝莉》不就是最好的音频素材库吗?
在4chan的MLP板块上,小马全九季的大量语音片段都被打包收集了。最终实现了一个前所未有的庞大语音库。这为15.ai的深度学习模型提供了非常理想的训练材料,很快每个角色就只需要几分钟的音频了。
2020年底网站进行了一次更新,15一次性给它添加了五十多个角色的声音,而且还让不同角色都能生成带有情绪的声音,即使某些角色的训练数据中缺少某些情绪。
然后,意外发生了,人们用15.ai配音的视频在各大平台上疯狂传播,15.ai在2021年初爆火,曾经冷冷清清的网站,如今却要每天生成几百万字语音,平台运营成本最高达到12000美元。
2022年初,Voise vers公司窃取15.ai里的语音,在未经许可的情况下就拿来给自己的平台盈利。被举报之后,只好出来道歉,整篇道歉文章,总结下来就是知道错了下次还敢。而15的回复显然就更加简洁明了一点,他在推特上只写了三个字。
2022年初,Voise Vers公司窃取15.ai里的语音,在未经许可的情况下拿来给自己的平台盈利。被举报之后出来道歉。15在推特上只写了三个字,这条推文获得了数千次转发。最终这也对Voice Vers公司的信誉带来了巨大的打击。
15.ai 让各种圈子都能创作优秀的同人作品。在成功的同时,15也非常自信,他相信自己一个人就能处理所有事情。
然而新的问题出现了,也就是人工智能版权的法律问题。15因使用AI生成角色配音被指控侵权,2022年9月15日,15.ai被关闭。由15.ai在马圈引起的AI配音浪潮就此戛然而止。
二、 AI 语音发展史
拼接式合成
录制配音员数小时甚至数十小时的语音,将其切割成极其微小的单元(如音素、音节、半音节等),并建立一个庞大的语音数据库。合成时,系统根据目标文本,从这个数据库中“挑选”出最合适的语音单元,然后将它们拼接在一起,再通过复杂的信号处理算法进行平滑连接。
参数式合成
用隐马尔可夫模型来模拟人声的发声过程。该模型会生成一系列代表语音特性的参数(如基频、共振峰、能量等),然后通过一个名为“声码器”的部件,将这些参数重新合成为可听的语音波形。
环球网 2014-12-30 报道,阿里巴巴集团UC移动事业群总裁俞永福与著名相声演员郭德纲为大家带来了一场特别的相声表演——发布了由郭德纲录制的导航语音包。
WaveNet (2016.9)
WaveNet: A generative model for raw audio(https://deepmind.google/discover/blog/wavenet-a-generative-model-for-raw-audio/)
DeepMind 团队发布WaveNet。
借由图像生成的思想:利用图像中先前生成的像素点来进行新像素点的生成,生成我们当前的音频信号也可以基于先前的音频。
自回归
Parallel WaveNet (2017.10)
DeepMind 团队使用概率密度蒸馏技术发布了全新的 parallel WaveNet。速度比原始WaveNet快1000倍,同时保持高音质,在Google助手上开始应用。
神经网络的压缩知识蒸馏
Tacotron2 (2017.12)
Google发布了Tacotron2,它通过深度融合端到端的序列到序列模型和先进的声码器技术,在语音合成的自然度和逼真度上实现了巨大飞跃,其合成语音的效果甚至能与专业录音相媲美。只需要对文本语音进行简单的处理,就能喂给模型进行学习,极大的减少的人工干预。但仍需要大量的训练数据(通常需要几十小时的音频),在使用 2h 的音频时,效果明显下降。
端到端(encoder-decoder)LSTM
WaveRNN (2018.2)
DeepMind 团队使用单一 RNN 层和双 softmax 输出,优化模型结构,引入权重稀疏技术,发布全新的 WaveRNN。
LSTM
新华社 2018-11-9 报道,新华社与搜狗合作开发了两个人工智能新闻主播,全球首个实时AI语音+视频新闻主播,支持24小时播报。
FastSpeech (2019)
微软亚洲研究院和浙江大学联合推出了 FastSpeech,解决了自回归模型(如 Tacotron 2)中的速度限制问题。 FastSpeech 采用非自回归架构,实现了并行序列生成,语音合成速度提升,实现了实时语音合成。
Transformer非自回归
HiFi-GAN (2019)
HiFi-GAN 通过其创新的生成器、判别器结构以及损失函数设计,在语音合成质量与效率方面取得了显著突破,并成功应用于TTS、语音增强及歌声合成等领域。
对抗学习卷积非自回归
15.ai (2020.3)
正如其名,15秒数据克隆任意角色声音。15 未透露实现方法,只是说在本科研究过程中开发,选择“闭源、非商业、以服务形式对外”的策略。15.dev
few-shot
Jukebox (2020.4)
OpenAI 在 2020年4月 发布了音乐生成模型 Jukebox 。它能够根据流派、艺术家甚至歌词提示,生成包含旋律、和声乃至人声演唱的原始音频片段。虽然生成了连贯的片段,但Jukebox 难以生成常见的宏大音乐结构,生成的音频音质不够完美,耗时较长。
自回归Transformer离散token
央视网 2021-8-11 报道,东京奥运会上,央视体育客户端携手百度智能云,集成高度拟人、流畅自然的语音合成服务,打造出奥运赛事的智能语音播报新模式,为用户带来及时的奥运赛事情况,感受奥运的独特魅力。
法律风险初显
2021-4,欧盟,《EU Artificial Intelligence Act》发布,首次定义“高风险AI系统”,包括语音识别/生成等;要求透明与风险控制。
2022-1,美国,《NO FAKES Act》首次在国会提出,针对未授权声音/肖像克隆的联邦级保护法案,提出民事追责条款。
AudioLM (2022.9)
Google提出AudioLM,将音频生成任务视为语言建模,可在未标注语音上生成连贯语音和钢琴曲。
embeddingTransformer层次化建模
VALL-E (2023.1)
微软在推出了一个突破性语音合成模型 VALL-E,只需3秒钟的语音样本,就能高度模拟一个人的声音,并让这个声音流利地说出任何新的文本内容。
few-/zero-shotTransformer
2023-4,美国,FTC(联邦贸易委员会) 启动 Voice Cloning 风险调查,警示企业不得利用语音克隆进行误导或欺诈;计划制定监管框架。
Stable Audio (2023.9)
Stability AI 推出Stable Audio系列,1.0版(2023年)首次实现商用级别3分钟立体声音乐生成,2.0版(2024年)新增音频到音频转换功能,支持上传素材并用文本提示生成全新音轨
图片由 AI 生成
三、发展与回归时刻
沉舟侧畔千帆过,虽然15.ai下线了,但市面上的AI配音技术还在迅猛的发展。
从2022年起,你可以在抖音上看到,注意看眼前的这个男人叫小帅演的各种电影,你可以在B站上看到五星上将麦克阿瑟到处评论,还有雷军开着小米su7到处锐评。
到现在的购物平台直播带货广泛使用 AI 数字人,和发弹幕伪装system指令干懵数字人的。还有哈基米音乐。
用15.ai创作了播放量最高小马视频的up
哈基米音乐的始祖巨人
而15.ai逐渐被人们遗忘了。他本来是AI配音技术的领头羊,早在20年就开发出了22年才开始流行的技术。而如今由于版权问题的封锁,已经没有多少人会记得15.ai的成就了。在国内的互联网上几乎看不到对它的讨论,毕竟谁又会去关注一个全是彩虹小马的网站呢?
最终,2025年5月19日,15发表推文,宣布15.ai回归,并成功规避了版权问题。此次复活后,15.ai正式改名为15.dev,网站里能生成六十多种声音,全部来自小马的角色,网站依然免费,所有费用由15自己承担。
当今天的同人创作者再次用15.ai进行创作时,这项从2016年开始持续了九年的研究项目,终究发挥出了独属于它的价值。
四、总结
从2016年 DeepMind 提出 WaveNet 以来,TTS 进入深度学习新时代。期间 TTS 的发展是和神经网络同步的,比如对抗生成网络、循环神经网络、Transformer架构,TTS 很快就能应用上最新的技术。
期间AI的监管环境也在变化。从早期几乎不受约束的野蛮生长,到2020年首次被纳入法律框架,再到今天逐步形成体系化的立法。相比模型训练中的loss等抽象指标,TTS技术对人的听觉感受冲击更为直接和强烈,这种社会层面的影响力,恰恰推动了相关法律体系的规范化进程。
从这个角度看,无论是在技术迭代还是社会应用层面,TTS的发展历程都可以视作半部AI发展史。而通过对15.ai这一个案的观察,我们得以以小见大,窥见这段历史的一个生动切面。这也解释了为什么维基百科的“深度学习语音合成”词条,都需要用四分之一的篇幅来记录15.ai的贡献。
* 深度学习语音合成”词条:
https://en.wikipedia.org/wiki/Deep_learning_speech_synthesis#History
