当前位置：首页 > news >正文

Supertonic: 基于ONNX的极速端侧多语言TTS引擎

news 2026/7/8 5:54:26

title: “Supertonic: 基于ONNX的极速端侧多语言TTS引擎”
author: “技术雷达”
cover: “https://img-placeholder.com/cover-supertonic.png”
date: 2026-05-14
tags: [TTS, ONNX, Swift, 端侧AI, 语音合成]

引言

在语音合成领域，高质量的TTS系统通常需要庞大的云端算力支持，但随着端侧AI技术的快速发展，越来越多的模型开始走向设备端。Supertonic是一个值得关注的项目——它是一个基于ONNX Runtime的极速端侧多语言TTS系统，仅用约6600万参数就能实现167倍实时语音合成，且完全运行在本地，无需任何网络请求。

项目概览

Supertonic 由韩国AI公司 Supertone Inc. 开发，当前在GitHub上已获得4,963 Stars和485 Forks，是一个快速增长的开源项目。

核心特性：

极速推理：最高可达167倍实时速度（M4 Pro芯片测试）
纯端侧运行：无需云端API，保护用户隐私
多语言支持：v3版本支持31种语言，包括中文、英语、日语、韩语等
跨平台部署：提供11种语言/平台的SDK示例

技术架构

Supertonic采用了高度精简的设计，包含三个核心模块：

1. 语音自编码器（Speech Autoencoder）

负责将音频转换为连续的潜在表示（latent representation），为后续的文本到语音映射提供统一的表示空间。

2. 文本到潜在模块（Text-to-Latent）

基于Flow Matching技术实现文本到语音latent的映射。关键设计包括：

字符级输入：直接处理原始文本，无需G2P（字素转音素）模块
ConvNeXt块：使用现代CNN架构进行特征提取
交叉注意力机制：用于文本-语音对齐，消除对外部对齐器的依赖

3. 时长预测器（Duration Predictor）

utterance 级别的时长预测，确保生成音频的节奏控制。

LARoPE技术

Supertonic还引入了Length-Aware Rotary Position Embedding (LARoPE)技术，显著提升了文本-语音对齐的精度，这一技术发表在arXiv:2509.11084。

模型规格对比

版本	参数量	语言数	ONNX模型大小
v1	~44M	1	~200MB
v2	~66M	5	~260MB
v3	~99M	31	~350MB

可以看到，v3版本虽然参数量增加到了约9900万，但仍然远小于0.7B-2B级别的其他开源TTS系统，这使其成为真正的端侧友好型模型。

快速上手

Python（推荐方式）

# 安装PyPI包pip install supertonic# 编写代码fromsupertonicimportTTS# 首次运行自动下载模型tts=TTS(auto_download=True)# 获取音色style=tts.get_voice_style(voice_name="M1")# 合成语音text="A gentle breeze moved through the open window."wav,duration=tts.synthesize(text,voice_style=style,lang="en")# 保存音频tts.save_audio(wav,"output.wav")print(f"生成{duration:.2f}秒音频")

Swift示例

cdswift swift build-crelease .build/release/example_onnx --voice-style assets/voice_styles/M1.json--text"Hello from Swift"--langen

批量推理

# 多语言多音色批量合成texts=["English text","西班牙语文本"]voices=["M1.json","F1.json"]languages=["en","es"]audio_outputs=tts.synthesize_batch(texts,voice_style_paths=voices,languages=languages)

核心亮点

1. 自然文本处理能力

Supertonic在处理复杂文本方面表现优异，这是它相对于商业TTS服务的优势所在：

场景	示例	Supertonic	其他服务
金融表达	$5.2M, $450K	✅ 正确	❌
电话号码	(212) 555-0142 ext. 402	✅ 正确	❌
技术单位	2.3h, 30kph	✅ 正确	❌

2. 零隐私担忧

所有推理都在本地完成，数据永远不会离开设备。这对于：

隐私敏感的应用（医疗、金融）
无网络环境的嵌入式设备
企业内部使用场景

3. 极致性能

在Raspberry Pi和电子阅读器上的实测表现：

平均RTF（实时因子）达到0.3倍
完全离线运行
浏览器插件版可在1秒内完成页面转语音

支持的平台

Supertonic提供了业界最全面的TTS SDK覆盖：

平台	路径	说明
Python	`py/`	ONNX Runtime + PyPI包
Node.js	`nodejs/`	服务端JavaScript
Web	`web/`	WebGPU/WASM
Java	`java/`	JVM跨平台
C++	`cpp/`	高性能场景
C#	`csharp/`	.NET生态
Go	`go/`	Go语言实现
Swift	`swift/`	macOS应用
iOS	`ios/`	原生iOS应用
Rust	`rust/`	内存安全系统
Flutter	`flutter/`	跨平台移动应用

部署建议

开发环境

# 克隆仓库gitclone https://github.com/supertone-inc/supertonic.git# 下载模型（需要Git LFS）gitlfsinstallgitclone https://huggingface.co/Supertone/supertonic-3 assets