当前位置: 首页 > news >正文

【Python】免费的中文 AI 配音方案

  • 免费
  • 高质量
  • 免密钥
  • 需联网

edge_tts是一个利用Microsoft Edge 浏览器在线 TTS(文本转语音)服务的非官方 Python 库。
它无需微软 API 密钥,即可调用 Edge 内置的高质量神经网络语音合成引擎,将文本转换为自然语音并保存为音频文件。


核心特点

特性说明
免费无密钥直接调用 Edge 的在线 TTS 接口,无需 Azure 订阅或 API Key
语音质量高基于微软最新的神经网络 TTS,中文(如 Xiaoxiao、Yunyang)发音自然流畅
支持 SSML可使用语音合成标记语言精细控制语速、音调、停顿、多语音切换
多种输出格式支持 MP3、WEBM、OGG 等格式(实际为流媒体封装)
异步设计基于asyncioaiohttp,适合批量处理或集成到异步应用

安装

pipinstalledge-tts

依赖极少,主要需要aiohttp(会自动安装)。


基础用法

1. 命令行快速使用(无需写代码)

安装后自带edge-ttsedge-playback命令:

# 查看所有可用语音edge-tts --list-voices# 中文语音合成并保存edge-tts--voicezh-CN-XiaoxiaoNeural--text"你好,这是微软 Edge 的文本转语音演示。"--write-media output.mp3# 调整语速(+50%)和音量(+10%)edge-tts--voicezh-CN-YunyangNeural--rate+50%--volume+10%--text"加速播放测试"--write-media fast.mp3

2. Python 代码使用

importasyncioimportedge_tts TEXT="你好,欢迎使用 edge_tts 库。这是由微软 Edge 提供的高质量中文语音合成。"VOICE="zh-CN-XiaoxiaoNeural"# 中文女声OUTPUT_FILE="test.mp3"asyncdefmain():communicate=edge_tts.Communicate(TEXT,VOICE)awaitcommunicate.save(OUTPUT_FILE)if__name__=="__main__":asyncio.run(main())

进阶功能

使用 SSML 精细控制

SSML(Speech Synthesis Markup Language)可以控制停顿、语气、多角色对话:

importasyncioimportedge_tts SSML=""" <<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="zh-CN"> <voice name="zh-CN-XiaoxiaoNeural"> 你好,<<break time="500ms"/> 这是带停顿的语音。 <prosody rate="slow" pitch="+10%">这句话语速较慢,音调较高。</prosody> </voice> </speak> """asyncdefmain():communicate=edge_tts.Communicate(SSML,voice="zh-CN-XiaoxiaoNeural")awaitcommunicate.save("ssml_output.mp3")asyncio.run(main())

流式获取音频数据

适合边下载边播放,无需等待完整文件:

importasyncioimportedge_ttsasyncdefstream_tts():communicate=edge_tts.Communicate("流式播放测试","zh-CN-YunyangNeural")asyncforchunkincommunicate.stream():ifchunk["type"]=="audio":# chunk["data"] 是音频字节流,可实时写入播放器print(f"收到音频块:{len(chunk['data'])}bytes")elifchunk["type"]=="WordBoundary":# 获取每个词的时间边界信息,可用于字幕同步print(f"词:{chunk['text']}, 偏移:{chunk['offset']}ms")asyncio.run(stream_tts())

批量处理与语音切换

importasyncioimportedge_tts voices=["zh-CN-XiaoxiaoNeural","zh-CN-YunyangNeural","zh-CN-XiaohanNeural"]text="同样的文本,不同的声音。"asyncdefbatch():tasks=[]forvoiceinvoices:communicate=edge_tts.Communicate(text,voice)tasks.append(communicate.save(f"{voice}.mp3"))awaitasyncio.gather(*tasks)asyncio.run(batch())

常用中文语音列表

语音 ID性别/风格特点
zh-CN-XiaoxiaoNeural自然、温暖,最常用
zh-CN-YunyangNeural新闻播报风格,沉稳
zh-CN-XiaohanNeural抒情风格,柔和
zh-CN-XiaomoNeural多种情感风格可选
zh-CN-YunxiNeural年轻、活泼
zh-CN-XiaoruiNeural成熟、专业
zh-CN-YunjianNeural老年、叙事风格

完整列表通过edge-tts --list-voices | grep zh-CN查看。


注意事项

  1. 网络依赖:需要能访问微软 Edge TTS 在线服务(speech.platform.bing.com相关域名),国内通常可直接访问。
  2. 非官方 API:这是逆向 Edge 浏览器接口实现的,微软可能随时调整服务端逻辑,存在失效风险。
  3. 商业使用:音频生成自微软服务,商用前建议确认微软服务条款,或考虑官方 Azure Speech Service。
  4. 长文本限制:单段文本过长时建议分段处理,避免超时。

典型应用场景

  • 有声书/播客制作:快速将长文本文档转为音频
  • 视频配音:为短视频、教程生成旁白
  • 辅助阅读:为视障用户或学习场景提供语音朗读
  • AI 对话机器人:为 ChatBot 添加语音输出能力
  • 自动化测试:生成语音素材用于测试
http://www.jsqmd.com/news/867945/

相关文章:

  • AI、二体与三体(多体)问题
  • 通风设备技术解析:从采光排烟天窗到玻璃钢风机的选型与工程实践
  • Backtracking 回溯算法
  • 第一章:Go 语言开发的大模型调用框架 - Eino
  • QQ空间说说备份终极指南:GetQzonehistory完整教程
  • SHE 密钥注入的“通配符魔法”:从 UID 通配到 AUTOSAR 分层落地
  • 新手开发者第一步从零开始调用大模型完成对话
  • 聚氨酯胶辊到底能用在哪些行业?
  • 推理框架负责人 — 学习路线 (inference-framework-learning-path)
  • 量子优化算法ITEMC:原理、实现与应用
  • 打开U盘文件夹变成.exe的问题:在MAC ios中的解决办法
  • 旋转图像:从矩阵转置、镜像到坐标变换的系统理解
  • QuantDinger 本地部署实战:5 分钟跑通 AI 量化系统,值不值?
  • 收藏!2026年AI风口来袭,普通人也能抓住高薪机会,附7步学AI路线图
  • 熵与编码:工业数据压缩的数学奥秘
  • 深入理解关系数据库三范式
  • 气动黄油机核心技术解析:泵的选择与厂家评估方法论
  • 东莞AI培训排名情况分析与技术问题排查实践
  • 口碑好的经销商管理系统哪家
  • NotebookLM样本量计算实战手册(含Python自动计算脚本+置信度校验表)
  • Keil MDK中实现原始以太网数据接收与协议处理
  • 微信小程序年度费用全拆解:SaaS、开源与定制开发的3年成本实测对比
  • 指针(一)
  • 推荐1款提升办公效率神器,文件(夹)批量重命名工具
  • Servlet 表单数据处理指南
  • 独立开发者如何利用Taotoken一站式解决模型选型与接入难题
  • 超低功耗语音识别加速器:SNN与硬件协同设计
  • 从技术实现角度聊聊全屋定制:一套柜子的品质由哪些底层因素决定
  • 2026年近期青少年自行车厂家综合实力评估与联系指南 - 2026年企业推荐榜
  • 《PHP 测验》