当前位置：首页 > news >正文

SoulX-Podcast 本地部署与WebUI体验教程（支持方言播客生成）

news 2026/7/12 20:12:51

SoulX-Podcast 本地部署与WebUI体验教程（支持方言播客生成）

关键词：SoulX-Podcast、AI播客生成、TTS、多说话人对话、方言支持、Gradio WebUI

一、项目简介

SoulX-Podcast 是 Soul AI Lab 团队开源的一个高保真播客生成推理代码库，专为从文本生成逼真的长篇播客设计。它支持多轮多说话人对话式语音生成，同时在传统单人 TTS 任务上也表现出色。

核心亮点：

支持长达90分钟以上的连续对话生成，声音稳定、切换自然。
支持旁白语言控制（笑声、叹气、呼吸等），极大提升真实感。
支持中英双语+中文方言（四川话、河南话、粤语）。
零样本跨方言声音克隆：用普通话参考音频即可生成对应方言的克隆声音。
基于 Qwen3-1.7B 大模型，参数量约1.7B。

官方仓库：https://github.com/Soul-AILab/SoulX-Podcast
在线Demo：https://soul-ailab.github.io/soulx-podcast/
模型下载：Hugging Face 或 ModelScope

本文基于用户实际部署经验，详细介绍本地部署 + Gradio WebUI 启动的全过程，尤其适合在云服务器（如云GPU平台）上运行，并实现公网访问。

二、环境准备

推荐使用 Python 3.10 或 3.11 环境。项目依赖较多，建议使用虚拟环境。

https://modelscope.cn/my/mynotebook/preset

1. 克隆仓库

gitclone https://github.com/Soul-AILab/SoulX-PodcastcdSoulX-Podcast

2. 创建虚拟环境（推荐）

# 如果系统没有 Python 3.10，可先安装sudoaptupdatesudoaptinstall-y python3.10 python3.10-venv# 创建并激活虚拟环境python3.10 -m venv .venvsource.venv/bin/activate

3. 安装依赖

pipinstall-r requirements.txt

注意：如果网络慢或在国内，可添加国内镜像：
pipinstall-r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

三、模型下载

项目提供两个模型：

基础模型：SoulX-Podcast-1.7B（支持中英）
方言模型：SoulX-Podcast-1.7B-dialect（额外支持四川话、河南话、粤语）

方法一：使用 ModelScope（国内更快）

frommodelscopeimportsnapshot_download# 基础模型snapshot_download("Soul-AILab/SoulX-Podcast-1.7B",local_dir="pretrained_models/SoulX-Podcast-1.7B")# 方言模型（推荐用于播客体验）snapshot_download("Soul-AILab/SoulX-Podcast-1.7B-dialect",local_dir="pretrained_models/SoulX-Podcast-1.7B-dialect")

方法二：使用 Hugging Face CLI（官方推荐）

pipinstall-U huggingface_hub huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B --local-dir pretrained_models/SoulX-Podcast-1.7B huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect --local-dir pretrained_models/SoulX-Podcast-1.7B-dialect

模型较大（约10GB+），建议在良好网络环境下下载，支持断点续传。

四、启动 Gradio WebUI

项目内置webui.py使用 Gradio 实现可视化界面，非常方便。

基本启动（本地访问）

# 使用方言模型（推荐）python webui.py --model_path pretrained_models/SoulX-Podcast-1.7B-dialect

默认会在 http://127.0.0.1:7860 启动。

云服务器公网访问配置

如果在云服务器（如 RunPod、AutoDL、Vast.ai 等）部署，需要对外开放端口并支持分享链接。

步骤1：修改 webui.py 中的 launch 参数

打开webui.py，找到类似以下代码行：

page.launch(share=False,server_name="0.0.0.0",server_port=args.port)

修改为：

page.launch(share=True,server_name="0.0.0.0",server_port=7860)# 或你指定的端口

server_name="0.0.0.0"：监听所有IP，实现外网访问。
share=True：生成 Gradio 公网链接（需联网）。

步骤2：frpc 内网穿透（可选，更稳定）

如果平台不支持直接公网端口，可使用 frpc。

# 下载 frpc（Linux amd64）wgethttps://cdn-media.huggingface.co/frpc-gradio-0.3/frpc_linux_amd64# 复制到 Gradio 缓存目录mkdir-p /root/.cache/huggingface/gradio/frpc/cpfrpc_linux_amd64 /root/.cache/huggingface/gradio/frpc/frpc_linux_amd64_v0.3

然后再次运行：

python webui.py --model_path pretrained_models/SoulX-Podcast-1.7B-dialect

启动成功后，会输出类似：

Running on local URL: http://0.0.0.0:7860 Running on public URL: https://xxxx.gradio.live

五、使用说明

进入 WebUI 后：

上传参考音频（用于声音克隆）。
输入对话脚本（支持多说话人格式，如 Speaker1: xxx）。
选择语言/方言、添加旁白标签（如<|laughter|>）。
点击生成，即可得到高质量播客音频。

提示：

方言生成必须使用-dialect模型。
长对话建议分段生成，避免显存溢出。
支持零样本克隆：只需几秒参考音频。

六、常见问题排查

显存不足：1.7B 模型在 24GB GPU 上可流畅运行，长对话可降低 batch。
依赖报错：确保在虚拟环境中安装 requirements。
无声音输出：检查模型路径是否正确。
Gradio 分享失败：检查网络，或使用 frpc。

七、总结

SoulX-Podcast 是目前开源领域最强的多说话人长篇播客生成模型之一，尤其在方言和情感表达上领先。通过上述步骤，你可以在本地或云端快速搭建属于自己的 AI 播客生成器，轻松制作双人/多人对话节目。

感兴趣的朋友快去试试吧！欢迎在评论区分享你的生成效果～

参考资料：

官方 GitHub：https://github.com/Soul-AILab/SoulX-Podcast
Demo 页面：https://soul-ailab.github.io/soulx-podcast/
论文：https://arxiv.org/abs/2510.23541

（完）

查看全文

http://www.jsqmd.com/news/206158/

亲测好用！9款AI论文平台测评：研究生毕业论文必备

04.深入闭包和js函数的this指向跟规则

大模型面试请分别说说你对 DeepSeek -V3和 DeepSeek -R1的理解，它们在架构或训练策略上有何关键差异？

java BIO、NIO、AIO用法样例

运放内部分立器件仿真，仿真对应的参数 LM741

java垃圾收集 minorgc majargc fullgc

基于RK3399Pro与RK3568的车载防撞方案：为货车泥头车安全护航

超详细逻辑回归解说

超声波传感器(HC-SR04)与Arduino Uno及Mixly使用

UVM-phase中的object机制

学霸同款2026TOP10AI论文网站：本科生毕业论文神器测评

react组件内添加一个全局点击时间，点击函数能区分是否是某个特定的id的dom触发的

风光柴储多目标联合调度问题探索

实体门店新纪元：从“单点AI尝试”到“系统智能体”的转型之路

Oracle 高风险锁等待快速诊断手册

从“经验驱动”到“系统智能”：实体门店经营的结构性升级

数据库笔记

AI+IoT双轮驱动：构建风电设备预测性维护数字孪生体的全栈技术实践

UE5 C++（7）：

亲测好用8个AI论文写作软件，本科生搞定论文不求人！

企业落地 ChatBI，如何构建可信可靠的数据底座？

UE5 C++（6-2）：描述角色 EndPlay 原因的枚举类 EEndPlayReason::Type，此命名空间里定义了一个枚举类。

基于IEEE33节点配电网的分布式电源与电动汽车接入潮流计算研究：考虑风光时序特性与电动汽车出...

【珍藏干货】零成本打造智能文档问答系统！Everything plus RAG实战：让AI帮你从海量文档中精准找答案

基于springboot的美食分享平台网站设计实现

脉脉独家【AI创作者xAMA】| 多维价值与深远影响

网络安全核心技术要点速查手册：面试与工作实战必备总结

AI 写论文哪个软件最好？虎贲等考 AI 凭 “学术闭环” 登顶首选