当前位置: 首页 > news >正文

SoulX-Podcast 本地部署与WebUI体验教程(支持方言播客生成)

SoulX-Podcast 本地部署与WebUI体验教程(支持方言播客生成)

关键词:SoulX-Podcast、AI播客生成、TTS、多说话人对话、方言支持、Gradio WebUI

一、项目简介

SoulX-Podcast 是 Soul AI Lab 团队开源的一个高保真播客生成推理代码库,专为从文本生成逼真的长篇播客设计。它支持多轮多说话人对话式语音生成,同时在传统单人 TTS 任务上也表现出色。

核心亮点:

  • 支持长达90分钟以上的连续对话生成,声音稳定、切换自然。
  • 支持旁白语言控制(笑声、叹气、呼吸等),极大提升真实感。
  • 支持中英双语+中文方言(四川话、河南话、粤语)。
  • 零样本跨方言声音克隆:用普通话参考音频即可生成对应方言的克隆声音。
  • 基于 Qwen3-1.7B 大模型,参数量约1.7B。

官方仓库:https://github.com/Soul-AILab/SoulX-Podcast
在线Demo:https://soul-ailab.github.io/soulx-podcast/
模型下载:Hugging Face 或 ModelScope

本文基于用户实际部署经验,详细介绍本地部署 + Gradio WebUI 启动的全过程,尤其适合在云服务器(如云GPU平台)上运行,并实现公网访问。

二、环境准备

推荐使用 Python 3.10 或 3.11 环境。项目依赖较多,建议使用虚拟环境。

https://modelscope.cn/my/mynotebook/preset

1. 克隆仓库

gitclone https://github.com/Soul-AILab/SoulX-PodcastcdSoulX-Podcast

2. 创建虚拟环境(推荐)

# 如果系统没有 Python 3.10,可先安装sudoaptupdatesudoaptinstall-y python3.10 python3.10-venv# 创建并激活虚拟环境python3.10 -m venv .venvsource.venv/bin/activate

3. 安装依赖

pipinstall-r requirements.txt

注意:如果网络慢或在国内,可添加国内镜像:

pipinstall-r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

三、模型下载

项目提供两个模型:

  • 基础模型:SoulX-Podcast-1.7B(支持中英)
  • 方言模型:SoulX-Podcast-1.7B-dialect(额外支持四川话、河南话、粤语)

方法一:使用 ModelScope(国内更快)

frommodelscopeimportsnapshot_download# 基础模型snapshot_download("Soul-AILab/SoulX-Podcast-1.7B",local_dir="pretrained_models/SoulX-Podcast-1.7B")# 方言模型(推荐用于播客体验)snapshot_download("Soul-AILab/SoulX-Podcast-1.7B-dialect",local_dir="pretrained_models/SoulX-Podcast-1.7B-dialect")

方法二:使用 Hugging Face CLI(官方推荐)

pipinstall-U huggingface_hub huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B --local-dir pretrained_models/SoulX-Podcast-1.7B huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect --local-dir pretrained_models/SoulX-Podcast-1.7B-dialect

模型较大(约10GB+),建议在良好网络环境下下载,支持断点续传。

四、启动 Gradio WebUI

项目内置webui.py使用 Gradio 实现可视化界面,非常方便。

基本启动(本地访问)

# 使用方言模型(推荐)python webui.py --model_path pretrained_models/SoulX-Podcast-1.7B-dialect

默认会在 http://127.0.0.1:7860 启动。

云服务器公网访问配置

如果在云服务器(如 RunPod、AutoDL、Vast.ai 等)部署,需要对外开放端口并支持分享链接。

步骤1:修改 webui.py 中的 launch 参数

打开webui.py,找到类似以下代码行:

page.launch(share=False,server_name="0.0.0.0",server_port=args.port)

修改为:

page.launch(share=True,server_name="0.0.0.0",server_port=7860)# 或你指定的端口
  • server_name="0.0.0.0":监听所有IP,实现外网访问。
  • share=True:生成 Gradio 公网链接(需联网)。
步骤2:frpc 内网穿透(可选,更稳定)

如果平台不支持直接公网端口,可使用 frpc。

# 下载 frpc(Linux amd64)wgethttps://cdn-media.huggingface.co/frpc-gradio-0.3/frpc_linux_amd64# 复制到 Gradio 缓存目录mkdir-p /root/.cache/huggingface/gradio/frpc/cpfrpc_linux_amd64 /root/.cache/huggingface/gradio/frpc/frpc_linux_amd64_v0.3

然后再次运行:

python webui.py --model_path pretrained_models/SoulX-Podcast-1.7B-dialect

启动成功后,会输出类似:

Running on local URL: http://0.0.0.0:7860 Running on public URL: https://xxxx.gradio.live

五、使用说明

进入 WebUI 后:

  1. 上传参考音频(用于声音克隆)。
  2. 输入对话脚本(支持多说话人格式,如 Speaker1: xxx)。
  3. 选择语言/方言、添加旁白标签(如<|laughter|>)。
  4. 点击生成,即可得到高质量播客音频。

提示

  • 方言生成必须使用-dialect模型。
  • 长对话建议分段生成,避免显存溢出。
  • 支持零样本克隆:只需几秒参考音频。

六、常见问题排查

  • 显存不足:1.7B 模型在 24GB GPU 上可流畅运行,长对话可降低 batch。
  • 依赖报错:确保在虚拟环境中安装 requirements。
  • 无声音输出:检查模型路径是否正确。
  • Gradio 分享失败:检查网络,或使用 frpc。

七、总结

SoulX-Podcast 是目前开源领域最强的多说话人长篇播客生成模型之一,尤其在方言和情感表达上领先。通过上述步骤,你可以在本地或云端快速搭建属于自己的 AI 播客生成器,轻松制作双人/多人对话节目。

感兴趣的朋友快去试试吧!欢迎在评论区分享你的生成效果~

参考资料

  • 官方 GitHub:https://github.com/Soul-AILab/SoulX-Podcast
  • Demo 页面:https://soul-ailab.github.io/soulx-podcast/
  • 论文:https://arxiv.org/abs/2510.23541

(完)

http://www.jsqmd.com/news/206158/

相关文章:

  • 亲测好用!9款AI论文平台测评:研究生毕业论文必备
  • 04.深入闭包和js函数的this指向跟规则
  • 04.深入闭包和js函数的this指向跟规则
  • 大模型面试 请分别说说你对 DeepSeek -V3和 DeepSeek -R1的理解,它们在架构或训练策略上有何关键差异?
  • java BIO、NIO、AIO用法样例
  • 运放内部分立器件仿真,仿真对应的参数 LM741
  • java垃圾收集 minorgc majargc fullgc
  • java垃圾收集 minorgc majargc fullgc
  • 基于RK3399Pro与RK3568的车载防撞方案:为货车泥头车安全护航
  • 超详细逻辑回归解说
  • 超声波传感器(HC-SR04)与Arduino Uno及Mixly使用
  • UVM-phase中的object机制
  • 学霸同款2026TOP10AI论文网站:本科生毕业论文神器测评
  • react组件内添加一个全局点击时间,点击函数能区分是否是某个特定的id的dom触发的
  • 风光柴储多目标联合调度问题探索
  • 实体门店新纪元:从“单点AI尝试”到“系统智能体”的转型之路
  • Oracle 高风险锁等待快速诊断手册
  • 从“经验驱动”到“系统智能”:实体门店经营的结构性升级
  • 数据库笔记
  • AI+IoT双轮驱动:构建风电设备预测性维护数字孪生体的全栈技术实践
  • UE5 C++(7):
  • 亲测好用8个AI论文写作软件,本科生搞定论文不求人!
  • 企业落地 ChatBI,如何构建可信可靠的数据底座?
  • UE5 C++(6-2):描述角色 EndPlay 原因的枚举类 EEndPlayReason::Type,此命名空间里定义了一个枚举类。
  • 基于IEEE33节点配电网的分布式电源与电动汽车接入潮流计算研究:考虑风光时序特性与电动汽车出...
  • 【珍藏干货】零成本打造智能文档问答系统!Everything plus RAG实战:让AI帮你从海量文档中精准找答案
  • 基于springboot的美食分享平台网站设计实现
  • 脉脉独家【AI创作者xAMA】| 多维价值与深远影响
  • 网络安全核心技术要点速查手册:面试与工作实战必备总结
  • AI 写论文哪个软件最好?虎贲等考 AI 凭 “学术闭环” 登顶首选