当前位置: 首页 > news >正文

视频自动字幕生成器 (Video Subtitle Generator)

这是一个基于 Qt 6.9 (C++)、FFmpeg 和 Python (Vosk / Whisper) 的 Windows 桌面应用程序。它可以自动识别视频中的中文语音,生成 SRT 字幕,并将其“烧录”进视频中(硬字幕),方便制作带字幕的视频内容。

image-20260102115147861

Github:https://github.com/haoyouxiaoju/addSubtitlesToVideo

这是我通过Trae直接生成的,开始只给了
‘目前需要完成一个程序,功能为可以给视频导入字幕。
具体使用Qt6.9来编写界面,主体是C++来完成,音频识别转换字幕使用python的库来完成(大致为ffmpeg将视频音频提取出来再交给python的Vosk或者Whisper进行转录,最后使用ffmpeg再将字幕导入视频中)。
流程为选择视频->程序将视频中音频提取出来->将提取出来的音频转换成文本字幕(目前只考虑中文)->将字幕导入视频中
输入:视频文件(需要保持不变,输出是额外的文件)
输出:加了字幕的视频文件和字幕的文本文件
需要完整的编写出来能够运行’
后续就是根据需求慢慢修改,最开始使用vosk可以直接使用,后续让其切换成whisper后就出现较多问题,要慢慢修改

由于里面使用的是ffmpeg和python的命令所以需要确保本地机器有搭建ffmpeg和python的环境
同时程序运行还会运行openai模型,所以第一次运行会下载模型比较久,
而且使用模型需要调用GPU,还需要额外pip一些cuda的库,不然只是使用CPU来转录就比较慢了

🚀 功能特性

  • 双引擎支持:
    • Vosk: 轻量级离线识别,CPU 运行,无需显卡,适合老旧设备。
    • Whisper (Faster-Whisper): 高精度识别,支持 GPU 加速 (CUDA),准确率远超 Vosk。
  • GPU 加速: 自动检测并配置 NVIDIA 环境,无需手动安装 CUDA Toolkit(通过 pip 依赖自动注入)。
  • 拖拽导入: 直接将视频文件拖入界面即可添加任务。
  • 批量处理: 自动队列管理,支持多任务顺序处理。
  • 硬字幕合成: 使用 FFmpeg 将字幕直接嵌入视频画面,确保在任何播放器中均可显示。
  • 智能排版: 自动检测长句,将字幕拆分为每行不超过 20 个字符的短句。
  • 可视化进度: 实时显示模型下载、音频转写、音频提取视频合成的详细进度 (步骤 1-3)。
  • 结果反馈: 清晰的成功/失败状态指示,失败任务高亮显示。
http://www.jsqmd.com/news/181820/

相关文章:

  • FastAPI跨域问题深度解析(预检请求避坑宝典)
  • 探索VoxCPM-1.5-TTS的声音克隆能力:个性化语音不再是难题
  • HuggingFace镜像网站同步更新VoxCPM-1.5-TTS最新版本
  • Python大模型显存占用过高?5种实战策略助你降低30%以上显存消耗
  • Python 3.13 废弃特性深度解读:影响你项目的3个关键点
  • 为什么你的Streamlit应用不够“高级”?主题自定义的4个核心秘诀
  • PyCharm激活码永久免费?不!但VoxCPM-1.5-TTS可合法免费使用
  • NiceGUI表单验证实战精讲(99%开发者忽略的关键细节)
  • 医疗语音助手开发:基于VoxCPM-1.5-TTS构建问诊引导系统
  • 在线课程语音讲解:教育平台集成VoxCPM-1.5-TTS提升用户体验
  • 医院叫号系统语音播报:减少人工干预提高运营效率
  • 学校上课铃声个性化:每个班级都有自己的专属铃音
  • 外语学习辅助:VoxCPM-1.5-TTS模拟真人发音帮助口语训练
  • 开发者远程办公环境搭建:数据库与代码同步
  • PyWebIO文件处理实战(从入门到精通):解决90%开发者遇到的上传难题
  • 使用Jupyter Notebook调试VoxCPM-1.5-TTS-WEB-UI输出结果
  • 揭秘NiceGUI输入校验陷阱:5个你必须掌握的防御性编程技巧
  • 【高并发必看】FastAPI限流最佳实践:3个真实线上案例深度剖析
  • 2025空间智能技术大爆发
  • 详细介绍:Spring Boot 集成 Quartz 实现定时任务(Cron 表达式示例)
  • X射线检测技术:多领域关键应用与性能发展趋势解析
  • 最新泳池除湿机十大口碑厂家深度解析,市场泳池除湿机公司推荐普沃泰专注行业多年经验,口碑良好 - 品牌推荐师
  • 对比主流TTS模型:VoxCPM-1.5为何更适合网页推理?
  • asyncio中协程到底能不能复用?:99%开发者都忽略的核心细节
  • 机场/车站广播系统智能化:VoxCPM-1.5-TTS实现动态信息播报
  • 基于YOLOv12的口罩识别检测系统(YOLOv12深度学习+YOLO数据集+UI界面+登录注册界面+Python项目源码+模型)
  • Python日志远程传输全解析,构建企业级监控体系的关键一步
  • 微PE官网工具箱能否运行VoxCPM-1.5-TTS?轻量级系统适配探讨
  • AI排名优化技术解析:原理、服务商与应用场景
  • Python协程复用终极优化方案(千万级请求场景实测有效)