当前位置：首页 > news >正文

SenseVoice Small保姆级教程：识别结果导出含时间轴SRT用于剪辑

news 2026/5/12 21:39:10

SenseVoice Small保姆级教程：识别结果导出含时间轴SRT用于剪辑

你是不是也遇到过这种情况？用语音转文字工具把会议录音、访谈内容转成了文本，但想把它做成带字幕的视频时，却傻眼了——只有文字，没有时间轴，根本没法导入剪辑软件。

今天我要分享的，就是解决这个痛点的完整方案。我们将基于阿里通义千问的SenseVoice Small模型，不仅教你如何快速部署一个高性能的语音转文字服务，更重要的是，我会手把手带你实现一个关键功能：把识别结果导出为带精确时间轴的SRT字幕文件。

有了这个SRT文件，你可以直接导入剪映、Premiere、Final Cut Pro等任何主流剪辑软件，字幕会自动对齐到音频的每一句话，剪辑效率提升十倍不止。

1. 教程目标与准备工作

1.1 你能学到什么

通过这篇教程，你将掌握：

如何快速部署修复版的SenseVoice Small语音识别服务
如何通过简单的代码修改，让服务输出带时间轴的识别结果
如何将时间轴信息转换为标准的SRT字幕格式
如何将生成的SRT文件应用到实际剪辑工作中

1.2 你需要准备什么

这个教程对新手非常友好，你只需要：

一台能联网的电脑（Windows/Mac/Linux都可以）
基本的Python环境（我会告诉你怎么安装）
一个支持CUDA的NVIDIA显卡（可选，有的话速度更快）
大约30分钟的耐心

如果你没有显卡也没关系，用CPU也能运行，只是速度会慢一些。

1.3 为什么选择SenseVoice Small

你可能用过其他语音识别工具，但SenseVoice Small有几个独特的优势：

轻量快速：模型只有几百MB，加载和推理速度都很快
多语言支持：能自动识别中、英、日、韩、粤语，混合语音也能处理
部署简单：项目已经修复了常见的路径错误和网络问题
结果准确：在保持轻量的同时，识别准确率相当不错

最重要的是，它的识别结果包含了每个词的时间戳信息，这正是我们生成SRT文件的关键。

2. 快速部署SenseVoice Small服务

2.1 一键部署（最简单的方法）

如果你在CSDN星图镜像广场找到了SenseVoice Small的镜像，那是最简单的：

点击"一键部署"按钮
等待几分钟让系统自动配置
部署完成后，点击提供的HTTP链接就能打开Web界面

不过，今天我们要做的不仅仅是使用Web界面，还要修改代码来获取时间轴信息。所以，我们采用手动部署的方式。

2.2 手动部署步骤

如果你更喜欢自己动手，或者想更深入了解原理，可以跟着下面的步骤来：

# 1. 克隆项目代码 git clone https://github.com/your-repo/sensevoice-small-fixed.git cd sensevoice-small-fixed # 2. 创建Python虚拟环境（推荐） python -m venv venv # 3. 激活虚拟环境 # Windows: venv\Scripts\activate # Mac/Linux: source venv/bin/activate # 4. 安装依赖包 pip install -r requirements.txt # 5. 安装PyTorch（根据你的CUDA版本选择） # 如果你有NVIDIA显卡： pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118 # 如果你只有CPU： pip install torch torchaudio # 6. 下载SenseVoice Small模型 # 项目通常会提供下载脚本，或者你可以手动下载 python download_model.py

部署过程中可能会遇到一些小问题，这里我提前帮你解决了最常见的两个：

问题1：提示"No module named 'model'"这是因为Python找不到模型文件。解决方法是在代码开头添加：

import sys sys.path.append('/path/to/your/model/directory')

问题2：模型加载卡住不动这是因为模型默认会检查更新。在代码中找到相关设置，添加：

disable_update=True

2.3 测试服务是否正常

部署完成后，我们来快速测试一下：

# test_service.py import torch from model import SenseVoiceSmall # 初始化模型 model = SenseVoiceSmall(disable_update=True) # 加载一个测试音频 audio_path = "test_audio.wav" # 进行识别 result = model.transcribe(audio_path, language="auto") print("识别结果：", result['text'])

如果能看到识别出的文字，说明服务部署成功了！

3. 获取带时间轴的识别结果

3.1 理解时间轴数据

SenseVoice Small在识别语音时，不仅会输出文字，还会记录每个词（甚至每个字）的开始时间和结束时间。这些时间信息以毫秒为单位存储。

原始的时间轴数据看起来可能是这样的：

{ 'text': '大家好，欢迎观看这个视频', 'segments': [ { 'text': '大家好', 'start': 0, 'end': 1200, 'words': [ {'word': '大', 'start': 0, 'end': 300}, {'word': '家', 'start': 300, 'end': 600}, {'word': '好', 'start': 600, 'end': 1200} ] }, { 'text': '欢迎观看这个视频', 'start': 1500, 'end': 3500, # ... 更多词级时间信息 } ] }

3.2 修改代码获取完整时间信息

默认的Web界面只显示最终的文字结果，我们需要修改代码来获取并保存时间信息。

找到项目中处理识别结果的部分（通常在app.py或main.py中），添加以下代码：

def transcribe_with_timestamps(audio_path, language="auto"): """ 带时间轴的语音识别 """ # 加载音频 audio = load_audio(audio_path) # 使用模型识别 result = model.transcribe( audio, language=language, # 关键参数：返回详细的时间信息 return_timestamps=True, word_timestamps=True ) return result # 在Web界面的识别函数中调用 def process_audio(): # ... 原有的音频处理代码 # 获取带时间轴的识别结果 result = transcribe_with_timestamps(audio_file, selected_language) # 保存时间轴信息供后续使用 save_timestamps(result) # 同时显示文字结果（保持原有功能） display_text = result['text'] # ... 更新界面显示

3.3 时间轴数据的优化处理

原始的时间轴数据可能太细了（每个字都有时间），我们需要把它合并成句子级别，这样更适合做字幕：

def merge_to_sentences(segments, max_pause=500): """ 将词级时间轴合并为句子级 max_pause: 停顿多少毫秒算一句话结束（默认500ms） """ sentences = [] current_sentence = "" current_start = None current_end = None for segment in segments: for word_info in segment.get('words', []): word = word_info['word'] start = word_info['start'] end = word_info['end'] # 如果是新句子的开始 if current_start is None: current_start = start current_end = end current_sentence = word # 如果停顿时间短，继续当前句子 elif start - current_end < max_pause: current_sentence += word current_end = end # 如果停顿时间长，开始新句子 else: sentences.append({ 'text': current_sentence, 'start': current_start, 'end': current_end }) current_sentence = word current_start = start current_end = end # 添加最后一句 if current_sentence: sentences.append({ 'text': current_sentence, 'end': current_end }) return sentences

4. 生成SRT字幕文件

4.1 SRT文件格式详解

SRT（SubRip Text）是最常用的字幕格式，它的结构很简单：

1 00:00:00,000 --> 00:00:01,200 大家好 2 00:00:01,500 --> 00:00:03,500 欢迎观看这个视频 3 00:00:04,000 --> 00:00:06,000 今天我们来学习语音识别

每一段字幕包含：

序号（从1开始）
时间轴（开始时间 --> 结束时间）
字幕文本
空行（分隔不同字幕段）

4.2 将时间轴转换为SRT格式

现在我们把优化后的句子时间轴转换成SRT格式：

def format_time(ms): """将毫秒转换为SRT时间格式：HH:MM:SS,mmm""" hours = ms // 3600000 ms %= 3600000 minutes = ms // 60000 ms %= 60000 seconds = ms // 1000 milliseconds = ms % 1000 return f"{hours:02d}:{minutes:02d}:{seconds:02d},{milliseconds:03d}" def create_srt_from_sentences(sentences): """生成SRT文件内容""" srt_content = "" for i, sentence in enumerate(sentences, 1): start_time = format_time(sentence['start']) end_time = format_time(sentence['end']) srt_content += f"{i}\n" srt_content += f"{start_time} --> {end_time}\n" srt_content += f"{sentence['text']}\n\n" return srt_content def save_srt_file(sentences, output_path="output.srt"): """保存为SRT文件""" srt_content = create_srt_from_sentences(sentences) with open(output_path, 'w', encoding='utf-8') as f: f.write(srt_content) print(f"SRT文件已保存到：{output_path}") return output_path

4.3 在Web界面中添加导出功能

为了让普通用户也能方便使用，我们在Streamlit Web界面中添加一个导出按钮：

# 在Streamlit应用的适当位置添加 import streamlit as st # ... 原有的识别代码 ... if st.button("开始识别 ⚡"): # 执行识别 result = transcribe_with_timestamps(audio_file, language) # 显示文字结果 st.text_area("识别结果", result['text'], height=200) # 处理时间轴并生成SRT sentences = merge_to_sentences(result['segments']) srt_content = create_srt_from_sentences(sentences) # 提供SRT文件下载 st.download_button( label="📥 下载SRT字幕文件", data=srt_content, file_name="subtitles.srt", mime="text/plain" ) # 预览SRT内容 with st.expander("预览SRT文件内容"): st.text(srt_content)

5. 实际应用：从SRT到视频剪辑

5.1 在剪映中使用SRT文件

剪映是目前最流行的视频剪辑软件之一，支持SRT字幕导入：

导入视频和音频：把你要加字幕的视频导入剪映
导入字幕：点击"文本" → "智能字幕" → "识别字幕"
但这里有个更好的方法：直接点击"导入" → 选择你生成的SRT文件
自动对齐：剪映会自动把字幕按照时间轴放到正确的位置
微调样式：你可以统一修改字体、大小、颜色、位置等

小技巧：如果发现某些字幕时间对不齐，可以在剪映里直接拖动调整，比手动打字快多了。

5.2 在Premiere Pro中使用

Premiere Pro是专业剪辑软件，也完美支持SRT：

导入SRT文件：直接把SRT文件拖到时间轴上
自动创建字幕轨道：Premiere会自动创建一个字幕轨道
批量修改样式：在"字幕"面板中可以统一修改所有字幕的样式
导出带字幕的视频：渲染时选择"导出字幕"选项

5.3 在Final Cut Pro中使用

Final Cut Pro对SRT的支持也很友好：

导入SRT：选择"文件" → "导入" → "字幕"
自动生成字幕：选择你生成的SRT文件
调整设置：在检查器中调整字幕样式
批量操作：可以一次性修改所有字幕的字体、大小等

5.4 处理常见问题

在实际使用中，你可能会遇到这些问题：

问题1：字幕时间对不上

原因：音频文件的起始时间不是0，或者有静音片段
解决：在生成SRT前，用音频编辑软件去掉开头静音

问题2：一句话太长显示不下

原因：合并句子时设置的停顿阈值太小
解决：调整merge_to_sentences函数中的max_pause参数，或者手动在剪辑软件中拆分

问题3：标点符号缺失

原因：语音识别可能不包含标点
解决：在生成SRT后，用文本编辑器批量添加标点，或者使用标点恢复模型

6. 进阶技巧与优化建议

6.1 批量处理多个音频文件

如果你有很多音频需要处理，可以写一个批量脚本：

import os from pathlib import Path def batch_process_audio_files(input_folder, output_folder): """批量处理文件夹中的所有音频文件""" input_path = Path(input_folder) output_path = Path(output_folder) output_path.mkdir(exist_ok=True) # 支持的文件格式 audio_extensions = ['.wav', '.mp3', '.m4a', '.flac'] for audio_file in input_path.glob('*'): if audio_file.suffix.lower() in audio_extensions: print(f"处理文件：{audio_file.name}") # 识别音频 result = transcribe_with_timestamps(str(audio_file)) # 生成SRT sentences = merge_to_sentences(result['segments']) srt_content = create_srt_from_sentences(sentences) # 保存SRT文件 srt_filename = audio_file.stem + '.srt' srt_path = output_path / srt_filename with open(srt_path, 'w', encoding='utf-8') as f: f.write(srt_content) print(f" 已生成：{srt_filename}") print("批量处理完成！")

6.2 添加说话人分离

如果音频中有多个人说话，可以添加说话人分离功能：

def transcribe_with_speaker_diarization(audio_path): """ 带说话人分离的识别 需要安装额外的库：pyannote.audio """ from pyannote.audio import Pipeline # 加载说话人分离模型 pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization") # 应用说话人分离 diarization = pipeline(audio_path) # 结合语音识别结果 # 这里需要将时间轴与说话人标签对齐 # ... 具体实现略 ... return result_with_speakers

6.3 自定义字幕样式模板

你可以创建不同风格的字幕模板，一键应用：

def create_styled_srt(sentences, style_template="default"): """生成带样式标记的SRT（某些播放器支持）""" styles = { "default": "", "yellow_bottom": "{\\an8}{\\c&HFFFF00&}", "white_top": "{\\an2}{\\c&HFFFFFF&}", # 更多样式... } style_prefix = styles.get(style_template, "") srt_content = "" for i, sentence in enumerate(sentences, 1): start_time = format_time(sentence['start']) end_time = format_time(sentence['end']) srt_content += f"{i}\n" srt_content += f"{start_time} --> {end_time}\n" srt_content += f"{style_prefix}{sentence['text']}\n\n" return srt_content