当前位置：首页 > news >正文

拆解B站AI字幕插件的三个核心Prompt：如何让大模型听懂你的视频分析需求

news 2026/7/3 14:44:29

解码B站AI字幕插件的Prompt设计哲学：从用户需求到模型理解的精准传递

在信息过载的时代，视频内容消费正面临一个关键矛盾：观众希望快速获取精华内容，而创作者需要完整表达观点。B站作为国内领先的长视频平台，平均视频时长逐年增长，如何高效消化内容成为用户的核心痛点。一款名为bilibili-subtitle的开源插件通过三段精心设计的Prompt，实现了视频内容的结构化解析，其背后的Prompt工程思路值得深入剖析。

1. Prompt设计的三个核心维度

1.1 角色定位：为AI设定明确的认知边界

优秀的Prompt首先会为模型建立清晰的"身份认知"。观察插件的三段Prompt，均以"You are a helpful assistant that..."开头，这种角色设定不是随意为之：

功能限定：明确告知模型只需处理字幕总结（summarize key points of video subtitle），避免生成无关内容
能力预设：使用"helpful assistant"强调实用性，而非创造性任务
语言约束：通过"in language '中文简体'"锁定输出语言，防止多语言混杂

提示：角色设定应当与任务复杂度匹配，简单任务过度设定会限制模型潜力，复杂任务缺乏设定则会导致输出不稳定。

1.2 结构化输出：机器可读与人工可读的平衡

插件要求模型返回Markdown格式的JSON数据，这种设计考虑了多重因素：

格式要求	技术价值	用户体验价值
Markdown包装	便于前端解析渲染	保留格式灵活性
JSON结构	标准化数据接口	确保信息完整性
示例模板	降低模型理解偏差	统一视觉呈现

// 分章节Prompt的输出示例 [{ "time": "03:00", "emoji": "👍", "key": "关键点1" }]

这种结构化输出设计既满足了插件程序处理的需求，又保证了最终用户看到的界面整洁有序。

1.3 上下文构建：视频理解的必要信息

有效的视频分析需要模型理解内容背景，插件Prompt通过三重上下文构建：

标题信息：提供视频主题锚点
字幕原文：包含时间戳的原始文本
处理要求：指定摘要长度、关键点数量

这种上下文设计避免了模型陷入"盲猜"状态，显著提升了摘要的相关性和准确性。

2. 三段Prompt的差异化设计策略

2.1 分章节Prompt：时间维度结构化

分章节功能的核心是将线性视频转化为非线性可跳转内容，其Prompt设计特点：

时间轴绑定：强制要求输出带时间戳的关键点
视觉元素：加入emoji增强可读性
数量控制：限定3-8个关键点防止信息过载

# 伪代码：分章节Prompt模板 prompt = f""" You are... Summarize {min}-{max} brief key points... Answer in markdown json format. The emoji should... example output format: `json {example}` The video's title: '''{title}'''. The video's subtitles: '''{subs}''' """

这种设计使得输出的章节既保持足够的信息量，又不会过于琐碎，实现了"跳着看也能懂"的效果。