video-use:用对话剪辑视频,AI 当你的剪辑副驾驶 | Github Daily
**⚠️ 免责声明:**本工具依赖境外公开数据源,部分平台在中国大陆需合规网络环境。
把素材丢进文件夹,告诉 Claude Code “剪成一个发布视频”,然后等着拿final.mp4。
这就是video-use在做的事——browser-use 团队(没错,就是那个 93K Stars 的 AI 浏览器自动化明星团队)开源的对话式视频编辑工具。今日 GitHub Trending [#13](javascript:😉,11K+ Stars。
📦 项目速览
名称:video-use
团队:browser-use(AI 浏览器自动化 93K Stars)
定位:对话式 AI 视频编辑工具
协议:MIT(100% 开源)
Stars:11,048(今日 +196 🔥)
语言:Python
地址:github.com/browser-use/video-use
11K+GitHub Stars12条硬性规则12KB替代 45M tokens
痛点:视频剪辑的"三座大山"
传统视频编辑有三座大山:软件门槛高(Premiere/DaVinci/FCP 动辄数月学习)、重复劳动多(去口误、剪静默、加字幕、调色,每一步都是体力活)、创意被技术拖累(你想专注内容,却被迫和 timeline 、关键帧搏斗)。
video-use 翻转了这个模型:LLM 成为你的剪辑师,你成为创意总监。你不需要学复杂软件,不需要拖拽时间线,不需要记快捷键——你只需要用自然语言描述你想要什么。
💡 **核心洞察:**video-use 的设计哲学和 browser-use 一脉相承——给 Agent 结构化数据而非原始像素。browser-use 给 LLM 结构化 DOM 而非截图,video-use 给 LLM 12KB 转录文本而非 4500 万 tokens 的帧数据。
核心亮点:让 LLM 高效"阅读"视频
① 双层读取系统
video-use 的精髓在于让 LLM高效"阅读"视频,而非盲目处理每一帧。它通过两个层次实现:
Layer 1 — 音频转录(始终加载)
使用 ElevenLabs Scribe 进行单次调用,获取词级时间戳、说话人分离和音频事件标记(如(laughter)、(applause))。所有素材打包成单个约12KB 的takes_packed.md——这就是 LLM 的主要阅读视图。
## C0103 (duration: 43.0s, 8 phrases) [002.52-005.36] S0 Ninety percent of what a web agent does is completely wasted. [006.08-006.74] S0 We fixed this.Layer 2 — 视觉合成(按需调用)
timeline_view生成胶片条 + 波形 + 词标签的 PNG,仅在决策点调用:模糊停顿处、重拍对比时、剪辑点合理性检查。从不在扫描循环中使用。
📊 **对比:**朴素方法 30,000 帧 × 1,500 tokens =4500 万 tokens 的噪声;video-use =12KB 文本 + 少量 PNG。精度从帧级提升到词边界级。
② 12 条硬性规则——制作正确性
这些不是风格偏好,而是技术正确性——违反会导致静默失败或损坏输出。这是 video-use 区别于"玩具级 AI 剪辑"的关键:
01字幕在滤镜链最后应用(否则叠加层遮挡字幕)
02分段提取后无损-c copy拼接(避免双重编码)
03每段边界 30ms 音频淡入淡出(消除剪辑点爆音)
04叠加层使用setpts=PTS-STARTPTS+T/TB(帧 0 对齐窗口起始)
05主 SRT 使用输出时间线偏移(否则拼接后字幕错位)
06绝不在词中间剪辑(必须对齐词边界)
07每处剪辑边缘填充 30-200ms(吸收时间戳漂移)
08仅词级逐字 ASR(SRT/短语模式会丢失亚秒级间隙数据)
09缓存每个源的转录(源文件不变则不重新转录)
10多个动画并行子代理(绝不顺序执行)
11执行前策略确认(未经用户确认不动剪刀)
12所有输出在<videos_dir>/edit/(绝不写入项目目录)
③ 自评估循环——AI 先自己检查再给你看
在向你展示预览之前,video-use 会对渲染输出运行自评估:在每个剪辑边界(±1.5 秒)调用timeline_view检查:
✅ 剪切处的视觉不连续或闪烁
✅ 波形尖峰(30ms 淡入淡出未阻止的音频爆音)
✅ 叠加层后的隐藏字幕(违反硬性规则 1)
✅ 叠加层显示错误帧(违反硬性规则 4)
发现问题就修复 → 重新渲染 → 重新评估,循环上限3 次。3 次后仍有问题则标记给你,不会无限循环。你看到的 preview.mp4,是 AI 已经自检通过的版本。
④ 动画系统 + ASC CDL 调色
动画系统支持三种工具按需选择:PIL + PNG 序列(简单叠加卡)、Manim(数学/技术可视化)、Remotion(React/CSS 驱动的排版布局)。每个动画是一个独立子代理,通过Agent工具并行生成——总耗时 ≈ 最慢的那个,而非所有动画时长之和。
调色系统基于 ASC CDL 模型(out = (in * slope + offset) ** power),提供三种预设:warm_cinematic(复古/技术感)、neutral_punch(最小校正)、none(直出)。也支持自定义任意 ffmpeg 滤镜链。调色在逐段提取期间应用,避免拼接后双重编码。
实战场景展示
🚀 产品发布视频
多段拍摄素材,AI 自动选出最佳 take,去除口误和死寂,添加字幕和代码动画,输出 launch video。browser-use 团队自己的发布视频就是用 video-use 剪的。
🎓 教程/知识分享
去除填充词和停顿,添加字幕和 Manim 动画解释代码原理,自动调色让画面更干净。适合技术博主批量产出教程内容。
🎤 访谈/播客
多机位/多 take 选择,说话人分离自动识别不同嘉宾,节奏优化保留笑声和包袱的反应时间,400-600ms 说话人交接留气。
📊 技术演示
Manim 动画 + 代码高亮 + 字幕烧录,用自然语言描述"在第 15 秒加一个状态机动画",AI 自动生成并合成到对应位置。
上手指南:三步开始对话式剪辑
**前提条件:**Python 3.10+、ffmpeg/ffprobe 在 PATH 中、ElevenLabs API 密钥(用于 Scribe 转录)
方法一:一键安装(推荐)
把下面这段话粘贴给 Claude Code / Codex / Hermes / Openclaw 等 Agent:
Set up https://github.com/browser-use/video-useforme. Read install.md first toinstallthis repo, wire up ffmpeg, register the skill with whichever agent you're running under, and set up the ElevenLabs API key --- ask me to paste it when you need it. Then read SKILL.md for daily usage, and always read helpers/ because that's where the editing scripts live. After install, don't transcribe anything on your own --- just tell me it's ready andwaitforme to drop footage into a folder.方法二:手动安装
# 1. 克隆并注册到 Agent 技能目录 git clone https://github.com/browser-use/video-use ~/Developer/video-use ln -sfn ~/Developer/video-use ~/.claude/skills/video-use # 2. 安装依赖 cd ~/Developer/video-use uv sync # 或 pip install -e . brew install ffmpeg # 必需 brew install yt-dlp # 可选,下载在线源 # 3. 配置 ElevenLabs API key cp .env.example .env # 编辑 .env: ELEVENLABS_API_KEY=your_key_here日常使用:一句话开始剪辑
cd/path/to/your/videos claude# 或 codex, hermes 等 # 在会话中输入: > edit these into a launch videoAgent 会自动:① 清点素材 → ② 提出剪辑策略 → ③ 等待你确认 → ④ 执行剪辑/调色/动画/字幕 → ⑤ 自我评估 → ⑥ 输出edit/final.mp4
📋 8 步标准流水线
① 清点— ffprobe 每个源,批量转录,生成 takes_packed.md
② 预扫描— 标记口误、明显错误
③ 对话— 描述所见,提问收集需求
④ 提出策略— 4-8 句话描述剪辑方案,等待确认
⑤ 执行— 生成 EDL,并行动画,分段调色,渲染
⑥ 预览— 生成 720p 快速预览
⑦ 自评估— 检查剪辑边界,最多 3 轮修复
⑧ 迭代+持久化— 根据反馈调整,追加到 project.md
客观评价:它适合谁?
✅ 优势
• 极低门槛——自然语言描述即可,无需学复杂软件
• 词边界级精度——远超传统手动操作
• 12 条硬性规则确保无爆音、无错位字幕、无双重编码
• 自评估机制——最多 3 轮迭代修复
• 高效上下文利用——12KB 文本替代 45M tokens
• 开源生态——支持 Claude Code/Codex/Hermes/Openclaw
⚠️ 注意
• 依赖 ElevenLabs Scribe API(需付费密钥)
• 安装示例仅展示 macOS,其他平台需自行适配
• 需要熟悉命令行、Python 环境、ffmpeg 基础
• 自评估最多 3 轮,复杂问题可能无法自动解决
• 以音频转录为主要切割依据,纯视觉叙事视频不太适用
今日总结
video-use 代表了 AI 视频编辑的一个新方向:不是让 AI 替代剪辑师,而是让 AI 成为剪辑师的智能助手。它不是 Premiere Pro 的替代品,而是和 Premiere Pro 互补的 AI 预处理层——让 AI 完成粗剪、调色、字幕的 dirty work,人类专注于创意决策。
四大核心创新:① 双层读取系统让 LLM 高效"阅读"视频;② 12 条硬性规则确保技术正确性;③ 对话驱动工作流——策略确认→执行→自评估→迭代;④ 专业级工艺——词级剪辑精度、30ms 音频淡入淡出、ASC CDL 调色。
🔗 项目链接
GitHub:github.com/browser-use/video-use
SKILL.md:github.com/browser-use/video-use/blob/main/SKILL.md
Demo:TikTok @browser_use
你觉得对话式视频编辑会取代传统剪辑软件吗?
欢迎在评论区分享你的看法 👇
每日开源 · 第 078 期
© 2026 每日开源栏目
