当前位置：首页 > news >正文

video-use：用对话剪辑视频，AI 当你的剪辑副驾驶｜ Github Daily

news 2026/6/30 7:30:10

**⚠️ 免责声明：**本工具依赖境外公开数据源，部分平台在中国大陆需合规网络环境。

把素材丢进文件夹，告诉 Claude Code “剪成一个发布视频”，然后等着拿final.mp4。

这就是video-use在做的事——browser-use 团队（没错，就是那个 93K Stars 的 AI 浏览器自动化明星团队）开源的对话式视频编辑工具。今日 GitHub Trending [#13](javascript:😉，11K+ Stars。

📦 项目速览

名称：video-use

团队：browser-use（AI 浏览器自动化 93K Stars）

定位：对话式 AI 视频编辑工具

协议：MIT（100% 开源）

Stars：11,048（今日 +196 🔥）

语言：Python

地址：github.com/browser-use/video-use

11K+GitHub Stars12条硬性规则12KB替代 45M tokens

痛点：视频剪辑的"三座大山"

传统视频编辑有三座大山：软件门槛高（Premiere/DaVinci/FCP 动辄数月学习）、重复劳动多（去口误、剪静默、加字幕、调色，每一步都是体力活）、创意被技术拖累（你想专注内容，却被迫和 timeline 、关键帧搏斗）。

video-use 翻转了这个模型：LLM 成为你的剪辑师，你成为创意总监。你不需要学复杂软件，不需要拖拽时间线，不需要记快捷键——你只需要用自然语言描述你想要什么。

💡 **核心洞察：**video-use 的设计哲学和 browser-use 一脉相承——给 Agent 结构化数据而非原始像素。browser-use 给 LLM 结构化 DOM 而非截图，video-use 给 LLM 12KB 转录文本而非 4500 万 tokens 的帧数据。

核心亮点：让 LLM 高效"阅读"视频

① 双层读取系统

video-use 的精髓在于让 LLM高效"阅读"视频，而非盲目处理每一帧。它通过两个层次实现：

Layer 1 — 音频转录（始终加载）

使用 ElevenLabs Scribe 进行单次调用，获取词级时间戳、说话人分离和音频事件标记（如(laughter)、(applause)）。所有素材打包成单个约12KB 的takes_packed.md——这就是 LLM 的主要阅读视图。

## C0103 (duration: 43.0s, 8 phrases) [002.52-005.36] S0 Ninety percent of what a web agent does is completely wasted. [006.08-006.74] S0 We fixed this.

Layer 2 — 视觉合成（按需调用）

timeline_view生成胶片条 + 波形 + 词标签的 PNG，仅在决策点调用：模糊停顿处、重拍对比时、剪辑点合理性检查。从不在扫描循环中使用。

📊 **对比：**朴素方法 30,000 帧 × 1,500 tokens =4500 万 tokens 的噪声；video-use =12KB 文本 + 少量 PNG。精度从帧级提升到词边界级。

② 12 条硬性规则——制作正确性

这些不是风格偏好，而是技术正确性——违反会导致静默失败或损坏输出。这是 video-use 区别于"玩具级 AI 剪辑"的关键：

01字幕在滤镜链最后应用（否则叠加层遮挡字幕）

02分段提取后无损-c copy拼接（避免双重编码）

03每段边界 30ms 音频淡入淡出（消除剪辑点爆音）

04叠加层使用setpts=PTS-STARTPTS+T/TB（帧 0 对齐窗口起始）

05主 SRT 使用输出时间线偏移（否则拼接后字幕错位）

06绝不在词中间剪辑（必须对齐词边界）

07每处剪辑边缘填充 30-200ms（吸收时间戳漂移）

08仅词级逐字 ASR（SRT/短语模式会丢失亚秒级间隙数据）

09缓存每个源的转录（源文件不变则不重新转录）

10多个动画并行子代理（绝不顺序执行）

11执行前策略确认（未经用户确认不动剪刀）

12所有输出在<videos_dir>/edit/（绝不写入项目目录）

③ 自评估循环——AI 先自己检查再给你看

在向你展示预览之前，video-use 会对渲染输出运行自评估：在每个剪辑边界（±1.5 秒）调用timeline_view检查：

✅ 剪切处的视觉不连续或闪烁

✅ 波形尖峰（30ms 淡入淡出未阻止的音频爆音）

✅ 叠加层后的隐藏字幕（违反硬性规则 1）

✅ 叠加层显示错误帧（违反硬性规则 4）

发现问题就修复 → 重新渲染 → 重新评估，循环上限3 次。3 次后仍有问题则标记给你，不会无限循环。你看到的 preview.mp4，是 AI 已经自检通过的版本。

④ 动画系统 + ASC CDL 调色

动画系统支持三种工具按需选择：PIL + PNG 序列（简单叠加卡）、Manim（数学/技术可视化）、Remotion（React/CSS 驱动的排版布局）。每个动画是一个独立子代理，通过Agent工具并行生成——总耗时 ≈ 最慢的那个，而非所有动画时长之和。

调色系统基于 ASC CDL 模型（out = (in * slope + offset) ** power），提供三种预设：warm_cinematic（复古/技术感）、neutral_punch（最小校正）、none（直出）。也支持自定义任意 ffmpeg 滤镜链。调色在逐段提取期间应用，避免拼接后双重编码。

实战场景展示

🚀 产品发布视频

多段拍摄素材，AI 自动选出最佳 take，去除口误和死寂，添加字幕和代码动画，输出 launch video。browser-use 团队自己的发布视频就是用 video-use 剪的。

🎓 教程/知识分享

去除填充词和停顿，添加字幕和 Manim 动画解释代码原理，自动调色让画面更干净。适合技术博主批量产出教程内容。

🎤 访谈/播客

多机位/多 take 选择，说话人分离自动识别不同嘉宾，节奏优化保留笑声和包袱的反应时间，400-600ms 说话人交接留气。

📊 技术演示

Manim 动画 + 代码高亮 + 字幕烧录，用自然语言描述"在第 15 秒加一个状态机动画"，AI 自动生成并合成到对应位置。

上手指南：三步开始对话式剪辑

**前提条件：**Python 3.10+、ffmpeg/ffprobe 在 PATH 中、ElevenLabs API 密钥（用于 Scribe 转录）

方法一：一键安装（推荐）

把下面这段话粘贴给 Claude Code / Codex / Hermes / Openclaw 等 Agent：

Set up https://github.com/browser-use/video-useforme. Read install.md first toinstallthis repo, wire up ffmpeg, register the skill with whichever agent you're running under, and set up the ElevenLabs API key --- ask me to paste it when you need it. Then read SKILL.md for daily usage, and always read helpers/ because that's where the editing scripts live. After install, don't transcribe anything on your own --- just tell me it's ready andwaitforme to drop footage into a folder.

方法二：手动安装

# 1. 克隆并注册到 Agent 技能目录 git clone https://github.com/browser-use/video-use ~/Developer/video-use ln -sfn ~/Developer/video-use ~/.claude/skills/video-use # 2. 安装依赖 cd ~/Developer/video-use uv sync # 或 pip install -e . brew install ffmpeg # 必需 brew install yt-dlp # 可选，下载在线源 # 3. 配置 ElevenLabs API key cp .env.example .env # 编辑 .env: ELEVENLABS_API_KEY=your_key_here

日常使用：一句话开始剪辑

cd/path/to/your/videos claude# 或 codex, hermes 等 # 在会话中输入： > edit these into a launch video

Agent 会自动：① 清点素材 → ② 提出剪辑策略 → ③ 等待你确认 → ④ 执行剪辑/调色/动画/字幕 → ⑤ 自我评估 → ⑥ 输出edit/final.mp4

📋 8 步标准流水线

① 清点— ffprobe 每个源，批量转录，生成 takes_packed.md

② 预扫描— 标记口误、明显错误

③ 对话— 描述所见，提问收集需求

④ 提出策略— 4-8 句话描述剪辑方案，等待确认

⑤ 执行— 生成 EDL，并行动画，分段调色，渲染

⑥ 预览— 生成 720p 快速预览

⑦ 自评估— 检查剪辑边界，最多 3 轮修复

⑧ 迭代+持久化— 根据反馈调整，追加到 project.md

客观评价：它适合谁？

✅ 优势

• 极低门槛——自然语言描述即可，无需学复杂软件

• 词边界级精度——远超传统手动操作

• 12 条硬性规则确保无爆音、无错位字幕、无双重编码

• 自评估机制——最多 3 轮迭代修复

• 高效上下文利用——12KB 文本替代 45M tokens

• 开源生态——支持 Claude Code/Codex/Hermes/Openclaw

⚠️ 注意

• 依赖 ElevenLabs Scribe API（需付费密钥）

• 安装示例仅展示 macOS，其他平台需自行适配

• 需要熟悉命令行、Python 环境、ffmpeg 基础

• 自评估最多 3 轮，复杂问题可能无法自动解决

• 以音频转录为主要切割依据，纯视觉叙事视频不太适用

今日总结

video-use 代表了 AI 视频编辑的一个新方向：不是让 AI 替代剪辑师，而是让 AI 成为剪辑师的智能助手。它不是 Premiere Pro 的替代品，而是和 Premiere Pro 互补的 AI 预处理层——让 AI 完成粗剪、调色、字幕的 dirty work，人类专注于创意决策。

四大核心创新：① 双层读取系统让 LLM 高效"阅读"视频；② 12 条硬性规则确保技术正确性；③ 对话驱动工作流——策略确认→执行→自评估→迭代；④ 专业级工艺——词级剪辑精度、30ms 音频淡入淡出、ASC CDL 调色。

🔗 项目链接

GitHub：github.com/browser-use/video-use

SKILL.md：github.com/browser-use/video-use/blob/main/SKILL.md

Demo：TikTok @browser_use

你觉得对话式视频编辑会取代传统剪辑软件吗？

欢迎在评论区分享你的看法 👇

查看全文

http://www.jsqmd.com/news/1094566/