当前位置: 首页 > news >正文

video-use:用对话剪辑视频,AI 当你的剪辑副驾驶 | Github Daily

**⚠️ 免责声明:**本工具依赖境外公开数据源,部分平台在中国大陆需合规网络环境。

把素材丢进文件夹,告诉 Claude Code “剪成一个发布视频”,然后等着拿final.mp4

这就是video-use在做的事——browser-use 团队(没错,就是那个 93K Stars 的 AI 浏览器自动化明星团队)开源的对话式视频编辑工具。今日 GitHub Trending [#13](javascript:😉,11K+ Stars。

📦 项目速览

名称:video-use

团队:browser-use(AI 浏览器自动化 93K Stars)

定位:对话式 AI 视频编辑工具

协议:MIT(100% 开源)

Stars:11,048(今日 +196 🔥)

语言:Python

地址:github.com/browser-use/video-use

11K+GitHub Stars12条硬性规则12KB替代 45M tokens

痛点:视频剪辑的"三座大山"

传统视频编辑有三座大山:软件门槛高(Premiere/DaVinci/FCP 动辄数月学习)、重复劳动多(去口误、剪静默、加字幕、调色,每一步都是体力活)、创意被技术拖累(你想专注内容,却被迫和 timeline 、关键帧搏斗)。

video-use 翻转了这个模型:LLM 成为你的剪辑师,你成为创意总监。你不需要学复杂软件,不需要拖拽时间线,不需要记快捷键——你只需要用自然语言描述你想要什么。

💡 **核心洞察:**video-use 的设计哲学和 browser-use 一脉相承——给 Agent 结构化数据而非原始像素。browser-use 给 LLM 结构化 DOM 而非截图,video-use 给 LLM 12KB 转录文本而非 4500 万 tokens 的帧数据。

核心亮点:让 LLM 高效"阅读"视频

① 双层读取系统

video-use 的精髓在于让 LLM高效"阅读"视频,而非盲目处理每一帧。它通过两个层次实现:

Layer 1 — 音频转录(始终加载)

使用 ElevenLabs Scribe 进行单次调用,获取词级时间戳说话人分离音频事件标记(如(laughter)(applause))。所有素材打包成单个约12KB 的takes_packed.md——这就是 LLM 的主要阅读视图。

## C0103 (duration: 43.0s, 8 phrases) [002.52-005.36] S0 Ninety percent of what a web agent does is completely wasted. [006.08-006.74] S0 We fixed this.

Layer 2 — 视觉合成(按需调用)

timeline_view生成胶片条 + 波形 + 词标签的 PNG,仅在决策点调用:模糊停顿处、重拍对比时、剪辑点合理性检查。从不在扫描循环中使用。

📊 **对比:**朴素方法 30,000 帧 × 1,500 tokens =4500 万 tokens 的噪声;video-use =12KB 文本 + 少量 PNG。精度从帧级提升到词边界级。

② 12 条硬性规则——制作正确性

这些不是风格偏好,而是技术正确性——违反会导致静默失败或损坏输出。这是 video-use 区别于"玩具级 AI 剪辑"的关键:

01字幕在滤镜链最后应用(否则叠加层遮挡字幕)

02分段提取后无损-c copy拼接(避免双重编码)

03每段边界 30ms 音频淡入淡出(消除剪辑点爆音)

04叠加层使用setpts=PTS-STARTPTS+T/TB(帧 0 对齐窗口起始)

05主 SRT 使用输出时间线偏移(否则拼接后字幕错位)

06绝不在词中间剪辑(必须对齐词边界)

07每处剪辑边缘填充 30-200ms(吸收时间戳漂移)

08仅词级逐字 ASR(SRT/短语模式会丢失亚秒级间隙数据)

09缓存每个源的转录(源文件不变则不重新转录)

10多个动画并行子代理(绝不顺序执行)

11执行前策略确认(未经用户确认不动剪刀)

12所有输出在<videos_dir>/edit/(绝不写入项目目录)

③ 自评估循环——AI 先自己检查再给你看

在向你展示预览之前,video-use 会对渲染输出运行自评估:在每个剪辑边界(±1.5 秒)调用timeline_view检查:

✅ 剪切处的视觉不连续或闪烁

✅ 波形尖峰(30ms 淡入淡出未阻止的音频爆音)

✅ 叠加层后的隐藏字幕(违反硬性规则 1)

✅ 叠加层显示错误帧(违反硬性规则 4)

发现问题就修复 → 重新渲染 → 重新评估,循环上限3 次。3 次后仍有问题则标记给你,不会无限循环。你看到的 preview.mp4,是 AI 已经自检通过的版本。

④ 动画系统 + ASC CDL 调色

动画系统支持三种工具按需选择:PIL + PNG 序列(简单叠加卡)、Manim(数学/技术可视化)、Remotion(React/CSS 驱动的排版布局)。每个动画是一个独立子代理,通过Agent工具并行生成——总耗时 ≈ 最慢的那个,而非所有动画时长之和。

调色系统基于 ASC CDL 模型(out = (in * slope + offset) ** power),提供三种预设:warm_cinematic(复古/技术感)、neutral_punch(最小校正)、none(直出)。也支持自定义任意 ffmpeg 滤镜链。调色在逐段提取期间应用,避免拼接后双重编码。

实战场景展示

🚀 产品发布视频

多段拍摄素材,AI 自动选出最佳 take,去除口误和死寂,添加字幕和代码动画,输出 launch video。browser-use 团队自己的发布视频就是用 video-use 剪的。

🎓 教程/知识分享

去除填充词和停顿,添加字幕和 Manim 动画解释代码原理,自动调色让画面更干净。适合技术博主批量产出教程内容。

🎤 访谈/播客

多机位/多 take 选择,说话人分离自动识别不同嘉宾,节奏优化保留笑声和包袱的反应时间,400-600ms 说话人交接留气。

📊 技术演示

Manim 动画 + 代码高亮 + 字幕烧录,用自然语言描述"在第 15 秒加一个状态机动画",AI 自动生成并合成到对应位置。

上手指南:三步开始对话式剪辑

**前提条件:**Python 3.10+、ffmpeg/ffprobe 在 PATH 中、ElevenLabs API 密钥(用于 Scribe 转录)

方法一:一键安装(推荐)

把下面这段话粘贴给 Claude Code / Codex / Hermes / Openclaw 等 Agent:

Set up https://github.com/browser-use/video-useforme. Read install.md first toinstallthis repo, wire up ffmpeg, register the skill with whichever agent you're running under, and set up the ElevenLabs API key --- ask me to paste it when you need it. Then read SKILL.md for daily usage, and always read helpers/ because that's where the editing scripts live. After install, don't transcribe anything on your own --- just tell me it's ready andwaitforme to drop footage into a folder.

方法二:手动安装

# 1. 克隆并注册到 Agent 技能目录 git clone https://github.com/browser-use/video-use ~/Developer/video-use ln -sfn ~/Developer/video-use ~/.claude/skills/video-use # 2. 安装依赖 cd ~/Developer/video-use uv sync # 或 pip install -e . brew install ffmpeg # 必需 brew install yt-dlp # 可选,下载在线源 # 3. 配置 ElevenLabs API key cp .env.example .env # 编辑 .env: ELEVENLABS_API_KEY=your_key_here

日常使用:一句话开始剪辑

cd/path/to/your/videos claude# 或 codex, hermes 等 # 在会话中输入: > edit these into a launch video

Agent 会自动:① 清点素材 → ② 提出剪辑策略 → ③ 等待你确认 → ④ 执行剪辑/调色/动画/字幕 → ⑤ 自我评估 → ⑥ 输出edit/final.mp4

📋 8 步标准流水线

① 清点— ffprobe 每个源,批量转录,生成 takes_packed.md

② 预扫描— 标记口误、明显错误

③ 对话— 描述所见,提问收集需求

④ 提出策略— 4-8 句话描述剪辑方案,等待确认

⑤ 执行— 生成 EDL,并行动画,分段调色,渲染

⑥ 预览— 生成 720p 快速预览

⑦ 自评估— 检查剪辑边界,最多 3 轮修复

⑧ 迭代+持久化— 根据反馈调整,追加到 project.md

客观评价:它适合谁?

✅ 优势

• 极低门槛——自然语言描述即可,无需学复杂软件

• 词边界级精度——远超传统手动操作

• 12 条硬性规则确保无爆音、无错位字幕、无双重编码

• 自评估机制——最多 3 轮迭代修复

• 高效上下文利用——12KB 文本替代 45M tokens

• 开源生态——支持 Claude Code/Codex/Hermes/Openclaw

⚠️ 注意

• 依赖 ElevenLabs Scribe API(需付费密钥)

• 安装示例仅展示 macOS,其他平台需自行适配

• 需要熟悉命令行、Python 环境、ffmpeg 基础

• 自评估最多 3 轮,复杂问题可能无法自动解决

• 以音频转录为主要切割依据,纯视觉叙事视频不太适用

今日总结

video-use 代表了 AI 视频编辑的一个新方向:不是让 AI 替代剪辑师,而是让 AI 成为剪辑师的智能助手。它不是 Premiere Pro 的替代品,而是和 Premiere Pro 互补的 AI 预处理层——让 AI 完成粗剪、调色、字幕的 dirty work,人类专注于创意决策。

四大核心创新:① 双层读取系统让 LLM 高效"阅读"视频;② 12 条硬性规则确保技术正确性;③ 对话驱动工作流——策略确认→执行→自评估→迭代;④ 专业级工艺——词级剪辑精度、30ms 音频淡入淡出、ASC CDL 调色。

🔗 项目链接

GitHub:github.com/browser-use/video-use

SKILL.md:github.com/browser-use/video-use/blob/main/SKILL.md

Demo:TikTok @browser_use

你觉得对话式视频编辑会取代传统剪辑软件吗?

欢迎在评论区分享你的看法 👇

每日开源 · 第 078 期
© 2026 每日开源栏目

http://www.jsqmd.com/news/1094566/

相关文章:

  • Win11Debloat:你的Windows系统优化大师,3分钟告别卡顿与隐私困扰
  • 深入解析MSPM0L架构:总线、内存与启动机制的设计哲学与实战
  • 【5G RRC】解码SIB1:5G终端入网的第一把钥匙
  • 群里总有人发小广告?教你用 API 实现外部群自动踢人
  • 【向量空间Vector Space】
  • 英雄联盟皮肤资源库:一站式个性化游戏体验解决方案
  • Python深度学习:Conda环境管理全攻略
  • CDS API完整指南:3步获取全球气象数据的终极教程
  • Anthropic Mythos:大模型深度推理与多文档验证的门控式能力跃迁
  • 如何在macOS上使用OBS虚拟摄像头:终极完整指南
  • 手把手教你怎么安装UG NX(UG NX 12.0)UG NX下载安装教程
  • 结构协同新篇章:Cadence Allegro中DXF、EMP、EMN文件的精准生成与实战解析
  • 3分钟扫码获取阿里云盘Refresh Token终极指南:告别繁琐登录实现自动化管理
  • ESP32-S3-MINI-1U-N8:外接天线加持,信号无忧的工业级Wi-Fi+蓝牙模组
  • LitCAD完整指南:从零开始掌握开源二维CAD绘图软件
  • 2026年苏州 1688 官方服务商盘点 多维度对比帮你选靠谱合作方
  • 【ChatGPT API接入黄金法则】:20年架构师亲授避坑清单、速率限制绕行方案与企业级鉴权实战
  • 【ChatGPT API Java调用终极指南】:20年架构师亲授生产级集成方案与避坑清单
  • 从TPA6140A2评估板实战,解析Class-G耳机放大器设计与调试
  • 钢铁厂集控PLC数据采集物联网方案
  • 抖音批量下载终极指南:5分钟学会自动化获取用户主页视频
  • 大型网站谷歌收录与Crawl Budget预算:找回90%被遗漏的优质页面
  • Search Agent 仅对 AI Ultra/Pro 开放,针对付费采购人群专属页面优化方案
  • 东莞南城蒲公英GEO优化凭借真实落地的服务
  • 最靠谱的指纹浏览器是哪个?2026 年最靠谱的指纹浏览器横向评测与选型指南
  • GEO实战:2026年AI引擎日均30亿次查询,11平台分发改写完整代码示例
  • 3分钟掌握OBS Mac虚拟摄像头:从入门到专业直播
  • Python QQ机器人完整指南:5分钟搭建自动化消息处理系统
  • Windows 10系统深度清理:OneDrive完全卸载工具技术解析与性能优化方案
  • Java调用ChatGPT API的7大核心陷阱:92%开发者踩过的线程/鉴权/限流雷区全曝光