当前位置: 首页 > news >正文

我把一坨原始素材扔进文件夹,对AI说了句话,它直接还我一条成片

我把一坨原始素材扔进文件夹,对AI说了句话,它直接还我一条成片

你打开电脑,素材文件夹里躺着一堆视频——口播录了八遍,每遍都有“嗯”“啊”和莫名其妙的沉默;B-roll东一段西一段,时间线在脑子里但手在Pr里找不到北。
你深吸一口气,打开Premiere Pro。

然后你关掉了Premiere Pro。

不是因为你懒。是因为你只是想剪个视频,不是想考一个剪辑师证。

事情是这样的
前两天刷GitHub,看到一个叫 video-use 的项目登上了日榜TOP5。不到三个月,12.7k Star。

我本来以为又是那种“AI一键生成大片”的营销货——你输入“赛博朋克爱情故事”,它给你吐出一段四个手指头的人物在雨中尬舞。

结果点进去一看,完全不是一回事。

browser-use团队做的——就是那个靠AI浏览器自动化出圈的明星团队。这帮人的思路一直很野:不给AI看截图,给AI看结构化数据。这次他们把同样的思路用在了视频上。

图片

核心玩法,简单到离谱
把原始素材扔进一个文件夹。

打开Claude Code(或者Codex、Hermes、OpenClaw,随便哪个带shell访问的编码代理)。

说一句话:“帮我把这些剪成一条发布视频。”

然后等着拿
final.mp4

没了。就这么简单。

没有时间轴,没有轨道,没有关键帧,没有快捷键要记。整个过程就像跟一个会剪片的程序员同事说“帮我弄一下”,而不是坐在剪辑台前跟软件搏斗。

它到底干了啥?
你丢进去的可能是这种东西:

一段口播,里面有三个“嗯”、两个“啊”、一个说到一半重新开始

几段空镜,颜色风格完全不统一

一个想法:想要字幕、想要调色、想要在某个地方加个动画

video-use的流水线会这样处理:

剪掉废话。 “嗯”“啊”、口误、重复句、两段话之间的尴尬沉默——全部自动识别并剪掉。它靠的是ElevenLabs的语音转录,带逐词时间戳的那种,精确到每个字在几分几秒。

自动调色。 你想要“温暖电影感”还是“中性增强”?说一句话的事。每个片段独立调色,最后拼在一起视觉统一。

30ms音频淡入淡出。 每个剪辑点自动加,你永远听不到那种突兀的“啪”一声爆音。

烧字幕。 默认两词一组大写风格,适合短视频。字体、颜色、位置全都能改。

加动画。 想要画面右上角弹出一个数据增长动画?AI会调用Manim、Remotion或HyperFrames去生成。每个动画由独立的并行子代理处理,不拖慢主流程。

自己检查自己。 渲染完之后,AI会在每个剪辑点自动检查——画面有没有跳、音频有没有爆、字幕有没有被挡住。有问题就自己修,最多修三轮。只有通过自检的片子才会给你看。

记住上次干了啥。 所有进度写在
project.md
里。今天剪了一半,明天打开接着剪,上下文不丢。

最骚的是:AI根本不“看”视频
你可能想问:AI怎么知道哪里该剪?它“看”得懂画面吗?

答案是:它不看。

这是video-use最反直觉的设计。

如果让AI一帧一帧看视频——30秒、30fps的视频就是900帧,每帧1500个token——4500万个token的噪音。又贵又慢,纯属自虐。

video-use的做法是两层:

第一层:音频转录(始终加载)。 每次处理素材,先调用ElevenLabs Scribe做一次语音转文字——逐词时间戳、说话人分离、还能标出“(笑声)”“(掌声)”这种音频事件。所有素材压缩成一个12KB的文本文件。这就是AI的主要阅读材料。

第二层:视觉合成(按需调用)。 只有当AI需要确认某个停顿该不该剪、或者对比两段素材的节奏时,才生成一张“胶片条+波形图+文字标签”的合成图片看一眼。

12KB文本 + 几张图,替代4500万个token。

这思路跟browser-use如出一辙——不给AI看网页截图,给AI看结构化的DOM数据。把非结构化的视觉信息,先变成结构化的文本,再交给AI推理。

谁需要这个?
口播创作者:录完直接扔进去,“帮我剪掉所有废话”——省下最磨人的粗剪时间。

教程制作者:录了好几段讲解,需要拼成一个完整的教学视频。

播客/访谈剪辑:多段对话素材,自动拼接、去空白、加字幕。

任何人:想剪视频但不想学Premiere的人。

图片

怎么上手?
如果你在用Claude Code,直接把下面这段话贴进去,AI会自己搞定克隆、安装依赖、注册技能:

Set up https://github.com/browser-use/video-use for me. Read install.md first to install this repo, wire up ffmpeg, register the skill with whichever agent you’re running under, and set up the ElevenLabs API key — ask me to paste it when you need it.

AI会先盘点素材、提出剪辑方案、等你确认、然后执行。

说真的
视频剪辑这件事,本质上是创意表达,不是软件操作。

但过去几十年,我们把太多时间花在了后者上——学快捷键、找菜单、调参数、对时间轴。创意在脑子里,手在软件里迷路。

video-use做的事情很简单:让AI替你操作软件,你只管说“我想要什么”。

它不是要取代剪辑师。它是让每一个有想法的人,都能把想法变成视频,而不必先成为一个软件专家。

去试试。把你那堆躺了三个月的素材翻出来,扔进文件夹,对AI说句话。

看看它能还你什么。

http://www.jsqmd.com/news/1108054/

相关文章:

  • 为什么口腔组织微环境研究需要空间单细胞蛋白组?
  • KMS_VL_ALL_AIO:Windows与Office激活的一站式解决方案
  • 盘锦车衣车膜手工裁剪,边角更要细看
  • AI编程助手部署避坑指南:从环境配置到稳定运行
  • 终极.NET逆向工具:dnSpy完整指南与7个实战技巧
  • Selenium三大等待机制详解:从time.sleep到WebDriverWait的自动化同步策略
  • HsMod:炉石传说55项进阶功能增强插件完整指南
  • NifSkope深度解析:Bethesda游戏引擎3D模型编辑核心技术实战
  • 【企业级渗透测试环境构建标准】:为什么92%的初学者VMware装Kali会触发SElinux告警?权威配置白皮书首发
  • 从裸机到渗透靶场只需18分钟:VMware Workstation Pro 17 + Kali 2024.1全链路实操,含OVA镜像直装秘钥
  • 3分钟搞定!B站视频下载神器:免费保存大会员4K和充电专属视频
  • IvorySQL 社区邀你参战|2026 直通乌镇开源竞技挑战赛:高质量贡献,让技术实力被看见
  • 创新自动化驱动解决方案:Apple-Mobile-Drivers-Installer技术深度解析
  • 如何快速掌握B站视频下载器:免费获取大会员4K高清视频的完整指南
  • 【VMware Tools vs open-vm-tools终极决策指南】:20年虚拟化专家亲授5大核心差异与迁移避坑清单
  • 加密狗授权能力选型:从授权模型到全生命周期管理
  • 检测 win10 硬件部分的 小脚本
  • 终极解决方案:Reset Windows Update Tool完全修复Windows更新故障指南
  • 《Claude Code 工程化实战》第 7 讲 可写型子代理实战
  • 勒索病毒解密工具实战指南:从识别到恢复的完整流程
  • 【Springboot毕设全套源码+文档】基于Java+springboot个人健康管理系统的设计与实现(丰富项目+远程调试+讲解+定制)
  • TLS双向认证实战:从“裸奔通信“到硬件级加密通道
  • VMware中安装CentOS Stream总失败?这7个隐藏报错代码(如0x0000007B、dracut-initqueue timeout)你一定见过!
  • VMware Workstation Pro 17 + Docker Desktop 4.3实战部署(企业级隔离环境配置全披露)
  • Windows苹果USB网络共享驱动一键安装:3分钟解决iPhone热点连接难题
  • Oracle实战四大神器:CASE WHEN、EXISTS、WITH、MERGE 精简合集(HIS生产可用)
  • AI编程助手使用指南:避免技术依赖陷阱
  • VMware Tools安装失败?93%的运维工程师都忽略的3个隐藏配置陷阱(附诊断脚本下载)
  • PLM,ERP,MES,揭秘制造业“三位一体”的终极变革!
  • Luma API第三方服务实战:成本优化与视频生成技巧