当前位置: 首页 > news >正文

一句话自动剪Vlog!连BGM都能丝滑卡点,CutClaw有点太会了

挑高光、对节拍、梳理剧情,这些繁琐的剪辑细活,CutClaw 现在一句话就能接过去。

颠覆体验!AI 不止会拼接素材,更能听指令、卡节奏

过去的视频自动剪辑方法,核心能力往往局限于文本对齐或画面高光提取。它们难以捕捉影视艺术中至关重要的视听同步——比如随着音乐副歌的爆发切入震撼画面,或者在舒缓的旋律中推进情感叙事。

而 CutClaw 的出现,填补了这一空白 。它能够处理长达数小时的未剪辑原始素材,将编辑视频转化为一个复杂的联合优化问题 ,并实现了三大核心能力:

✅ 精准卡点(Music Synchronization):无需人工打点,模型能够自动识别音乐的节拍(Downbeats)、音高变化(Pitch Changes)和能量转换(Spectral Energy Changes)。它让视频画面的切换与音乐节奏实现严密的完美同步。

✅ 听懂指令(Following Instruction):无论是要求聚焦某个特定角色,还是构建一个复杂的叙事情节,系统都能根据用户的自然语言描述精准响应。它能在海量素材中定位并组合出连贯的叙事线。

✅ 极致美学(Visually Appealing):内置严格的审美评估机制。模型会自动审计低质量、遮挡或运镜糟糕的画面。这确保了最终输出的短视频具备专业级、广播级的观感。

从处理专业电影片段到日常 Vlog 素材 ,CutClaw 让繁重枯燥的视频剪辑工作变得智能且充满艺术感。

硬核设计!多模态解构与智能体协作,破解超长视频难题

面对动辄几小时的视频,其密集的信息量往往直接撑爆当前多模态大模型(MLLMs)的上下文窗口限制。

为了解决这一核心痛点,CutClaw 引入了创新的分层架构与智能体分工协作流:

1. 自下而上的多模态解构(Bottom-Up Multimodal Footage Deconstruction):将漫长的视频和音频转化为结构化的场景片段和音乐段落。这大幅缩小了搜索空间,彻底解决了长视频带来的计算限制瓶颈。

2. 剧作家(Playwriter Agent):相当于专业编剧。它以音乐结构为不变的时间锚点来分配场景。它能将用户指令与底层画面深度对齐,规划出具有连贯叙事的全局分镜头计划。

3. 剪辑师(Editor Agent):负责具体的剪刀手工作。根据剧本指引,它在局部素材池中进行细粒度的逐帧检索和微调(FGST)。它的目标是寻找最符合角色特征与美学要求的高光画面。

4. 审核员(Reviewer Agent):如同苛刻的制片人,它充当最后的多标准审查门控。从主角存在率、视觉美感、到不重叠约束等多维度对候选片段进行严格抽样验证。不合格的片段会被打回,要求剪辑师重新挑选。

严苛评测!全面超越现有基线,实力霸榜

高质量的模型,离不开严谨的数据集与评测。研究团队构建了一个极具挑战性的超长视频剪辑评测基准,包含总时长约 24 小时的 10 部电影和 Vlog 原始素材。

在与业界主流方法(如 NarratoAI、UVCOM、Time-R1)的正面交锋中,CutClaw 展现出了碾压级的优势:

自动化指标断层领先:在视觉质量、指令遵循、视听和谐度三大核心指标上,CutClaw 均全面且稳定地超越了最强基线。它尤其在对象导向的指令识别和听觉节拍对齐上表现优异。

人类视觉偏好极高:在包含了 2000 份样本盲测的用户偏好研究中,CutClaw 赢得了 49.8% 的视觉质量投票和高达 53.0% 的视听和谐度投票。它的得票率甚至达到了第二名(Time-R1)的两倍以上。

拟人化的剪辑质感:近一半(48.8%)的受访用户认为,CutClaw 生成的作品在节奏与叙事逻辑上“非常像人类专业剪辑师”。

以下三个视频为 CutClaw 的 Demo 展示,分别呈现不同题材下的剪辑效果与视听同步能力:

Demo 1: 电影

Demo 2: VLOG

Demo 3: 动漫

开源共建!探索智能视听创作新可能

目前 CutClaw 已全面开源,但它的征途才刚刚开始。

虽然目前的系统在特效生成和处理速度上还有提升空间,但这套强大的“能听懂、会卡点、懂审美”的多智能体框架,已经为从影视后期降本增效到自媒体 Vlog 自动生成,打开了全新的想象空间。

相信在开源社区的共同努力下,我们将看到更多兼具效率与艺术感的 AI 视频编辑新范式。

✨ 代码已全面开源!欢迎广大开发者前往 GitHub 体验点燃视听的魔法~

论文链接:

https://arxiv.org/pdf/2603.29664

Github 链接:

https://github.com/GVCLab/CutClaw

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

http://www.jsqmd.com/news/659244/

相关文章:

  • 从MNIST代码里学到的:PyTorch模型调试与可视化实战技巧(附常见错误排查)
  • 神经符号AI融合:下一代开发范式
  • LSTM时序预测与Pixel Script Temple结合:生成动态像素动画序列
  • CodeBlocks-20.03 新手上路:从零配置到首个C++程序
  • 2026风机箱哪家好?新风换气机源头厂家怎么选?优质风机箱实力推荐:江苏亿恒空调 - 栗子测评
  • SpringBoot项目集成AspectJ:从依赖配置到实战问题排查
  • 从理论到实践:伺服三环控制的参数整定与Simulink仿真指南
  • NaViL-9B实战教程:使用NaViL-9B构建自动化图文审核与合规检查系统
  • B站视频转文字终极方案:Bili2text如何革命性提升你的学习与创作效率?
  • 告别重复造轮子:用若依的表单构建器,5分钟搞定复杂业务表单(附动态菜单配置)
  • 具身智能表征的ImageNet来了!机器人终于看懂了人类世界
  • Python实战:立体像对空间前方交会算法解析与实现
  • ccmusic-database行业落地:在线教育平台音乐鉴赏课自动流派标注系统
  • 2026专业空压机厂家推荐:蚌埠正德,深耕行业多年,满足各类工况使用需求 - 栗子测评
  • 机械臂抓取实战:如何用YOLOv5和GraspNet实现动态目标精准抓取(附完整代码)
  • 别再只盯着成本中心了!用SAP EC-PCA做利润中心分析,从配置到报表的全流程解读
  • 2026文化石市场亮点:技术精湛的厂家推荐,文化石/天然石/砌墙石/贴墙石/石材/冰裂纹/碎拼石,文化石厂商哪家好 - 品牌推荐师
  • 单片机实战解析:从时序到代码,手把手实现DS18B20温度采集
  • Gymnasium强化学习实战:手把手教你配置Atari游戏环境(含ROM许可问题处理)
  • 微信支付JSAPI报错排查指南:从‘total_fee’到云函数unifiedOrder的完整配置流程
  • 保姆级教程:用Termux+Alpine Linux在安卓上搭建个人Trilium笔记服务器(含端口映射详解)
  • IEC104 规约深度解析(一) 帧格式与数据单元
  • SITS2026私有化部署最后窗口期:仅剩62天,官方将于5月31日关闭v1.x License续订通道
  • 5分钟搞懂LTE/NR的PDCCH:手机是怎么知道基站让它干啥的?
  • 用Python模拟一个真实的IEC104子站:从零封装Server类到主站联调
  • Realistic Vision V5.1实战:小白也能轻松生成单反级人像作品
  • 2026品质直供不中转,专业组合式空调机组源头厂家推荐:江苏亿恒空调 - 栗子测评
  • 别再只会用@SuppressWarnings了!Java中Object转List的5种安全姿势(附完整工具类)
  • 从贝叶斯到LDA:一个‘生成故事’帮你理解话题模型到底在模拟什么
  • 泛微OA E9版WebService接口实战:构建自动化邮件推送系统