当前位置: 首页 > news >正文

【AAAI2026】阿里云人工智能平台PAI视频编辑算法论文入选

近期,阿里云人工智能平台 PAI 的视频编辑算法论文在 AAAI2026 上正式亮相发表(Zero-to-Hero: Empowering Video Appearance Transfer with Zero-Shot Initialization and Holistic Restoration)。AAAI 是人工智能领域最具影响力的国际顶级会议之一,旨在为研究人员、工程师与产业界专家提供交流平台,展示在机器学习、计算机视觉与生成式 AI 等方向的最新研究成果与应用进展。此次入选标志着阿里云人工智能平台 PAI 在视频编辑算法方面的研究获得了学术界的充分认可。

视频编辑的目标是根据用户需求对目标视频进行修改,其中“外观编辑”是一类关键任务:在尽可能保留视频结构与运动模式的前提下,改变目标主体的颜色、纹理或整体风格。过往主流方法多采用文本提示(prompt)引导编辑,但文本表达往往存在歧义,且难以精确描述细粒度外观(例如复杂配色、局部纹理布局等),从而限制了用户对编辑结果的精细控制。因此,更符合真实创作流程的方案是“参考图驱动的视频编辑”:用户先对某一帧进行精修,得到理想外观的参考图(可通过 Photoshop、ComfyUI 或任意图像编辑工具完成),再将该外观一致地传播到后续帧中(如图1所示)。这类任务天然地将问题拆解为两步:先获得高质量参考帧,再实现跨帧外观一致传播。

图1. 我们提出的视频编辑算法与主流方法的对比

尽管参考图驱动的视频外观传播已有不少探索,但现有方法仍面临明显局限。一类方法依赖光流估计来对齐并传播外观特征,其效果容易受到光流精度影响,在大幅运动、遮挡或复杂镜头变化下会明显退化;另一类方法基于图生视频(I2V)模型进行反演与去噪传播,但往往受显存限制约束视频长度,且轻量时序建模对大运动范围适应不足。此外,近年来一些零样本(zero-shot)外观迁移方法通过干预扩散模型的注意力机制实现跨帧传播,虽然能提升鲁棒性,但往往会引入复合画质退化,例如模糊、颜色缺失或过饱和等问题,并且这种退化会随着多帧传播而累积。

针对上述问题,PAI 团队提出了全新的两阶段方法 Zero-to-Hero,用于提升视频外观迁移的准确性、时序一致性与最终画质。Zero-to-Hero 将“外观传播”解耦为两个阶段:首先生成一个可靠的零样本传播初始化(Zero-Stage),再通过整体性视频修复模型提升画质(Hero-Stage)。图2展示了我们算法的整体框架。在 Zero-Stage 中,我们利用原始视频帧之间的对应关系来引导扩散模型的注意力传播,相比以往依赖光流或额外时序模块的方案,在处理大运动目标时更稳健,从而提供准确且时序一致的初始化结果。然而,对注意力机制的干预会带来难以避免的模糊与颜色缺失等退化。为突破这一零样本上限,我们进一步提出 Hero-Stage:训练一个面向退化模式的条件生成模型,对视频进行画质修复。

图 2:视频编辑过程示意图

如图3所示,Zero-to-Hero 在 Colorization 与 Blender-Color-Edit 两项可逐帧评测的任务上均取得最优结果(PSNR 分别达 28.21/26.76 dB,且 LPIPS 最低、SSIM 最高),同时在 General-Edit 上也在锚点帧指标与时序一致性(MS/SC)上整体领先,体现了更稳定的外观传播与更高的画质保真。

图 3:实验效果概览

如图4所示,在 General-Edit 数据集的定性对比中,Zero-to-Hero 能更准确地贴合参考帧外观,同时最大程度保持原视频的结构与运动一致性;相比基线方法,结果中外观漂移与细节模糊现象更少,整体观感更稳定。

图 4:Zero-to-Hero与其他方法编辑结果示例

论文信息

论文名字:Zero-to-Hero: Empowering Video Appearance Transfer with Zero-Shot Initialization and Holistic Restoration

论文作者:苏彤彤、汪诚愚、廖海鹏、黄俊、鲁东明

论文 pdf 链接:https://arxiv.org/abs/2505.23134

http://www.jsqmd.com/news/362279/

相关文章:

  • 《创作与爱:托芙扬松传》读书笔记
  • 2026年济南笔记本电脑售后维修点评测推荐:告别维修焦虑,精准选择身边可靠服务点 - 品牌推荐
  • python 读取sql
  • 2026贝赛思入学备考特训冲刺班与辅导机构推荐:贝赛思专业升学备考提分特训机构完整指南 - 品牌2025
  • HTML速成课|从历史到优势,零基础也能懂的网页核心语言
  • 美妆保健品Ins风包装设计案例——以简约质感,塑品牌新标识 - 宏洛图品牌设计
  • 降低AI查重率:从“被标红”到“稳过检”的真实突围战
  • ChatPPT Nano Banana Pro的Magic编辑模式一骑绝尘
  • 初高中物理跟不上?重庆本土5大靠谱机构盘点:附不同学情选班攻略 - 深度智识库
  • 邦芒宝典:职场中真正的牛人都具有这7个特征
  • 电力场景红外图像绝缘子检测数据集VOC+YOLO格式420张1类别
  • 手套箱头部企业有哪些?2026年交货快/售后优的国产手套箱供货商实地调研 - 品牌推荐大师1
  • 与时俱进!多模态数据融合的新套路真是赢麻了呀!
  • Flutter for OpenHarmony:上的应用实,基于 Flutter 实现会话级步行轨迹可视化追踪
  • 公交车上遗留物品遗失物品检测数据集VOC+YOLO格式867张2类别
  • 转录因子研究套路(三)
  • 虾仁名场面
  • Flutter for OpenHarmony:基于Flutter的声纹动态波形模拟器开发实践
  • Nginx源码分析:current_weight、fail_timeout、cache_valid——三个字段撑起Nginx整个反向代理
  • 常见环境监测仪器介绍
  • Kafka深度解析:分区策略、ISR机制、幂等性与精确一次语义(Spring Boot实战)
  • 2026.2.9:2026年2月TIOBE指数
  • 深入解析 G1 垃圾回收器:Region、Remembered Set 与 Mixed GC 全揭秘(附 CMS 对比)
  • SW零件绘制之组合
  • agentscope循环对话 这个msg是在循环外面的
  • Flutter for OpenHarmony:票匣系统 - 基于Flutter的会话级票据管理实践与用户体验设计
  • 电子签章 + 合规文件自动生成,离职管理的合规高效解法
  • git给代码打tag
  • Old ATX电源电路图(网络收集)
  • 【Git】全面认识Git lfs