当前位置: 首页 > news >正文

8G显存就能跑的视频抠图工具,发丝级精度,免费开源 | MatAnyone2 完整安装使用教程


做视频剪辑的朋友应该都碰到过这个问题——想换背景,但没有绿幕,手动逐帧抠图累死人,用软件自动抠效果又一言难尽,头发边缘一塌糊涂。

直到 MatAnyone2 出现,这个问题算是有了一个比较靠谱的答案。


一、MatAnyone2 是什么

MatAnyone2 是南洋理工大学 S-Lab 实验室做的一个视频抠图开源项目,论文入选了 CVPR 2026 Highlight,这个级别在计算机视觉领域算是含金量比较高的。

它的核心功能说起来很直接:给一段视频,在第一帧里圈出你要抠的人,它就能把整段视频里这个人从背景剥离出来,输出透明背景的前景视频,连发丝、半透明薄纱这类细节也能保留。

它不是那种简单的背景消除工具,本质上用的是 Matting(抠像)技术,区别在于:背景消除只分"前景/背景",边缘是硬边;而 Matting 会生成 Alpha 通道,边缘过渡自然,发丝可以逐根分离。相比上一代 MatAnyone,MatAnyone2 在边缘处理上又往前走了一步,整合包版本还新增了泊松混合功能,能让抠出来的人物和新背景融合得更贴合,减少生硬感。


二、MatAnyone2 的几个实际使用场景

在 B 站和 CSDN 上看了不少用过这个工具的人分享的体验,整理了几个比较有代表性的使用方向:

做短视频内容的:拍摄时没有绿幕、背景杂乱,剪辑时想换成纯色或者虚化背景,用 MatAnyone2 处理效果比剪映内置的抠像准很多,特别是头发这块。

做数字人项目的:需要把人物从实拍视频中抠出来合成到虚拟场景里,用传统工具需要大量手动修边,MatAnyone2 节省了相当多时间。

做影视后期的:对于没有绿幕条件的小团队,这个工具可以处理自然背景下的人物抠像,不需要蓝绿幕布。

有人在论坛里说,之前用 RobustVideoMatting(字节做的那个视频抠像模型)抠发丝效果一般,换了 MatAnyone2 之后明显细腻了,尤其是人物移动时边缘没有那种"果冻感"和闪烁。


三、硬件要求说清楚

这一块很多人上来就踩坑,没看清楚配置就下了,跑不起来白折腾。

显卡(GPU):必须是英伟达(NVIDIA)显卡,显存 8G 及以上。AMD 或者核显目前不支持,因为用的是 CUDA 加速,这是前提条件。

CUDA 版本:显卡驱动对应的 CUDA 版本需要 ≥ 12.4。不知道自己显卡支持多少的,在命令行输入nvidia-smi查一下右上角显示的 CUDA 版本就行。

内存:建议 16G 以上,处理长视频时内存压力比较大。

硬盘:整合包解压后约 12.8G,预留 20G 空闲空间比较稳妥。

操作系统:Windows 10/11 都可以跑,Linux 同样支持。

视频分辨率和时长越高,对显存和内存的要求越高。长视频建议先切成短片段分批处理。


四、与同类工具对比

市面上视频抠像方向的工具不少,这里选几个用户讨论比较多的横向比较。

工具是否需要绿幕边缘精度实时性显存占用是否免费
MatAnyone2不需要发丝级否(离线处理)8G+免费开源
RobustVideoMatting(字节)不需要中等,有闪烁感支持实时相对较低免费开源
BackgroundMattingV2需要空背景图中高支持实时较高免费开源
剪映/PR 内置抠像不需要低,发丝效果差实时收费/内置
Adobe After Effects + Rotobrush不需要较高中等收费

RobustVideoMatting 优势在实时性,用于摄像头直播场景更合适;BackgroundMattingV2 需要额外拍一张空背景图作为参考,实际操作多了一步;After Effects 的 Rotobrush 精度不差但操作复杂且是订阅付费;而 MatAnyone2 的定位是离线高精度处理,不追求实时,主要胜在不需要绿幕、不需要空背景参考图,只需标注第一帧,发丝细节比大多数同类工具处理得更干净。


五、安装教程(整合包版本,适合普通用户)

对于不想配 Python 环境的用户,推荐用整合包版本,解压就能用,省去大量环境折腾。

下面分步骤说清楚。

第一步:准备工作

在开始之前确认几件事:

  • 电脑装了 NVIDIA 驱动,在命令行跑一下nvidia-smi,能看到显卡信息和 CUDA 版本就是好的
  • 硬盘留出 20G 空闲
  • 下载好 WinRAR,不要用 Windows 自带解压,也不要用 360 解压,容易解压不完整

第二步:下载整合包

https://pan.quark.cn/s/1dc18f79445d

第三步:解压整合包

用 WinRAR 右键解压到一个路径不含中文、不含空格的文件夹,比如D:\tools\MatAnyone2

路径里有中文是个常见的报错原因,很多人踩这个坑。

第四步:启动软件

进入解压后的文件夹,找到启动.bat或者start.bat(不同整合包命名可能略有不同),双击运行。

首次启动会自动加载依赖,等待片刻,浏览器会自动弹出一个本地网页界面(通常是http://127.0.0.1:7860)。

如果浏览器没有自动打开,手动复制这个地址粘贴到浏览器里访问。

第五步:导入视频

界面打开后,找到视频上传区域,把要处理的视频拖进去或点击上传。

支持.mp4.mov.avi等常见格式。

第六步:标注第一帧目标人物

这是 MatAnyone2 的关键操作。

视频上传后,界面会显示视频的第一帧画面。在这个画面上,用鼠标在目标人物身上点几个点(标注要保留的主体),软件会通过 SAM2 分割模型自动生成该人物的轮廓遮罩

标注的时候建议多点几个点覆盖身体不同部位,特别是轮廓边缘附近,精度会更好。

如果自动识别的遮罩不准,可以继续点击修正。

第七步:开始处理

确认遮罩区域正确后,点击"开始处理"按钮,等待进度条走完。

处理速度取决于显卡性能和视频时长。RTX 3080 处理一段 1 分钟 1080p 视频大约需要几分钟,显存越大、显卡越新,速度越快。

第八步:获取结果

处理完成后,软件会输出两个文件:

  • 前景视频(带透明通道,格式通常为 .mov 或 .webm)
  • Alpha 通道视频(黑白遮罩)

把前景视频导入剪映、PR 或 AE,直接叠加在新背景上即可。


六、使用中几个常见问题

报错"CUDA out of memory":显存不够,把视频分辨率降低,或者把长视频切成短片段分批处理。

抠图边缘有残留:标注第一帧时多点几个点,特别是容易被漏掉的衣服边缘和头发末端。

视频上传后第一帧显示不出来:试着转换视频格式,部分编码的视频需要先用其他工具转码成 H.264 的 MP4 再导入。

主体和背景颜色相近时抠图不干净:这是当前版本的局限,颜色反差越大,效果越好。对于这类视频,辅助手动修边是比较现实的处理方式。


七、命令行原版安装(适合有开发基础的用户)

如果习惯用 Python 环境,原版安装步骤如下:

# 创建 conda 虚拟环境,Python 版本必须 3.10 或以上conda create-nmatanyone2python=3.10-yconda activate matanyone2# 克隆项目gitclone https://github.com/pq-yang/MatAnyone2.gitcdMatAnyone2# 安装依赖pipinstall-e.# 可选:安装 Gradio 界面依赖pipinstall-rhugging_face/requirements.txt# 启动 Gradio 界面cdhugging_face python app.py

目录结构参考:

inputs/ video/ test-sample1.mp4 mask/ test-sample1.png ← 第一帧的分割遮罩

运行推理:

# 输入 mp4 格式python inference_matanyone2.py-iinputs/video/test-sample1.mp4-minputs/mask/test-sample1.png# 输入视频帧文件夹格式python inference_matanyone2.py-iinputs/video/test-sample1-minputs/mask/test-sample1.png

结果保存在results文件夹,包含前景视频和 Alpha 通道视频。


用下来的总体感受:视频抠像这件事,MatAnyone2 在不需要绿幕的前提下把发丝精度做到了一个比较高的水平,8G 显存的门槛也算亲民。对做短视频、数字人、自媒体内容的普通用户来说,值得花时间装一次。

http://www.jsqmd.com/news/658296/

相关文章:

  • 告别盲操!深入理解S/4 HANA中MARC、MBEW表的CDS代理视图与增强逻辑
  • 互联网大厂Java面试:Spring Boot/Redis/Kafka/K8s 可观测 + RAG(向量检索/Agent)三轮追问实录
  • RabbitMQ实战:流控机制(Flow Control)全解析——原理、触发、流程与实战
  • 告别AI幻觉:用ReAct模式手把手教你构建一个会‘查资料’的智能问答助手
  • 保姆级教程:在Orange Pi 5 Max上从零配置ROS+PX4无人机仿真环境(Ubuntu 20.04)
  • 多通道热红外辐射计温度系数校准研究
  • 如何快速批量保存小红书无水印内容:XHS-Downloader完整指南
  • 从设备入库到报废:设备档案管理能解决哪些场景痛点?一套设备档案管理系统的实战应用
  • Redis Cluster Slot 分布逻辑
  • MyBatis 使用步骤、实现原理与 MyBatis-Plus 扩展功能详解》
  • RabbitMQ实战:消息批量消费完全解析——原理+配置+SpringBoot代码+避坑指南
  • 从ET规则集看Suricata规则实战筛选与部署策略
  • 暗黑破坏神2存档编辑器:打造个性化游戏体验的完整指南
  • 洛洛王国-超时
  • 高效脚本编写:用Codex告别重复造轮子
  • 为什么先安慰,比先讲道理更有效(为什么这里会有这么一篇博客)
  • 算法训练营第四天|203. 移除链表元素
  • MATLAB量化工具箱实战:从quantizer配置到quantize应用
  • Linux搭建校园网络项目
  • 负采样:从Softmax瓶颈到高效词嵌入的工程实践
  • AUTOSAR MCAL实战:Dio_ChannelGroup配置详解与S32K144端口操作技巧
  • 以为生活缺的是标准答案,其实是丧失了“拆解”的能力
  • 如何用10个Illustrator脚本实现设计自动化:从手动操作到智能工作流的终极指南
  • golang如何实现图片水印批量添加_golang图片水印批量添加实现策略
  • Zotero Reference终极指南:如何3分钟内自动提取PDF文献参考文献
  • 快速上手Qwen2.5-7B微调:单卡10分钟体验AI训练
  • RDPWrap完整指南:免费解锁Windows远程桌面多用户并发连接
  • 别再只把JWT当令牌了:一个CTF实战案例,手把手教你用Burp Suite和jwt.io破解伪造
  • 从零构建垃圾分类识别系统:基于8万张图片与TensorFlow的实战指南
  • 揭秘Ribbon负载均衡:轻松实现请求分摊