当前位置: 首页 > news >正文

美团开源 136 亿参数视频生成大模型!生成分钟级长视频不崩不糊,MIT 协议商用无忧

美团开源 136 亿参数视频生成大模型!生成分钟级长视频不崩不糊,MIT 协议商用无忧

💡 视频生成大模型卷到今天,短片段 Demo 满天飞,但一做长视频就色彩偏移、画质崩坏?美团 LongCat-Video 带着 13.6B 参数来了——文生视频、图生视频、视频续写三合一,原生支持分钟级长视频生成,MOS 评分对标 Veo3 和 PixVerse-V5,而且 MIT 协议完全开源!

📌 目录

  • 1. 先看效果
  • 2. LongCat-Video 是什么?
  • 3. 四大核心亮点
  • 4. MOS 评分对标商业方案
  • 5. LongCat-Video-Avatar:音频驱动数字人
  • 6. 快速上手
  • 7. 核心技术揭秘
  • 8. 适用场景与优缺点
  • 9. 总结

1. 先看效果

🎬 项目提供了 1 分钟的 Teaser Video,展示分钟级长视频生成能力:

📹 Teaser Video

关键看点

  • ✅ 分钟级长视频,无色彩偏移
  • ✅ 720p / 30fps,画质稳定
  • ✅ 文生视频 / 图生视频 / 视频续写,一个模型全搞定

2. LongCat-Video 是什么?

LongCat-Video是美团 LongCat 团队开源的基础视频生成大模型,参数量13.6B,支持三大任务:

任务说明
🎬Text-to-Video输入文字描述,生成视频
🖼️Image-to-Video输入图片 + 文字,生成视频
▶️Video-Continuation输入已有视频,自动续写后续内容

🔗 项目地址:https://github.com/meituan-longcat/LongCat-Video

📄 技术报告:https://arxiv.org/abs/2510.22200

🤗 模型权重:HuggingFace

📜 许可证:MIT License(模型权重也是 MIT!)


3. 四大核心亮点

🌟 亮点一:统一架构,三大任务一模型搞定

LongCat-Video 将 Text-to-Video、Image-to-Video、Video-Continuation统一在单一框架内,不需要切换模型或微调,一套权重原生支持所有任务。

对比其他方案

方案T2VI2V视频续写是否统一架构
大部分开源方案分别训练
商业 API部分不公开
LongCat-Video统一架构

🌟 亮点二:原生分钟级长视频生成

这是 LongCat-Video 最大的杀手锏。它在预训练阶段就引入了Video-Continuation 任务,使得模型天然具备长视频生成能力:

  • ❌ 传统方案:短视频拼接 → 拼接处色彩偏移、画质劣化
  • ✅ LongCat-Video:原生续写 →无色彩偏移,画质不退化

🌟 亮点三:高效推理,720p 30fps 分钟级出片

LongCat-Video 采用从粗到细的生成策略,在时间轴和空间轴两个维度上逐步细化:

粗粒度生成(低分辨率 + 少帧) ↓ 时间轴细化 中间帧补全 ↓ 空间轴细化 高分辨率上采样 (720p)

再加上Block Sparse Attention机制,在高分辨率场景下进一步加速推理。

🌟 亮点四:多奖励 GRPO 强化学习,性能对标商业方案

LongCat-Video 使用多奖励 Group Relative Policy Optimization (GRPO)进行强化学习对齐,在内部和公开基准测试上,性能媲美领先开源模型和最新商业方案。


4. MOS 评分对标商业方案

Text-to-Video 评分

指标Veo3PixVerse-V5Wan 2.2 (开源)LongCat-Video (开源)
可访问性闭源闭源开源开源
架构--MoE 28BDense 13.6B
文本对齐↑3.993.813.703.76
视觉质量↑3.233.133.263.25
运动质量↑3.863.813.783.74
综合质量↑3.483.363.353.38

解读

  • LongCat-Video 以13.6B Dense 架构(参数量不到 Wan 2.2 的一半),综合质量3.38反超 Wan 2.2 的 3.35
  • 与闭源商业方案 PixVerse-V5(3.36)持平
  • 距离 Veo3(3.48)差距仅 0.1

Image-to-Video 评分

指标Seedance 1.0Hailuo-02Wan 2.2 (开源)LongCat-Video (开源)
视觉质量↑3.223.183.233.27
运动质量↑3.773.803.793.59
综合质量↑3.353.273.263.17

解读

  • 视觉质量3.27,在所有对比方案中排名第一
  • 运动质量略有差距,这是长视频生成模型的 trade-off

5. LongCat-Video-Avatar:音频驱动数字人

除了基础视频生成,美团还推出了LongCat-Video-Avatar系列,专注音频驱动的人物视频生成

版本演进

版本音频编码器核心升级发布时间
Avatar v1.0Wav2Vec2单/多角色音频驱动2025.12
Avatar v1.5Whisper-Large-v3口型更准 + 长视频稳定 + 风格泛化 + 蒸馏加速2026.05

Avatar v1.5 五大升级

#升级点说明
1🎤Whisper-Large-v3替代 Wav2Vec2口型同步精度大幅提升
2🏭生产级物理合理性与时序稳定性长视频不再出现"鬼畜"或动作崩坏
3🎨风格泛化动漫、动物、复杂真实场景都能生成
4🔊单流 + 多流音频输入单人/多人对话场景全覆盖
58 步蒸馏推理推理步数大幅压缩,速度飞升

Avatar 支持的任务

任务输入输出
Audio-Text-to-Video音频 + 文字音频驱动的人物视频
Audio-Image-to-Video音频 + 图片以图片人物为基础的音频驱动视频
Video Continuation已有视频续写后续内容

Avatar 实战调参技巧

参数推荐值作用
--audio_cfg3~5越大口型同步越准
--ref_img_index0~24(一致性)/ 30(减少重复动作)控制参考帧位置
--mask_frame_range3(默认),增大可减少重复控制遮罩帧范围
--resolution480P / 720P分辨率选择
--use_distill加上即启用蒸馏加速(v1.5 必须加)
--use_int8加上即启用INT8 量化,降低显存(仅 v1.5)

6. 快速上手

第 ① 步:安装环境

gitclone --single-branch--branchmain https://github.com/meituan-longcat/LongCat-VideocdLongCat-Video conda create-nlongcat-videopython=3.10conda activate longcat-video# 安装 PyTorch(根据你的 CUDA 版本选择)pipinstalltorch==2.6.0+cu124torchvision==0.21.0+cu124torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124# 安装 FlashAttention-2pipinstallninja psutil packaging pipinstallflash_attn==2.7.4.post1# 安装其他依赖pipinstall-rrequirements.txt# 如需 Avatar 功能,额外安装condainstall-cconda-forge librosa ffmpeg pipinstall-rrequirements_avatar.txt

💡 FlashAttention-2 默认启用,也可切换 FlashAttention-3 或 xformers

第 ② 步:下载模型权重

pipinstall"huggingface_hub[cli]"# 基础视频生成模型huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video# Avatar v1.0(Wav2Vec2)huggingface-cli download meituan-longcat/LongCat-Video-Avatar --local-dir ./weights/LongCat-Video-Avatar# Avatar v1.5(Whisper-Large-v3,推荐)huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 --local-dir ./weights/LongCat-Video-Avatar-1.5

第 ③ 步:运行推理

文生视频

# 单 GPUtorchrun run_demo_text_to_video.py--checkpoint_dir=./weights/LongCat-Video--enable_compile# 多 GPUtorchrun--nproc_per_node=2run_demo_text_to_video.py--context_parallel_size=2--checkpoint_dir=./weights/LongCat-Video--enable_compile

图生视频

torchrun run_demo_image_to_video.py--checkpoint_dir=./weights/LongCat-Video--enable_compile

视频续写

torchrun run_demo_video_continuation.py--checkpoint_dir=./weights/LongCat-Video--enable_compile

分钟级长视频

torchrun run_demo_long_video.py--checkpoint_dir=./weights/LongCat-Video--enable_compile

交互式生成(Streamlit)

streamlit run ./run_streamlit.py--server.fileWatcherTypenone--server.headless=false

Avatar v1.5 音频驱动

# 单人音频 → 视频torchrun--nproc_per_node=2run_demo_avatar_single_audio_to_video.py\--context_parallel_size=2\--checkpoint_dir=./weights/LongCat-Video-Avatar-1.5\--stage_1=at2v\--input_json=assets/avatar/single_example_1.json\--use_distill--model_typeavatar-v1.5--use_int8# 多人音频 → 视频torchrun--nproc_per_node=2run_demo_avatar_multi_audio_to_video.py\--context_parallel_size=2\--checkpoint_dir=./weights/LongCat-Video-Avatar-1.5\--input_json=assets/avatar/multi_example_1.json\--use_distill--model_typeavatar-v1.5--use_int8

7. 核心技术揭秘

统一架构设计

LongCat-Video 的核心思路是一套权重覆盖多种任务

┌────────────────────────────────────────────────────┐ │ LongCat-Video 统一架构 │ │ │ │ ┌──────────┐ ┌──────────┐ ┌──────────────┐ │ │ │ 文本编码 │ │ 图像编码 │ │ 视频编码 │ │ │ │ (UMT5) │ │ (VAE) │ │ (VAE+续写) │ │ │ └────┬─────┘ └────┬─────┘ └──────┬───────┘ │ │ │ │ │ │ │ └──────────────┼───────────────┘ │ │ ▼ │ │ ┌──────────────────────────────────────────────┐ │ │ │ DiT (Diffusion Transformer) │ │ │ │ 13.6B Dense Parameters │ │ │ │ + Block Sparse Attention │ │ │ └──────────────────────┬───────────────────────┘ │ │ ▼ │ │ ┌──────────────────────────────────────────────┐ │ │ │ 从粗到细生成策略 │ │ │ │ 时间轴细化 → 空间轴细化 → 720p 输出 │ │ │ └──────────────────────────────────────────────┘ │ └────────────────────────────────────────────────────┘

关键技术一:Video-Continuation 原生预训练

传统视频生成模型只在短视频片段上训练,长视频靠拼接。LongCat-Video 从预训练阶段就引入续写任务,让模型学会从已有视频无缝延伸

  • 输入:前 N 帧视频
  • 输出:后续 M 帧视频
  • 结果:色彩一致、画质稳定、过渡自然

关键技术二:从粗到细 (Coarse-to-Fine) 生成

Step 1: 低分辨率 + 少帧 → 生成粗粒度视频骨架 Step 2: 时间轴插帧 → 补全中间帧,提升流畅度 Step 3: 空间轴超分辨率 → 上采样到 720p

这种策略既保证质量,又大幅降低计算量。

关键技术三:Block Sparse Attention

在高分辨率场景下,标准 Attention 的计算量是 O(n²),Block Sparse Attention 通过分块稀疏计算,只关注关键区域,推理速度大幅提升。

关键技术四:多奖励 GRPO 强化学习

传统 RLHF: 单一奖励模型 → 优化单一维度 LongCat-Video: 多奖励 GRPO → 同时优化文本对齐 + 视觉质量 + 运动质量

多奖励 GRPO 是 LongCat-Video 性能对标商业方案的关键。

社区加速方案

CacheDiT 为 LongCat-Video 提供了全缓存加速支持,通过 DBCache 和 TaylorSeer 实现近1.7 倍加速,精度无明显损失。


8. 适用场景与优缺点

✅ 适合的场景

场景说明
🎬 影视/广告预览快速生成视频分镜和预览素材
📱 短视频/社交媒体批量生成创意视频内容
🧑 数字人/虚拟形象Avatar v1.5 音频驱动,口型精准
🎮 游戏资产生成快速生成游戏内视频素材
📚 教育培训数字人讲师 + 长视频课程生成

⚖️ 优缺点分析

维度评分说明
性能⭐⭐⭐⭐⭐13.6B Dense 对标 28B MoE,效率极高
长视频⭐⭐⭐⭐⭐原生续写,分钟级视频无色偏无画质退化
功能丰富度⭐⭐⭐⭐⭐T2V + I2V + 续写 + Avatar,全覆盖
开源友好⭐⭐⭐⭐⭐MIT 协议,模型权重也是 MIT!
Avatar 能力⭐⭐⭐⭐⭐v1.5 Whisper 编码器 + 蒸馏 + INT8
硬件门槛⭐⭐⭐13.6B 参数,需要高显存 GPU
运动质量⭐⭐⭐⭐I2V 运动质量有提升空间

⚠️ 注意事项

  • 13.6B 参数模型推理需要高显存 GPU(建议 A100/H100 或多卡)
  • Avatar v1.5 必须加--use_distill参数
  • INT8 量化仅支持 Avatar v1.5
  • I2V 运动质量相比顶尖闭源方案仍有差距

9. 总结

LongCat-Video 是美团 LongCat 团队交出的一份重量级开源答卷

  • 🏗️统一架构:T2V + I2V + 视频续写,一个模型全搞定
  • 🎬分钟级长视频:原生预训练续写,无色偏无画质退化
  • 高效推理:Coarse-to-Fine + Block Sparse Attention
  • 🏆性能对标商业方案:MOS 综合 3.38,反超 Wan 2.2(3.35),持平 PixVerse-V5(3.36)
  • 🧑Avatar v1.5:Whisper 编码器 + 蒸馏加速 + INT8 量化 + 风格泛化
  • 📜MIT 协议:模型权重也是 MIT,商用无忧

推荐指数:⭐⭐⭐⭐⭐

在开源视频生成领域,LongCat-Video 是目前功能最全面、长视频最强、协议最友好的方案。如果你在做视频生成相关的工作,这个项目不容错过!

📢 原文链接:https://github.com/meituan-longcat/LongCat-Video
📄 技术报告:https://arxiv.org/abs/2510.22200
🤗 模型权重:HuggingFace
🌐 项目主页:https://meituan-longcat.github.io/LongCat-Video/


标签:#LongCat-Video #视频生成 #AI #大模型 #美团 #数字人 #AIGC

http://www.jsqmd.com/news/964049/

相关文章:

  • 如何突破平台限制:用yuzu模拟器在PC上畅玩Switch游戏的革命性方案
  • Protel 99 SE PCB拼板全攻略:从特殊粘贴到队列粘贴的规范操作
  • QKeyMapper深度指南:如何通过智能按键映射提升Windows操作效率
  • 从辅助工具到核心生产力:AI编程的进化之路
  • VMware macOS解锁神器:3分钟快速安装完整指南
  • 英语阅读_The Kingdom of Mali
  • Maxwell自动化避坑指南:Python调用COM接口时,这5个错误千万别犯(附解决方案)
  • Win11 X-Lite 26H1 各版本说明与完整安装技术教程
  • 6月3号
  • 点击率会影响谷歌排名吗?B2B站点CTR低于2%的急救方法
  • 快速原型开发:用快马平台一键生成基于trae状态管理的待办应用
  • 【限时解禁】CSDN AI分发撤回隐藏功能解锁:仅开放给近30天发布≥5篇AI增强内容的认证作者(附准入校验代码)
  • 微电网协调控制系统柜的分类:按场景、功率、控制模式划分
  • 当vibe coding遇见AI:用快马平台打造能理解自然语言的智能待办应用
  • 新手福音:用快马ai生成obs吸附安装包入门示例代码
  • 终极指南:Flow Launcher搜索功能失效的完整解决方案
  • 复制视频链接怎么去水印?全平台解析实操指南 - 时时资讯
  • 新手入门linux不再难,用快马生成交互式命令行学习工具
  • TLC5615 DAC驱动开发全解析:从数据手册到Proteus仿真实践
  • 别再盲目加卡片了!——20年平台生态研究者独家披露:CSDN推荐权重重算周期中,营销卡片的3次关键扣分节点
  • C#调用Bartender打印标签?试试导出为图片或PDF,实现无打印机调试与存档
  • 3分钟掌握WindowResizer:彻底解决Windows窗口调整难题
  • 【AI捐赠革命指南】:2024年全球73%非营利组织已部署的智能捐赠整合框架,你还在用Excel手动匹配?
  • CSDN会员权益再进化:AI数字营销模块含3类算法引擎、5维用户画像、实时ROI看板——你用对了吗?
  • 如何用Untrunc免费修复损坏的MP4视频:终极拯救方案
  • 2026年 厦门防撞车厂家:70K/80K/100K智能防撞缓冲车,道路防护与安全实力品牌深度解析 - 品牌企业推荐师(官方)
  • 运算放大器仿真与实战:8个Proteus模型带你从理论到设计
  • 行业定制化管理软件应用探析:模块化赋能企业办公流程优化
  • YOLO11 全面笔记:从网络结构到训练、推理解码与源码阅读
  • LiteDB.Studio:告别命令行,三分钟搞定嵌入式数据库可视化管理的终极方案