Cosmos核心功能全揭秘:三大世界基础模型与高效视频处理管道
Cosmos核心功能全揭秘:三大世界基础模型与高效视频处理管道
【免费下载链接】CosmosCosmos is a world model development platform that consists of world foundation models, tokenizers and video processing pipeline to accelerate the development of Physical AI at Robotics & AV labs. Cosmos is purpose built for physical AI. The Cosmos repository will enable end users to run the Cosmos models, run inference scripts and generate videos.项目地址: https://gitcode.com/gh_mirrors/cosmos7/Cosmos
Cosmos是一个专为物理AI开发者打造的世界模型开发平台,包含预训练的世界基础模型、视频分词器和视频处理管道,旨在加速机器人学和自动驾驶实验室的物理AI系统开发。这个完整的平台让开发者能够快速构建和部署先进的视觉生成系统。
🚀 三大世界基础模型:满足不同场景需求
Cosmos提供了两大类世界基础模型:基于扩散的模型和基于自回归的模型,每种模型都有不同的参数规模和功能特点。
1. 扩散模型(Diffusion-based Models)
扩散模型是Cosmos平台的核心组件之一,提供了文本到世界(Text2World)和视频到世界(Video2World)两种生成模式。
模型规格:
- Text2World模型:7B和14B参数版本,支持从文本提示生成视觉世界
- Video2World模型:7B和14B参数版本,支持从图像/视频输入和文本提示生成视觉世界
关键特性:
- 支持单视频和批量视频生成
- 内置提示增强器(Prompt Upsampler),可自动扩展简短提示为详细描述
- 灵活的GPU内存管理策略,支持多种卸载配置
- 支持多种宽高比(1:1、4:3、16:9等)
2. 自回归模型(Autoregressive-based Models)
自回归模型提供另一种生成方法,特别适合视频扩展任务,可以从单个图像或9帧视频输入扩展到33帧视频。
模型规格:
- 基础模型:4B和12B参数版本,仅支持视觉输入
- Video2World模型:5B和13B参数版本,支持视觉和文本双输入
性能表现:根据100个物理AI主题测试视频的评估,不同配置的失败率如下:
| 模型 | 图像输入失败率 | 视频输入失败率(9帧) |
|---|---|---|
| Cosmos-1.0-Autoregressive-4B | 15% | 1% |
| Cosmos-1.0-Autoregressive-5B-Video2World | 7% | 2% |
| Cosmos-1.0-Autoregressive-12B | 2% | 1% |
| Cosmos-1.0-Autoregressive-13B-Video2World | 3% | 0% |
🔧 高效视频分词器:压缩与重建的完美平衡
Cosmos的视频分词器是平台的关键技术组件,能够将视频高效地编码为连续和离散的token表示。
技术架构优势
Cosmos的分词器采用因果编码/解码架构,结合3D Haar小波变换进行多尺度时空分解,实现了:
- 高质量重建:相比其他领先方案,Cosmos保持了更好的空间和时间清晰度
- 混合潜在空间:同时支持连续和离散表示,平衡了细节保留和压缩效率
- 因果处理:避免时间建模中的未来帧信息泄漏
性能优势明显
从性能对比可以看出,Cosmos分词器在延迟方面显著优于竞争对手:
- 连续视频分词器:约10ms vs 竞争对手的400ms(40倍加速)
- 离散视频分词器:约51ms vs 竞争对手的53ms
- 连续图像分词器:约75ms vs 竞争对手的250ms
- 离散图像分词器:约50ms vs 竞争对手的450ms
📊 快速上手指南:三步开始使用Cosmos
第一步:环境设置
首先按照安装指南设置Docker环境:
# 克隆仓库 git clone https://gitcode.com/gh_mirrors/cosmos7/Cosmos cd Cosmos # 设置Docker环境(详细步骤参考INSTALL.md)第二步:下载模型权重
使用Hugging Face令牌下载预训练模型:
# 登录Hugging Face huggingface-cli login # 下载扩散模型 PYTHONPATH=$(pwd) python cosmos1/scripts/download_diffusion.py \ --model_sizes 7B 14B \ --model_types Text2World Video2World # 下载自回归模型 PYTHONPATH=$(pwd) python cosmos1/scripts/download_autoregressive.py \ --model_sizes 4B 5B 12B 13B第三步:运行示例
文本到世界生成示例:
PROMPT="一个未来城市中,自动驾驶汽车在多层立体道路上行驶..." # 使用7B Text2World模型 PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/text2world.py \ --checkpoint_dir checkpoints \ --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World \ --prompt "$PROMPT" \ --offload_prompt_upsampler \ --video_save_name 我的第一个Cosmos视频视频到世界生成示例:
# 使用7B Video2World模型 PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/video2world.py \ --checkpoint_dir checkpoints \ --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Video2World \ --input_image_or_video_path 输入视频.mp4 \ --num_input_frames 9 \ --video_save_name 视频扩展结果🛡️ 安全防护系统:负责任AI的保障
Cosmos内置了完整的安全防护系统,包括:
- AEGIS系统:预防护机制,防止不安全内容生成
- 面部模糊过滤器:自动检测和模糊生成的人脸
- 视频内容安全过滤器:确保生成内容符合安全标准
- 阻止列表系统:防止生成特定类型的不当内容
这些安全功能是强制性的,无法禁用,确保了平台生成的视频内容符合伦理和安全标准。
⚡ GPU内存优化策略
对于不同规格的GPU,Cosmos提供了灵活的模型卸载策略:
扩散模型内存使用示例
| 卸载策略 | 7B Text2World | 14B Text2World |
|---|---|---|
| 仅卸载提示增强器 | 74.0 GB | > 80.0 GB |
| 卸载提示增强器+防护系统 | 57.1 GB | 70.5 GB |
| 完全卸载所有组件 | 24.4 GB | 39.0 GB |
自回归模型内存使用示例
| 卸载策略 | 4B模型 | 12B模型 |
|---|---|---|
| 无卸载 | 31.3 GB | 47.5 GB |
| 仅卸载防护系统 | 28.9 GB | 45.2 GB |
| 完全卸载所有组件 | 18.7 GB | 27.4 GB |
🔄 批量处理能力
Cosmos支持高效的批量视频生成,通过JSONL文件格式输入:
Text2World批量输入格式:
{"prompt": "第一个场景描述..."} {"prompt": "第二个场景描述..."}Video2World批量输入格式:
{"visual_input": "视频1.mp4"} {"visual_input": "视频2.mp4"}🎯 最佳实践提示
- 描述单一场景:专注于单一场景,避免模型生成不必要的镜头切换
- 详细描述:提供丰富详细的提示,120词左右的提示通常效果最佳
- 避免相机控制指令:当前版本对相机控制指令的支持仍在开发中
- 使用提示增强器:默认启用,可自动扩展简短提示为详细描述
- 分辨率要求:自回归模型仅支持1024x640分辨率,输入会自动调整
📈 性能基准
- 扩散模型推理时间:7B模型约380秒,14B模型约590秒(H100 GPU)
- 自回归模型推理时间:4B模型约62秒,12B模型约119秒(H100 GPU)
- 视频长度:当前版本支持生成121帧视频
- 帧率:可调范围12-40fps
🚀 下一步探索
Cosmos平台提供了丰富的功能和灵活的配置选项,开发者可以根据具体需求:
- 探索不同模型规模:从7B到14B参数,平衡质量与速度
- 尝试混合输入模式:结合文本和视觉输入获得最佳效果
- 优化GPU配置:根据硬件选择合适的内存卸载策略
- 定制训练:使用后训练脚本针对特定应用场景微调模型
通过Cosmos,物理AI开发者可以快速构建高质量的视觉生成系统,加速机器人感知、自动驾驶模拟等应用的开发进程。
【免费下载链接】CosmosCosmos is a world model development platform that consists of world foundation models, tokenizers and video processing pipeline to accelerate the development of Physical AI at Robotics & AV labs. Cosmos is purpose built for physical AI. The Cosmos repository will enable end users to run the Cosmos models, run inference scripts and generate videos.项目地址: https://gitcode.com/gh_mirrors/cosmos7/Cosmos
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
