当前位置: 首页 > news >正文

基于Wan 3D Causal VAE(Show-o2)的模型,重新完整地分析 10分钟的视频 对应多少 vison token

可以。这次我按Show-o2 官方 432×432 配置Wan 3D Causal VAE 的公开时间压缩规则,把10B token 且全部都是 vision token的情况重新完整算一遍。下面的“大小”我统一按未压缩 RGB 原始数据量来算;如果你问的是实际 JPG / PNG / MP4 落盘大小,那会随压缩格式、码率和内容复杂度变化很大,不能有唯一值。Show-o2 在 README 中说明它工作在text token + 3D Causal VAE space上,432 配置里num_t2i_image_tokens=729,视频理解配置里num_video_tokens=3645,对应的空间 latent 高宽都是27×27。(GitHub)

1)先把基准说清楚

图片基准

Show-o2 的 432×432 配置里,一张图对应:

N img-token = 729 N_{\text{img-token}} = 729Nimg-token=729

同时一张 432×432 RGB 图片的原始大小是:

432 × 432 × 3 = 559,872  bytes 432 \times 432 \times 3 = 559{,}872 \text{ bytes}432×432×3=559,872 bytes

所以每个 image token 对应的原始数据量是:

559,872 729 = 768  bytes/token \frac{559{,}872}{729}=768 \text{ bytes/token}729559,872=768 bytes/token

这些数可直接由官方 config 和计算得到。(GitHub)

视频基准

Show-o2 的 released video-understanding config 里写的是:

N video-token = 3645 N_{\text{video-token}} = 3645Nvideo-token=3645

而 Wan 官方代码说明视频帧数frame_numF FF应为4 n + 1 4n+14n+1,其时间 latent 长度为:

T latent = F − 1 4 + 1 T_{\text{latent}}=\frac{F-1}{4}+1Tlatent=

http://www.jsqmd.com/news/573584/

相关文章:

  • SEO 优化常用的主要方法有哪些
  • 上海 seo 优化公司怎么选
  • Ryzen SDT调试工具:解锁AMD处理器隐藏性能的终极指南
  • 保姆级教程:用Rust和Clap从零打造一个能管理API密钥的CLI工具(附完整源码)
  • 2026降AIGC率工具实测:10款好用工具推荐(论文AI痕迹重必看)
  • 为什么99%的Python团队还没用上AOT?2026年官方方案的3大硬伤与2个绕过技巧(含patch diff与CI集成脚本)
  • C++ 笔记 赋值兼容原则(公有继承)(面向对象)
  • Wan 3D Causal VAE:一篇讲清视觉 token、时间压缩、3D Causal 卷积
  • AI 知识库云端搭建
  • OpenClaw安全防护指南:Qwen3-14b_int4_awq任务权限管控
  • 国内专业的铣打机厂家哪家专业
  • 实战演练:基于快马平台快速构建可部署的web版cad室内设计应用
  • 教师实用教程:HTML如何实现学生成绩单查询功能的生成与搭建
  • 2026年河北保冷管托市场深度解析:五大实力服务商综合评测与选型指南 - 2026年企业推荐榜
  • 第一次训练周赛I题分析
  • 国内流行的博客、微博汇总
  • 2026年浙江方型负压风机/屋顶负压风机厂家选择推荐 - 品牌宣传支持者
  • 2026年椭圆机选购指南:深度解析五大源头厂家,谁才是性价比之王? - 2026年企业推荐榜
  • 合肥企业保洁外包选型指南:2026年避坑与优选策略 - 2026年企业推荐榜
  • [AI/Agent/社交] AI Agent社交网络产品:MoltBook => InStreet
  • 2026年比较好的欧式悬挂起重机品牌厂家推荐 - 品牌宣传支持者
  • 企业AI定制开发:以工业场景为核心,赋能全行业数智化转型
  • 当SPC焕发新生:云质信息重构制造质量管理新范式
  • 视频理解模型推理与微调
  • 2026年泰安游泳池建设新趋势:揭秘口碑背后的服务商选择逻辑 - 2026年企业推荐榜
  • XSS、CSRF、SQL注入、防重放与敏感数据保护的分层策略
  • AI for Science新浪潮:聚合物智能设计全解析
  • RK3568 ALSA音频架构深度解析
  • 2026年质量好的起重机/单梁起重机厂家精选合集 - 品牌宣传支持者
  • GitHub绑定域名完整指南,一文搞定网站域名配置