当前位置: 首页 > news >正文

阶跃星辰重磅开源双SOTA模型:Step-Video与Step-Audio引领AIGC多模态技术突破

阶跃星辰重磅开源双SOTA模型:Step-Video与Step-Audio引领AIGC多模态技术突破

【免费下载链接】stepvideo-t2v项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v

在人工智能生成内容(AIGC)领域持续突破的浪潮中,阶跃星辰(StepFun)近日宣布开源其最新研发的SOTA级视频生成模型Step-Video与音频生成模型Step-Audio,引发行业广泛关注。这两款模型凭借创新性的技术架构与卓越的生成性能,不仅填补了国内开源视频生成领域的多项技术空白,更为全球开发者提供了探索多模态内容创作的全新工具链。

作为本次开源的核心模型,Step-Video-T2V(文本到视频生成)采用了当前最先进的DiT(Diffusion Transformer)架构作为基础骨架。该架构创新性地设计了48层深度Transformer网络,每层网络配置48个并行注意力头,每个注意力头的特征维度达到128维,形成了总计超过10亿参数的庞大模型体系。这种深度与广度兼具的网络结构,使得模型能够同时捕捉文本描述中的语义细节与视频序列中的时空动态特征。

为解决视频生成过程中的时间一致性难题,Step-Video-T2V引入了两项关键技术创新。首先是采用AdaLN-Single(Adaptive Layer Normalization with Single Parameter)机制处理时间步条件,通过动态调整归一化层参数,使模型能够精准学习不同时间戳之间的依赖关系。其次是在自注意力模块中创新性地融入QK-Norm技术,通过对查询(Query)和键(Key)向量进行独立归一化处理,有效缓解了训练过程中的注意力分数分布失衡问题,使模型在48层深度网络的训练中仍能保持数值稳定性。

针对视频数据的高维度特性,Step-Video-T2V特别设计了基于3D RoPE(Rotary Position Embedding)的位置编码方案。这种编码方式能够将空间位置信息与时间维度信息进行联合建模,使模型在处理从16帧到204帧不等的视频序列时,以及从256x256到544x992不同分辨率的视频数据时,均能保持一致的生成质量。3D RoPE技术的应用,使得模型突破了传统视频生成模型对固定序列长度的限制,为生成可变时长、可变分辨率的视频内容提供了技术可能。

在视频压缩与表示方面,Step-Video-T2V创新性地采用了高压缩比的Video-VAE(视频变分自编码器)架构。该VAE模型通过16倍的空间压缩(将原始图像分辨率压缩16x16倍)和8倍的时间压缩(将视频帧序列压缩8倍),实现了对视频数据的高效编码。这种极致的压缩策略使得原本需要TB级存储的视频数据能够以极低的 latent 空间维度进行表示,不仅大幅降低了模型的显存占用,更显著提升了推理速度——在NVIDIA A100显卡上,生成一段128帧视频的速度较同类模型提升了3倍以上。

考虑到多语言内容创作的需求,Step-Video-T2V在文本理解模块采用了双编码器架构。模型同时集成了基于Transformer的双语预训练文本编码器,能够同时处理英文与中文两种语言输入。其中英文编码器基于LaMDA模型的预训练权重进行微调,中文编码器则在大规模中文互联网文本语料上进行了专项训练,确保对中文成语、诗句、网络流行语等特殊表达的准确理解。双编码器输出的特征向量通过交叉注意力机制进行融合,使模型能够精准捕捉双语提示词中的细微语义差别。

为全面验证模型性能,阶跃星辰研发团队构建了包含五大维度的综合评测体系,通过与目前主流的开源视频模型(如ModelScope-Video、CogVideo、Stable Video Diffusion等)进行对比测试,Step-Video-T2V展现出压倒性优势。在指令遵循度方面,模型对复杂多条件文本提示的理解准确率达到89.7%,较第二名高出15.3个百分点;在运动平滑性指标上,通过光流场分析显示,模型生成视频的平均运动矢量误差仅为0.83像素,远低于同类模型的1.52像素;在物理合理性评估中,针对物体运动轨迹、重力加速度等物理规律的遵循度评分达到4.2分(5分制);而在美感度评价上,由50名专业设计师组成的评审团给出了4.5分的平均得分,尤其在场景构图、色彩搭配和光影效果方面获得高度评价。

性能测试数据显示,Step-Video-T2V在标准测试集上能够稳定生成长达204帧(按30fps计算约6.8秒)的连续视频片段,在544x992分辨率下仍能保持每秒24帧的生成速度。特别值得关注的是,该模型生成的视频内容在长时间序列中表现出卓越的内容一致性——测试显示,在204帧视频序列中,主体物体的特征保持率达到92.3%,场景切换的逻辑连贯性评分达到4.3分,这些指标均显著优于当前开源领域的最佳水平。

Step-Video-T2V的开源发布,不仅提供了完整的模型权重文件,更包含了从数据预处理、模型训练到推理部署的全流程代码。开发者可通过Gitcode平台获取完整项目(仓库地址:https://gitcode.com/StepFun/stepvideo-t2v),该仓库包含了针对不同硬件配置的优化版本,支持从消费级GPU(如NVIDIA RTX 4090)到数据中心级GPU(如A100)的无缝部署。阶跃星辰团队同时提供了详细的技术文档、示例代码和预训练检查点,降低了开发者的使用门槛。

随着Step-Video与Step-Audio模型的开源,AIGC领域正迎来多模态创作的全新机遇。这两款模型的技术突破不仅体现在视频生成的质量提升上,更重要的是构建了一套完整的多模态内容生成解决方案。未来,随着模型在广告创意、影视制作、游戏开发等领域的广泛应用,我们有理由相信,AI驱动的内容创作将逐步从辅助工具进化为创意伙伴,为数字内容产业带来颠覆性变革。阶跃星辰表示,将持续维护并迭代优化开源模型,计划在未来三个月内推出支持4K分辨率、60fps帧率的增强版本,同时开放模型的定制化训练接口,让更多开发者能够基于自身需求微调模型,共同推动AIGC技术的创新发展。

【免费下载链接】stepvideo-t2v项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/90668/

相关文章:

  • 技术行业迎来变革:创新驱动下的发展新机遇
  • 2025腾讯混元AI本地化部署全攻略:从环境搭建到合规落地的实战指南
  • 通义千问视觉基础模型重磅发布:重塑AI视觉生成与理解新范式
  • 前沿技术周刊第81期:AI工具与开发利器全解析
  • wvp-GB28181-pro深度解析:现代视频监控平台架构设计与实战部署
  • uv-ui多端UI框架:从零开始构建跨平台应用的全能指南
  • 如何搭建个人音乐云?DSub Android客户端完整使用指南
  • 强力解析:OpenBoardView实现.brd电路板文件精准可视化分析
  • 人工智能:重塑未来的核心驱动力
  • 5个技巧让你的暗黑3游戏体验翻倍:D3KeyHelper实用配置指南
  • 如何快速实现PotPlayer智能字幕翻译:百度翻译插件完整使用指南
  • B站4K高清视频下载完全攻略:从新手到高手的完整指南
  • 开源代码模型新突破:Qwen3-Coder-480B-A35B-Instruct重新定义智能编程边界
  • Qwen3-VL-4B-Instruct-FP8震撼发布:FP8量化技术赋能多模态AI效率革命
  • 游戏库管理终极革命:20款Playnite扩展一键解决所有痛点
  • 【计算机算法与设计(14)】例题五:最小生成树:Prim算法详细解释:π的含义、更新逻辑和选点原因
  • AdGuard浏览器扩展:终极免费的广告拦截和隐私保护解决方案
  • 阿里云盘Refresh Token获取指南:三步搞定扫码工具
  • 2025轻量级AI模型横评:Gemma-3 QAT/BitNet/Granite性能深度实测
  • 印度JEE考生的AI福音:Physics Wallah团队推出70亿参数数学解题助手Aryabhata
  • LFM2混合骨干架构:重新定义AI大模型的效率与性能边界
  • 归并排序的趟数和时间复杂度
  • 128K上下文模型遭遇“缩水“困境:用户实测6万字文本触发长度限制
  • 17亿参数挑战行业巨头:Salesforce CoDA模型颠覆代码生成范式
  • Python入门篇【函数巩固题】
  • 12、Unix 文件处理实用工具全解析
  • 13、Unix系统文件操作与系统信息查询指南
  • 14、Unix系统信息查询与环境配置全解析
  • 15、深入探究 zsh 和 bash 配置文件:从查看至定制
  • 16、Unix 环境配置:bash、ksh 和 csh 详细指南