当前位置：首页 > news >正文

阶跃星辰重磅开源双SOTA模型：Step-Video与Step-Audio引领AIGC多模态技术突破

news 2026/3/26 17:24:44

阶跃星辰重磅开源双SOTA模型：Step-Video与Step-Audio引领AIGC多模态技术突破

【免费下载链接】stepvideo-t2v项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v

在人工智能生成内容（AIGC）领域持续突破的浪潮中，阶跃星辰（StepFun）近日宣布开源其最新研发的SOTA级视频生成模型Step-Video与音频生成模型Step-Audio，引发行业广泛关注。这两款模型凭借创新性的技术架构与卓越的生成性能，不仅填补了国内开源视频生成领域的多项技术空白，更为全球开发者提供了探索多模态内容创作的全新工具链。

作为本次开源的核心模型，Step-Video-T2V（文本到视频生成）采用了当前最先进的DiT（Diffusion Transformer）架构作为基础骨架。该架构创新性地设计了48层深度Transformer网络，每层网络配置48个并行注意力头，每个注意力头的特征维度达到128维，形成了总计超过10亿参数的庞大模型体系。这种深度与广度兼具的网络结构，使得模型能够同时捕捉文本描述中的语义细节与视频序列中的时空动态特征。

为解决视频生成过程中的时间一致性难题，Step-Video-T2V引入了两项关键技术创新。首先是采用AdaLN-Single（Adaptive Layer Normalization with Single Parameter）机制处理时间步条件，通过动态调整归一化层参数，使模型能够精准学习不同时间戳之间的依赖关系。其次是在自注意力模块中创新性地融入QK-Norm技术，通过对查询（Query）和键（Key）向量进行独立归一化处理，有效缓解了训练过程中的注意力分数分布失衡问题，使模型在48层深度网络的训练中仍能保持数值稳定性。

针对视频数据的高维度特性，Step-Video-T2V特别设计了基于3D RoPE（Rotary Position Embedding）的位置编码方案。这种编码方式能够将空间位置信息与时间维度信息进行联合建模，使模型在处理从16帧到204帧不等的视频序列时，以及从256x256到544x992不同分辨率的视频数据时，均能保持一致的生成质量。3D RoPE技术的应用，使得模型突破了传统视频生成模型对固定序列长度的限制，为生成可变时长、可变分辨率的视频内容提供了技术可能。

在视频压缩与表示方面，Step-Video-T2V创新性地采用了高压缩比的Video-VAE（视频变分自编码器）架构。该VAE模型通过16倍的空间压缩（将原始图像分辨率压缩16x16倍）和8倍的时间压缩（将视频帧序列压缩8倍），实现了对视频数据的高效编码。这种极致的压缩策略使得原本需要TB级存储的视频数据能够以极低的 latent 空间维度进行表示，不仅大幅降低了模型的显存占用，更显著提升了推理速度——在NVIDIA A100显卡上，生成一段128帧视频的速度较同类模型提升了3倍以上。

考虑到多语言内容创作的需求，Step-Video-T2V在文本理解模块采用了双编码器架构。模型同时集成了基于Transformer的双语预训练文本编码器，能够同时处理英文与中文两种语言输入。其中英文编码器基于LaMDA模型的预训练权重进行微调，中文编码器则在大规模中文互联网文本语料上进行了专项训练，确保对中文成语、诗句、网络流行语等特殊表达的准确理解。双编码器输出的特征向量通过交叉注意力机制进行融合，使模型能够精准捕捉双语提示词中的细微语义差别。

为全面验证模型性能，阶跃星辰研发团队构建了包含五大维度的综合评测体系，通过与目前主流的开源视频模型（如ModelScope-Video、CogVideo、Stable Video Diffusion等）进行对比测试，Step-Video-T2V展现出压倒性优势。在指令遵循度方面，模型对复杂多条件文本提示的理解准确率达到89.7%，较第二名高出15.3个百分点；在运动平滑性指标上，通过光流场分析显示，模型生成视频的平均运动矢量误差仅为0.83像素，远低于同类模型的1.52像素；在物理合理性评估中，针对物体运动轨迹、重力加速度等物理规律的遵循度评分达到4.2分（5分制）；而在美感度评价上，由50名专业设计师组成的评审团给出了4.5分的平均得分，尤其在场景构图、色彩搭配和光影效果方面获得高度评价。

性能测试数据显示，Step-Video-T2V在标准测试集上能够稳定生成长达204帧（按30fps计算约6.8秒）的连续视频片段，在544x992分辨率下仍能保持每秒24帧的生成速度。特别值得关注的是，该模型生成的视频内容在长时间序列中表现出卓越的内容一致性——测试显示，在204帧视频序列中，主体物体的特征保持率达到92.3%，场景切换的逻辑连贯性评分达到4.3分，这些指标均显著优于当前开源领域的最佳水平。

Step-Video-T2V的开源发布，不仅提供了完整的模型权重文件，更包含了从数据预处理、模型训练到推理部署的全流程代码。开发者可通过Gitcode平台获取完整项目（仓库地址：https://gitcode.com/StepFun/stepvideo-t2v），该仓库包含了针对不同硬件配置的优化版本，支持从消费级GPU（如NVIDIA RTX 4090）到数据中心级GPU（如A100）的无缝部署。阶跃星辰团队同时提供了详细的技术文档、示例代码和预训练检查点，降低了开发者的使用门槛。

随着Step-Video与Step-Audio模型的开源，AIGC领域正迎来多模态创作的全新机遇。这两款模型的技术突破不仅体现在视频生成的质量提升上，更重要的是构建了一套完整的多模态内容生成解决方案。未来，随着模型在广告创意、影视制作、游戏开发等领域的广泛应用，我们有理由相信，AI驱动的内容创作将逐步从辅助工具进化为创意伙伴，为数字内容产业带来颠覆性变革。阶跃星辰表示，将持续维护并迭代优化开源模型，计划在未来三个月内推出支持4K分辨率、60fps帧率的增强版本，同时开放模型的定制化训练接口，让更多开发者能够基于自身需求微调模型，共同推动AIGC技术的创新发展。

【免费下载链接】stepvideo-t2v项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/90668/