当前位置：首页 > news >正文

阶跃星辰双模型开源引爆AI圈：300亿参数视频生成+实时语音对话重构多模态技术边界

news 2026/3/26 23:30:55

阶跃星辰双模型开源引爆AI圈：300亿参数视频生成+实时语音对话重构多模态技术边界

【免费下载链接】stepvideo-t2v项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v

2025年2月18日，中国AI创业公司阶跃星辰（StepFun）联合吉利汽车集团震撼发布两项重大开源成果——300亿参数视频生成模型Step-Video-T2V与全功能实时语音交互模型Step-Audio。这一组合拳不仅刷新了开源社区多项技术纪录，更在全球AI领域引发轰动，HuggingFace官方账号及CEO接连转发相关推文，行业专家评价其"有望复制DeepSeek式的技术突破"。

如上图所示，推文详细展示了Step-Video-T2V与Step-Audio的核心技术参数及应用场景。这一发布标志着中国多模态技术正式进入"视频+语音"双引擎驱动时代，为开发者提供了前所未有的技术试验田。

作为当前开源领域参数规模最大的视频生成模型，Step-Video-T2V直接将行业基准提升至300亿参数级别，较此前腾讯混元的130亿参数实现跨越式发展。在阶跃星辰发布的11类场景评测中（涵盖运动捕捉、自然风景、人物刻画等），该模型在指令遵循度、动作流畅度、物理合理性及美学吸引力四大维度全面超越现有开源方案。技术报告显示，在"人物复杂动作"类别中，Step-Video-T2V以1273:1221的得分优势领先腾讯混元，尤其在360度旋转镜头场景中展现出惊人的细节把控能力。

实测案例中，针对"低角度旋转拍摄鼓手演奏"的提示词，模型不仅精准还原了深色T恤、浅色裤子、纹身等服饰细节，更实现了高速旋转中的画面稳定性，运镜流畅度达到专业影视级水准。另一个黑白纪实风格的案例中，"甲板渔夫冒雨收网"的场景生成令人惊叹——雨水在黝黑皮肤的反光效果、凌乱发丝的动态轨迹、远处雨雾朦胧的山景层次，均达到以假乱真的视觉效果，完美复现了二战时期的沧桑质感。

更值得关注的是模型对物理规律的理解突破。在"熊猫滑板旋转跳跃"的高难度指令中，Step-Video-T2V准确处理了熊猫与滑板的空间位置关系，跳跃过程中的重力感与落地缓冲效果自然真实，解决了当前AI视频生成普遍存在的"物理穿帮"难题。目前该模型已通过跃问APP向公众开放免费使用，开发者可通过Gitcode仓库获取完整代码与训练权重。

同步开源的Step-Audio模型则构建了实时语音交互的全栈解决方案。该系统支持情绪模拟、方言识别、多语种转换及角色音色复刻等高级功能，在"十级难度绕口令"测试中展现出98%的识别准确率。特别值得注意的是其工具调用能力，可在语音对话过程中实时联动搜索引擎与知识库，这一特性使其在智能硬件、AI玩具等消费场景具备独特优势。

截图清晰展示了HuggingFace对开源许可证的特别标注。MIT协议的采用意味着开发者可自由商用这两项技术，极大降低了AI硬件产品的技术门槛，为语音交互玩具、智能座舱系统等领域带来创新可能。

为全面评估语音模型性能，阶跃星辰创新构建了StepEval-Audio-360评测体系，从角色扮演、逻辑推理、文字游戏等9个维度进行全方位考核。结果显示，Step-Audio在"情绪语音生成"项目中获得89分（满分100），其复刻的"闺蜜悄悄话"语音样本被测试者评为"情感还原度超越真人录音"。该模型现已开放HuggingFace空间体验，技术报告详细披露了130亿参数模型的训练策略与优化细节。

成立仅22个月的阶跃星辰，已累计发布11款多模态模型，形成覆盖图像理解、视频生成、语音交互的完整技术矩阵。这种"平均每2个月一新作"的研发速度，使其成为业内公认的"多模态卷王"。麻省理工科技评论最新报告将其与智谱AI、面壁智能等并列为"DeepSeek之外值得关注的中国AI力量"，认为这些企业正共同推动中国大模型技术从单点突破迈向系统创新。

当前AI行业正处于多模态融合的关键节点，视频与语音技术的突破将加速人机交互范式的革新。阶跃星辰通过持续开源构建的技术生态，不仅降低了创新门槛，更培养了本土AI人才的实践土壤。正如业内专家所言："当DeepSeek的推理能力遇上阶跃的多模态技术，中国AI正形成群星闪耀的技术矩阵，这才是真正的星辰大海。"

【免费下载链接】stepvideo-t2v项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/79783/