当前位置: 首页 > news >正文

阶跃星辰双模型开源引爆AI圈:300亿参数视频生成+实时语音对话重构多模态技术边界

阶跃星辰双模型开源引爆AI圈:300亿参数视频生成+实时语音对话重构多模态技术边界

【免费下载链接】stepvideo-t2v项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v

2025年2月18日,中国AI创业公司阶跃星辰(StepFun)联合吉利汽车集团震撼发布两项重大开源成果——300亿参数视频生成模型Step-Video-T2V与全功能实时语音交互模型Step-Audio。这一组合拳不仅刷新了开源社区多项技术纪录,更在全球AI领域引发轰动,HuggingFace官方账号及CEO接连转发相关推文,行业专家评价其"有望复制DeepSeek式的技术突破"。

如上图所示,推文详细展示了Step-Video-T2V与Step-Audio的核心技术参数及应用场景。这一发布标志着中国多模态技术正式进入"视频+语音"双引擎驱动时代,为开发者提供了前所未有的技术试验田。

作为当前开源领域参数规模最大的视频生成模型,Step-Video-T2V直接将行业基准提升至300亿参数级别,较此前腾讯混元的130亿参数实现跨越式发展。在阶跃星辰发布的11类场景评测中(涵盖运动捕捉、自然风景、人物刻画等),该模型在指令遵循度、动作流畅度、物理合理性及美学吸引力四大维度全面超越现有开源方案。技术报告显示,在"人物复杂动作"类别中,Step-Video-T2V以1273:1221的得分优势领先腾讯混元,尤其在360度旋转镜头场景中展现出惊人的细节把控能力。

实测案例中,针对"低角度旋转拍摄鼓手演奏"的提示词,模型不仅精准还原了深色T恤、浅色裤子、纹身等服饰细节,更实现了高速旋转中的画面稳定性,运镜流畅度达到专业影视级水准。另一个黑白纪实风格的案例中,"甲板渔夫冒雨收网"的场景生成令人惊叹——雨水在黝黑皮肤的反光效果、凌乱发丝的动态轨迹、远处雨雾朦胧的山景层次,均达到以假乱真的视觉效果,完美复现了二战时期的沧桑质感。

更值得关注的是模型对物理规律的理解突破。在"熊猫滑板旋转跳跃"的高难度指令中,Step-Video-T2V准确处理了熊猫与滑板的空间位置关系,跳跃过程中的重力感与落地缓冲效果自然真实,解决了当前AI视频生成普遍存在的"物理穿帮"难题。目前该模型已通过跃问APP向公众开放免费使用,开发者可通过Gitcode仓库获取完整代码与训练权重。

同步开源的Step-Audio模型则构建了实时语音交互的全栈解决方案。该系统支持情绪模拟、方言识别、多语种转换及角色音色复刻等高级功能,在"十级难度绕口令"测试中展现出98%的识别准确率。特别值得注意的是其工具调用能力,可在语音对话过程中实时联动搜索引擎与知识库,这一特性使其在智能硬件、AI玩具等消费场景具备独特优势。

截图清晰展示了HuggingFace对开源许可证的特别标注。MIT协议的采用意味着开发者可自由商用这两项技术,极大降低了AI硬件产品的技术门槛,为语音交互玩具、智能座舱系统等领域带来创新可能。

为全面评估语音模型性能,阶跃星辰创新构建了StepEval-Audio-360评测体系,从角色扮演、逻辑推理、文字游戏等9个维度进行全方位考核。结果显示,Step-Audio在"情绪语音生成"项目中获得89分(满分100),其复刻的"闺蜜悄悄话"语音样本被测试者评为"情感还原度超越真人录音"。该模型现已开放HuggingFace空间体验,技术报告详细披露了130亿参数模型的训练策略与优化细节。

成立仅22个月的阶跃星辰,已累计发布11款多模态模型,形成覆盖图像理解、视频生成、语音交互的完整技术矩阵。这种"平均每2个月一新作"的研发速度,使其成为业内公认的"多模态卷王"。麻省理工科技评论最新报告将其与智谱AI、面壁智能等并列为"DeepSeek之外值得关注的中国AI力量",认为这些企业正共同推动中国大模型技术从单点突破迈向系统创新。

在开源协议选择上,阶跃星辰采用最宽松的MIT许可证,允许商业使用与二次开发,仅要求保留原始版权声明。这种开放态度与DeepSeek的技术理想主义形成呼应,共同诠释着"让顶尖AI技术真正创造价值"的行业命题。随着Step-Video-T2V与Step-Audio的开源,中国多模态技术正从实验室走向产业应用,为智能汽车、内容创作、消费电子等领域注入新的发展动能。

当前AI行业正处于多模态融合的关键节点,视频与语音技术的突破将加速人机交互范式的革新。阶跃星辰通过持续开源构建的技术生态,不仅降低了创新门槛,更培养了本土AI人才的实践土壤。正如业内专家所言:"当DeepSeek的推理能力遇上阶跃的多模态技术,中国AI正形成群星闪耀的技术矩阵,这才是真正的星辰大海。"

【免费下载链接】stepvideo-t2v项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/79783/

相关文章:

  • 2025-12-13:十六进制和三十六进制转化。用go语言,给定一个整数 n,先求它的平方并把该值用大写字母的 16 进制表示(符号位按需处理,数位使用 0–9 与 A–F),再求它的立方并将该值用大
  • 39、Linux内核内存管理:固定映射地址与ioremap解析
  • 40、Linux内核内存管理与控制组机制详解
  • 昆仑万维发布Skywork-SWE代码智能体基座模型,32B规模刷新仓库级修复能力纪录
  • 万象EXCEL应用(二十) Excel收入支出日记账台帐报表——东方仙盟炼气期
  • 重磅发布:Qwen3-VL-8B-Instruct-FP8模型震撼登场,开启多模态AI应用新纪元
  • 12、Linux 网络中的 BPF 应用与数据包过滤
  • 30亿参数打破性能桎梏:SmolLM3开放模型如何重塑轻量级AI应用生态
  • ollama v0.13.3 最新发布:新增模型与功能优化详细解读
  • 2.5亿参数破局多模态困境:ModernVBERT重塑视觉文档检索技术边界
  • GLM-4.5-Air横空出世:混合推理技术开启开源大模型商用新纪元
  • 论文阅读:AAAI 2026 Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision
  • Unsloth Dynamic 2.0量化技术:重新定义大模型部署效率与精度边界
  • OpenAI发布Whisper Turbo模型:本地语音处理效率提升5.4倍,多语言翻译能力再突破
  • 智谱AI大模型全面免费开放:AI普惠时代正式开启
  • 终极百度网盘加速指南:免费实现快速下载的完整教程
  • 38、互联网邮件安全与Web服务器安全综合指南
  • Ring-1T重磅发布:万亿参数思维模型开启开源推理新纪元
  • 百度开源再放大招:ERNIE-4.5-VL-28B-A3B-Thinking颠覆多模态AI认知边界
  • 40、网站内容与安全全解析
  • 机器学习进阶<11>基于集成学习的多源数据融合的电商用户购买行为预测系统
  • 42、保障 Web 服务器安全:数据库访问、认证与访问控制全解析
  • 终极百度网盘下载解析工具:简单三步实现高速下载
  • 43、保障Web与文件服务安全:技术、挑战与应对策略
  • Windows右键菜单终极优化指南:5个技巧让系统飞起来
  • C++--哈希封装my_unordered_set和my_unordered_map
  • 44、FTP安全指南与服务器配置解析
  • 一个卷积后就做池化还是多个卷积后做池化?
  • 47、安全文件服务配置指南
  • 智谱AI开源GLM-4-9B-Chat-1M:突破200万中文字符上下文壁垒,多模态能力引领行业新标杆