当前位置：首页 > news >正文

腾讯HY-OmniWeaving：全能视频生成新突破

news 2026/7/22 6:08:13

腾讯HY-OmniWeaving：全能视频生成新突破

【免费下载链接】HY-OmniWeaving项目地址: https://ai.gitcode.com/tencent_hunyuan/HY-OmniWeaving

导语

腾讯混元团队推出全新视频生成模型HY-OmniWeaving，以"自由组合"与"推理能力"为核心突破，首次实现开源领域中的全能型视频生成，填补了与闭源系统的技术差距。

行业现状

当前AIGC视频生成领域呈现"冰火两重天"的发展态势：一方面，闭源系统如Seedance-2.0已实现多模态输入的视频创作能力；另一方面，开源模型普遍受限于单一任务场景，在多模态融合与复杂逻辑推理上存在明显短板。根据行业研究数据，2025年视频生成市场规模已突破200亿美元，但开源解决方案的市场渗透率不足15%，技术壁垒成为主要瓶颈。

产品/模型亮点

HY-OmniWeaving构建于HunyuanVideo-1.5基础之上，采用创新的"MLLM + MMDiT + VAE"三位一体架构。该模型最显著的突破在于两项核心技术：

首先是激活MLLM思考模式，将传统被动特征提取升级为主动推理机制。通过生成中间推理步骤，模型能自主解析用户意图，将模糊需求转化为精确生成指令。其次是隐藏状态深度堆叠技术，借鉴Qwen3-VL的DeepStacking机制，从MLLM多层网络中提取语义特征，实现从细节到抽象的全粒度语义引导。

这张架构图直观展示了HY-OmniWeaving的技术原理，其中MLLM模块负责语义解析，VAE处理视觉编码，MMDiT实现最终生成。这种设计使模型能同时处理文本、图像和视频输入，为多模态创作奠定基础。

该模型支持八大核心任务，包括文本生成视频(T2V)、关键帧插值、多图组合生成等。特别值得关注的是其组合式多图生成能力，可将2-4张参考图像与文本指令结合，生成语义连贯的视频内容。

这段视频展示了HY-OmniWeaving的文本-视频生成效果。通过简单文字描述，模型不仅准确呈现了汽车内部细节，还实现了自然的手部动作和光影变化，体现了其在动态场景生成上的高精度。

此外，腾讯还同步发布了IntelligentVBench评测基准，这是业内首个全面评估智能视频生成能力的测试集，涵盖从基础质量到复杂推理的多维度评估指标。

行业影响

HY-OmniWeaving的开源发布将显著降低视频创作的技术门槛。在内容生产领域，创作者可通过多模态输入快速实现创意可视化；在电商领域，该技术支持商品的动态展示生成，如奢侈品包的360°旋转展示。

这段商品展示视频展示了HY-OmniWeaving在商业场景的应用价值。模型能根据参考图像和文本指令，生成具有专业品质的产品展示视频，为电商内容创作提供新工具。

从技术生态看，该模型的开源将推动视频生成技术的民主化发展。开发者可基于其架构进行二次创新，加速行业整体技术进步。据腾讯官方数据，模型在开源社区上线48小时内，已获得超过10万次访问和2000+星标。

结论/前瞻

HY-OmniWeaving的推出标志着开源视频生成技术进入"全能时代"。其创新的推理增强机制和多模态融合能力，不仅提升了生成质量，更拓展了AI视频创作的应用边界。随着模型的持续优化和社区生态的发展，我们有理由期待视频内容创作将迎来更高效、更智能的新阶段。未来，随着推理能力的进一步强化，视频生成模型有望从"工具"进化为真正的"创意伙伴"，为各行各业带来颠覆性变革。

【免费下载链接】HY-OmniWeaving项目地址: https://ai.gitcode.com/tencent_hunyuan/HY-OmniWeaving

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/584546/