当前位置：首页 > news >正文

【上篇】SenseNova-U1：基于NEO-unify架构统一多模态理解与生成

news 2026/7/24 21:52:29

[2026.05.15]发布 SenseNova-U1-8B-MoT-信息图表 📊，优化信息图表生成功能。详情请参阅 U1信息图表模型，并查看 ✨ 信息图表展示获取100个生成示例。

✨ 点击展开历史动态

[2026.05.10]发布🔥SenseNova-U1技术报告🔥及模型权重SenseNova-U1-A3B-MoT-SFT与SenseNova-U1-A3B-MoT
[2026.05.08]新增GGUF量化检查点和分层卸载VRAM模式，支持低显存单GPU推理。详见高效内存推理。SenseNova-U1-8B-MoT-Merger的GGUF权重已发布于🤗 smthem/SenseNova-U1-8B-MoT-Merger-gguf，特别感谢@smthem贡献量化权重
[2026.05.06]发布SenseNova-U1-8B-MoT-LoRA-8step-V1.0，参考示例脚本
[2026.04.30]发布8步推理模型预览版SenseNova-U1-8B-MoT-8step-preview，该模型在多数情况下图像生成质量接近基础模型（参见对比与现存问题）。测试时需使用推理脚本并添加参数：--cfg_scale 1.0 --num_steps 8
[2026.04.27]首次发布SenseNova-U1-8B-MoT-SFT和SenseNova-U1-8B-MoT权重
[2026.04.27]首次发布SenseNova-U1推理代码

🚀SenseNova U1是新一代原生多模态统一模型系列，在单一架构中实现多模态理解、推理与生成。
它标志着多模态AI的根本范式转变：从模态融合到真正统一。不同于依赖适配器转换模态，SenseNova U1模型原生实现语言与视觉的思维-行动统一。

端到端的像素到语言统一架构，为视觉理解与生成开辟了巨大可能性，支持高效强大的原生多模态理解、生成及交叉推理能力。

SenseNova U1的核心是**NEO-unify**，这是一种基于多模态AI第一性原理设计的新型架构：它消除了视觉编码器（VE）和变分自编码器（VAE），其中像素和单词信息本质上是深度关联的。以下是几个重要特性：

基于这一全新核心架构，SenseNova U1-8B-MoT-信息图（SenseNova U1-8B-MoT的信息图特别增强版）提供了卓越的效率和最先进的信息图性能：

生成延迟与信息图基准测试（BizGenEval、IGenBench）的平均性能对比

通用基准测试中的生成延迟与平均性能对比（OneIG、LongText、CVTG）。

基准性能表现：相较于基础模型SenseNova-U1-8B-MoT，BizGenEval 困难/简单任务得分从39.8 / 61.1提升至46.6 / 65.4（+6.8 / +4.3分），IGenBench 问答准确率/图像理解准确率从51.3 / 4.2跃升至69.5 / 17.0（+18.2 / +12.8分），同时保持稳健的视觉理解能力未出现显著退化。
生成质量：该模型可生成涵盖100余种风格与版式的复杂信息图，具有更优的视觉美学表现与文本渲染能力——包括arXiv式页面等密集小字号文本内容。

模型	BizGenEval 平均分 (困难/简单) ↑	IGenBench 问答准确率↑	IGenBench 图像理解↑	OneIG(英文) ↑	OneIG(中文) ↑
商业模型
Nano-Banana-Pro	76.7 / 93.7	90.6	48.8	58.1	56.8
Nano-Banana-2.0	68.5 / 92.5	85.6	34.4	54.0	54.9
GPT-Image-1.5	35.9 / 81.6	55.0	12.0	-	-
Qwen-Image-2.0	45.5 / 65.8	50.0	3.0	54.1	50.9
Seedream-4.5	30.1 / 66.2	61.0	6.0	56.4	55.0
开源模型
SenseNova-U1-8B-MoT-信息图	46.6 / 65.4	69.5	17.0	55.6	53.3
SenseNova-U1-8B-MoT	39.8 / 61.1	51.3	4.2	54.5	53.8
Z-Image	8.2 / 43.8	30.0	1.0	54.6	53.5
Qwen-Image-2512	6.3 / 41.0	32.2	1.0	53.0	51.5
Qwen-Image	2.8 / 23.8	36.0	0.0	53.9	54.8
Bagel	2.0 / 3.7	4.9	0.0	36.1	37.0