当前位置：首页 > news >正文

SenseNova-U1：NEO-Unify架构——多模态AI的真正统一

news 2026/5/7 21:16:59

1|2|3|4| 5| 6| SenseNova-U1：NEO-Unify架构——多模态AI的真正统一7| 110|111|112|113|

SenseNova-U1：NEO-Unify架构——多模态AI从"集成"走向"真正统一"

114|115|

116| 开源新标杆：一个模型，同时搞定理解与生成117|

118|119|

120|121|

引子：多模态AI的痛点

122|123|

在多模态AI领域，我们长期面临一个困境：

124|125|

126| "理解模型和生成模型是分开的，需要复杂的适配器来桥接。"127|

128|129|

传统方案如 CLIP（理解）+ Stable Diffusion（生成）的组合，虽然能完成任务，但存在明显局限：

130|131|

信息损失：视觉编码器压缩图像，丢失像素级细节
模态割裂：理解和生成各用一套参数，无法真正"理解后再生成"
推理链断裂：无法在生成过程中调用理解能力进行自我修正

136|137|

这不是能力问题，而是架构问题。

138|139|

直到 SenseNova-U1 发布——这个项目把"原生统一多模态"这件事，变成了现实。

140|141|

142|143|

一、项目简介

144|145|

   SenseNova-U1 是商汤科技（SenseTime）开源的新一代原生多模态模型系列，采用 Apache 2.0 协议。147|    

   核心定位： 在单一架构中统一多模态理解、推理与生成，实现从"模态集成"到"真正统一"的范式转变。149|

150|151|

核心特性一览

152|153|154| 155| 156| 157| 158| 159| 160| 161| 162| 163| 164| 165| 166| 167| 168| 169| 170| 171| 172| 173| 174| 175| 176| 177| 178| 179| 180| 181| 182|

特性	说明
架构 NEO-Unify	摒弃视觉编码器（VE）和变分自编码器（VAE），端到端原生统一
理解 SoTA	开源模型中视觉理解性能领先，比肩商用大模型
生成 SoTA	文生图质量优秀，支持信息图、海报、PPT等高密度内容
推理原生交错	单模型单流程生成图文交错内容，支持生活指南、旅行日记等场景
编辑智能修改	支持图像编辑，含时间推理、因果推理、物理推理等高级能力
部署高效	LightLLM + LightX2V 推理栈，H100上2048x2048约9秒

183|184|

185|186|

二、技术架构：NEO-Unify 的设计哲学

187|188|

核心理念：从第一性原理出发

189|190|

NEO-Unify 架构的核心洞察：

191|192|

193| 像素与文字信息本质上深度相关，不需要额外的编码器来"翻译"。194|

195|196|

传统方案依赖：

197|

视觉编码器（VE）：如 CLIP，将图像压缩为向量
变分自编码器（VAE）：如 Stable Diffusion 的潜空间压缩

201|202|

NEO-Unify 彻底摒弃 这两套组件，直接让模型从像素到文字端到端学习。

203|204|

架构分层示意

205|206|

222|223|

精妙之处

224|225|

235|236|

237|238|

三、模型矩阵

239|240|

本次开源了 SenseNova U1 Lite 系列：

241|242|243| 244| 245| 246| 247| 248| 249| 250| 251| 252| 253| 254| 255| 256| 257| 258| 259| 260| 261| 262| 263| 264| 265| 266| 267|

模型	参数量	类型	下载
SenseNova-U1-8B-MoT	8B理解 + 8B生成	密集主干	HuggingFace
SenseNova-U1-8B-MoT-SFT	8B MoT	SFT版本	HuggingFace
SenseNova-U1-A3B-MoT	约3B激活	MoE主干	即将发布

268|269|

训练流程（SFT模型）：

270|

271|理解预热 → 生成预训练 → 统一中期训练 → 统一SFT → RL强化学习272|

273|274|

275|276|

四、核心能力展示

277|278|

1. 文生图（Text-to-Image）

279|280|

支持多种场景：

281|

通用场景：人物、风景、艺术创作
推理生成：根据物理/生物/化学知识生成图像
信息图：海报、PPT、知识图解、简历

286|287|

推理生成示例：

288|

289| 输入："A solution of calcium carbonate reacting with acetic acid"290|

291| 推理过程："反应产生二氧化碳，会有气泡上升..."292|

293| 输出：准确展示化学反应的气泡现象294|

295|296|

2. 图像编辑（Image Editing）

297|298|

不只是简单修改，支持高级推理编辑：

299|300|301| 302| 303| 304| 305| 306| 307| 308| 309| 310| 311| 312| 313| 314| 315| 316| 317| 318| 319| 320| 321|

编辑类型	示例
时间推理	"画出这杯茶一小时后的样子" → 茶汤颜色变深
因果推理	"画出有人长时间坐过后刚站起来的懒人沙发" → 显示凹陷痕迹
物理推理	"将水换成高浓度盐水" → 鸡蛋浮起来
生物推理	"展示水果成熟的样子" → 绿香蕉变黄带斑点

322|323|

3. 原生交错生成（Interleaved Generation）

324|325|

这是 SenseNova-U1 的杀手级能力：

326|327|

328| 单模型、单流程，生成图文交错的内容！329|

330|331|

应用场景：

332|

烹饪教程（步骤文字 + 配图）
旅行日记（叙述 + 照片）
产品说明书（解释 + 示意图）

337|338|

4. 视觉理解（Visual Understanding）

339|340|

VQA能力强劲，支持：

341|

通用问答：图像描述、细节识别
智能体任务：菜单推荐、导航规划

345|346|

347|348|

五、快速开始

349|350|

方式一：在线体验（最简单）

351|352|

访问 SenseNova-Studio，免费在线试用，无需安装。

353|354|

方式二：本地部署

355|356|

环境准备：

357|

358|# 克隆仓库359|git clone https://github.com/OpenSenseNova/SenseNova-U1.git360|cd SenseNova-U1361|362|# 安装依赖（推荐用 uv）363|pip install uv364|uv sync365|

366|367|

文生图示例：

368|

369|python examples/t2i/inference.py \370|    --model_path sensenova/SenseNova-U1-8B-MoT \371|    --prompt "一只橙色的猫在阳光下打盹" \372|    --width 2048 --height 2048 \373|    --cfg_scale 4.0 \374|    --num_steps 50 \375|    --output output.png376|

377|378|

视觉理解示例：

379|

380|python examples/vqa/inference.py \381|    --model_path sensenova/SenseNova-U1-8B-MoT \382|    --image examples/vqa/data/images/menu.jpg \383|    --question "推荐一份适合两个人的晚餐组合" \384|    --max_new_tokens 8192 \385|    --temperature 0.6386|

387|388|

方式三：生产部署（LightLLM + LightX2V）

389|390|

官方推荐的高性能推理栈：

391|392|

393|# Docker 一键部署394|docker pull lightx2v/lightllm_lightx2v:20260407395|396|# H100/H200 性能：2048x2048 约 9秒397|# TP2 + CFG2 配置398|

399|400|

401|402|

六、与同类方案对比

403|404|405| 406| 407| 408| 409| 410| 411| 412| 413| 414| 415| 416| 417| 418| 419| 420| 421| 422| 423| 424| 425| 426| 427| 428| 429| 430| 431| 432| 433| 434| 435| 436| 437| 438| 439| 440|

方案	架构	理解+生成	交错生成	开源
SenseNova-U1	原生统一（无VE/VAE）	一个模型	原生支持	Apache 2.0
CLIP + SD	分离架构	两个模型	不支持	开源
GPT-4V + DALL-E	分离架构	两个模型	不支持	商用API
Emu3	统一架构	一个模型	支持	开源

441|442|

SenseNova-U1 的核心优势：

443|

444| 1. 无VE/VAE → 像素级保真，无信息损失445|
446| 2. 性能双SoTA → 理解和生成均达到开源最佳447|
448| 3. 推理编辑 → 支持时间/因果/物理推理编辑449|
450| 4. 高性价比 → 8B规模，商用级效果451|

452|453|

454|455|

七、当前局限与改进方向

456|457|

458| 理解能力：当前上下文仅支持32K tokens，长序列场景受限459|

460| 人体生成：复杂人体细节、小尺寸人物可能不够精细461|

462| 文字渲染：偶有拼写错误或格式问题，需注意提示词表述463|

464| 交错生成：实验性功能，RL优化尚未完成465|

466|467|

团队正在持续改进，后续将发布更大规模版本。

468|469|

470|471|