当前位置：首页 > news >正文

何恺明加入谷歌最新力作Vision Banana：通用视觉模型，刷新2D/3D多项SOTA！

news 2026/6/26 12:12:01

来源：量子位

一个Banana不够，再来一个！

谷歌DeepMind以Nano Banana Pro为底座，最新发布~~通用版香蕉~~通用多模态视觉大模型Vision Banana——

何恺明、谢赛宁参与，证明图像生成预训练，可以成为通用视觉学习的统一范式。

一个通用模型，零样本迁移下，击败SAM 3、Depth Anything 3等专用模型，分割、深度、法线核心任务刷新多项SOTA。

就像LLM用文本生成统一所有NLP任务一样，视觉领域的LLM时刻，可能真的来了。

谢赛宁表示，作为一个从像素级标注任务（例如分割、边缘、深度或表面法线）开始接触计算机视觉的人，看到这种成果会真切感受到：

领域正发生重大变革，Vision Banana将彻底改写这类视觉问题的解决方式。

用 “指令微调 + 生成接口” 统一全视觉任务

文生图、图像编辑等生成模型一路狂飙，画质越来越逼真、语义越来越精致，但学界始终悬着一个问题：

能精准创造视觉内容的模型，真的懂视觉世界吗？

这就好比NLP领域早期的质疑：能生成文本的模型，真的理解语言吗？

AI发展到现在，LLM用事实证明，生成预训练本身就是最好的理解训练。

语言模型在生成文本的过程中，自然学会了语法、语义、推理、知识。

那视觉领域呢？

过去的视觉研究，大多走判别式学习路线，监督判别学习、对比学习、自举学习、自编码……几乎都不属于生成式建模。

分类、检测、分割、深度估计各搞一套架构、各用一批数据，模型专精但不通用。

而Vision Banana的回答是：

图像生成模型早就悄悄学会了理解视觉世界，只是没人教它怎么把理解结果输出出来。

它彻底换了一条路：用生成式思路，把所有视觉感知任务统一成一件事。

Vision Banana以谷歌自研生成基座Nano Banana Pro为底座，仅用轻量指令微调，把分割、深度估计、表面法线等所有感知任务，统一成生成可解码RGB图像这一件事。

具体实现分三步。

第一步，用自然语言提示指定输出格式。

Vision Banana继承了生成模型的多模态能力，能轻松听懂人话。

比如直接告诉它“猫用黄色 (255,255,0) 标记，背景用黑色”，或是给一段JSON颜色映射，它都能准确理解并执行。

这个能力直接来自Nano Banana Pro的多模态理解，生成模型在训练过程中学会了关联文本和图像，现在只需要教它把理解结果也输出成图像。

第二步，设计可反向解码的RGB编码。

所有感知结果（分割、深度、法线）都被编码成一张普通RGB图，而且编码是可逆的。

法线估计最简单，单位向量(−1到1)直接线性映射到RGB(0到255)。

语义分割更直观，每个类别指定一个颜色，模型生成涂色图，解码时通过颜色匹配聚类得到mask。

实例分割稍有不同，因为实例数量未知，无法在提示中预先分配颜色。Vision Banana采用逐类推理策略，每次只分割一个类别，模型自动给不同实例分配不同颜色。

最精巧的是深度估计，把无限大的深度值，先压缩映射到0~1区间，再对应到RGB颜色，做到一个深度值对应唯一颜色，一个颜色也能精准还原回深度值，没有信息损失。

第三步，轻量指令微调。

只需要在Nano Banana Pro原本的训练数据里，少量混入视觉任务数据，就能完成对齐。

这种轻量微调带来三大优势：

一套权重通吃所有任务，只需要换指令就能切换任务；
不需要大量新增标注数据，训练成本极低；
完全不损失原本的文生图、图像编辑能力。

在官方给出的实例中可以看出，模型通过文本提示为不同物体设定专属颜色编码，依靠色彩映射规则，生成对应的语义分割可视化图像。

那为什么这个思路有效呢？

就像生成式预训练在生成文本的过程中学会了语法和推理，图像生成模型在生成像素的过程中学会了物体边界、深度关系、几何结构。

这些表征一直存在于模型内部，只是没有合适的接口释放出来。

更重要的是，生成建模天然解决多模态问题。

很多视觉任务是一对多的。同一个输入，可能有多种合理的输出。

比如深度估计，一个像素的深度有内在模糊性。判别式模型为了避免输出模糊，需要设计专门的架构和loss。

SAM甚至只对一个mask施加loss，忽略其他候选。

而生成模型天然学习完整的数据分布。

LLM用文本生成统一了理解、翻译、摘要、推理等所有NLP任务。

Vision Banana 则证明：图像生成，可以成为视觉领域的统一接口。

2D+3D通吃

这套极简方案在权威基准上全面碾压专业模型，且全程零样本迁移——

训练时完全不碰测试集数据，深度估计连相机内参都不用。

首先，在2D理解上，语义分割mIoU 0.699，超越SAM 3；指代分割双双刷新零样本SOTA；实例分割与DINO-X持平，处于第一梯队。

然后，在3D理解上，Vision Banana打出了更让人意外的成绩，深度估计、法线估计双双刷新SOTA。

这里有个关键细节：Vision Banana训练和推理都不需要相机内参。

所有SOTA深度模型，DepthLM、Depth Anything V3、Depth Pro、UniK3D、MoGe-2至少在训练时需要相机内参。

而Vision Banana纯靠视觉先验。

轻量微调完全没丢生成能力。

GenAI-Bench上对Nano Banana Pro胜率53.5%，ImgEdit上胜率47.8%。

Vision Banana在保持原生成模型能力的同时，把感知任务也吃下了。

一个模型，生成+理解，全都要。

就像NLP领域的生成式预训练路线改变了所有语言任务的实现方式，视觉领域可能正在迎来同样的范式转变。

团队介绍

Vision Banana整项工作共有25位研究者共同参与。

由Valentin Gabeur、Shangbang Long、Songyou Peng三位核心作者共同领衔。

Valentin Gabeur，Google DeepMind研究员，专攻多模态学习。Meta AI博士后出身，也是SAM 2的共同一作。

Inria博士，曾拿过CVPR 2020 Video Pentathlon挑战赛冠军。

有意思的是，他转行AI前是机械工程师，在工业自动化领域干了6年。

Shangbang Long，北京大学校友，Google DeepMind研究员，专攻识别、检测、分割。

CMU硕士出身，参与了Gemini Robotics、Genie 2等核心项目。

深耕OCR与文档场景理解，代表作TextSnake在场景文本检测领域极具影响力。

Songyou Peng（彭崧猷），西安交通大学校友，Google DeepMind研究科学家，长期深耕3D视觉方向。

负责了Gemini和Nano Banana多模态理解和生成，在NeRF、三维重建等领域产出多项高影响力成果。

此外，何恺明、谢赛宁作为Leadership Sponsors参与支持这项工作。

项目地址：https://vision-banana.github.io/论文地址：https://arxiv.org/abs/2604.20329参考链接：https://x.com/sainingxie/status/2047339789926429166

查看全文

http://www.jsqmd.com/news/726751/

如何在Windows上快速安装Android应用？APK Installer终极指南

开源职业发展AI技能包Career-Ops：四阶段引擎驱动，告别AI废话

代码胶带：基于模板动态生成代码片段的开发者效率工具

CRAFT框架：无需重训练的文本到图像生成优化技术

从波形编辑到专业混音：Audacity开源音频处理器的进阶实战指南

海棠山铁哥心怀烟火众生，《第一大道》对战《灵魂摆渡・浮生梦》守护平民奋斗信仰

2026年贵阳卤菜加盟与五香卤创业完全指南：正宗地道口味如何选择 - 企业名录优选推荐

2026年贵阳卤菜加盟与五香卤创业指南：正宗地道口味如何选择 - 企业名录优选推荐

测试时工具演化(TTE)原理与应用实践

深圳跨境电商卖家合规避坑：靠谱服务平台怎么选 - 奔跑123

OmniGen2开源多模态生成模型解析与应用实践

Taotoken 官方折扣活动如何为个人项目降低 AI 调用成本

广东省人民医院王亮教授联合香港理工大学马聪教授招聘博士后

MIKE IO终极指南：在Python中高效处理水文数据的完整解决方案

从大兴机场到杭州亚运村：山东美信铝业以“国匠品质”铸就工程信赖 - 速递信息

实时对话与APP播报首选：tts-1-1106 模型场景适配指南

基于ChatGPT的Google搜索增强插件：AI摘要提升信息筛选效率

广州各区企业注意：5家财税公司的区域服务能力对比 - 小征每日分享

产业园数字展厅设计实力榜单成都汉诺会展荣耀上榜 - 速递信息

独立开发者如何利用Taotoken模型广场为不同任务选择性价比最优模型

从实验室到废墟现场：极端特种作业四足机器人多传感融合数据集的工程化突围之路（WORD）

使用Taotoken CLI工具一键配置团队开发环境与模型密钥

别再手动轮询了！用STM32F1的DMA+ADC批量读取8路灰度传感器，效率提升10倍

OpenCrew：构建多智能体AI团队，实现高效任务分工与知识沉淀

颠覆传统！APK安装器让Windows电脑直接运行安卓应用的革命性方案

观察 Taotoken 账单详情追溯各项目 API 调用明细

PyQt6中文教程：7天快速入门Python桌面应用开发

多智能体协作：核心模式与实现解析

2026香港注册公司口碑排行：5家正规机构实力对比 - 奔跑123

2026数字孪生展厅设计企业排名，成都汉诺会展实力领跑 - 速递信息

用 “指令微调 + 生成接口” 统一全视觉任务

2D+3D通吃

团队介绍

相关文章：