当前位置: 首页 > news >正文

Flux 2:并不惊艳,但可能是开源图像模型的重要转折点

大概在一个月前,Black Forest Labs 发布了他们最新的图像模型Flux 2。 和之前的 Flux 1、Flux Context 相比,这一次的发布在互联网上的声量并不算高。

原因其实也不复杂——在 Flux 2 发布之前,Nano Banana 2已经抢走了几乎所有注意力。作为一个图像生成与编辑模型,Nano Banana 2 的效果确实非常惊艳,相比之下,Flux 2 在使用层面并没有给人同样强烈的第一印象。

但即便如此,我依然觉得Flux 2 值得被认真讨论一次。 原因在于,Black Forest Labs 这家公司,在我看来一直有点像这个行业里的“标准制定者”。他们做出的很多架构选择,往往会在之后被研究人员和开发者不断复用、演化。

这篇文章想做的事情,就是尝试回答三个问题:

  • Flux 2 背后到底是一项什么样的技术?
  • 它在当前图像生成模型体系中处在什么位置?
  • 它对未来的产品与研究,可能意味着什么?

如果有想尝试 Flux 2 的同学,可以直接租用晨涧云算力平台的Flux-ComfyUI云容器,记得选2-xxx的版本是 Flux 2。


总体的判断:Flux 2 不是好用的产品,但是一项扎实的研究

如果用一句话来总结我对 Flux 2 的感受,那就是:

它并不是一个成熟、好用的图像生成或图像编辑产品,但它的确是一项非常扎实的研究工作。

现在再回头看图像生成模型,我们对它的期待早就变了。 一年前的标准是:

“只要能通过文本生成一张还不错的图像,就已经很厉害了。”

而今天,我们的要求是:

  • 你是否能真正理解人的意图
  • 你是否能进行精准、可控的编辑
  • 你是否能在生成之外,完成复杂的修改任务

生成和编辑,本质上就是两类完全不同的需求,而编辑的难度远远高于生成

在这些方面,Flux 2 的表现并不理想:

  • 某些场景下,生成的图像“塑料感”偏重,存在不自然的高光
  • 图像编辑能力,甚至不如上一代Flux Context
  • Flux Context 能做到的精准编辑,在 Flux 2 中反而退步了

再加上 Nano Banana 2 抢先发布,很容易给人一种错觉:

曾经走在行业前面的角色,这次被别人超过了。

这些问题都是客观存在的。


那为什么还说 Flux 2 是一项重要的研究?

原因主要有两个。

第一,它是完全开源的

Flux 2 并不是一个只给结果、不讲过程的模型。 从代码到架构,从训练方式到模块设计,所有东西都是透明的

你可以:

  • 自己跑模型
  • 自己看代码
  • 清楚地理解它的设计取舍

在今天这个阶段,单这一点就已经非常难得。


第二,它解决了一个长期存在的核心问题:Scaling Law 的断点

在图像生成领域,一个长期困扰研究者的问题是:

大语言模型 + Diffusion 模型,为什么很难一起稳定地“变大”?

如果你观察当前表现较好的模型,比如 Qwen Image、Qwen Image Edit,会发现一个共同点:

  • 它们使用的大语言模型,基本都停留在7B 规模
  • 很少有人成功把这个规模继续往上拉

不是不想,而是拉不上去

当人们尝试用更大的语言模型(比如 13B、24B)去和 Diffusion 模型联合训练时,往往会遇到:

  • 训练不稳定
  • loss 发散
  • 模型无法继续有效学习

Flux 2 把这个规模,从 7B 推到了 24B,并且成功训练了出来。 这是一个实实在在的突破。


Flux 2 相比 Flux 1 的主要变化

1. DiT 骨架的调整,但不是决定性因素

在 Diffusion Transformer(DiT)结构上,Flux 2 做了一些调整:

  • Single-streaming block 数量显著增加
  • 对应地,原先的 double-streaming block 数量减少

如果你去看代码,会发现 single transformer block 有四十多个。

但从我自己做过的一些 DiT 实验来看,这类调整更多是工程经验驱动的结果,而不是明确的理论结论。

DiT 本身依然是一个高度黑盒的系统:

  • 很难精确说清楚某一层负责学习什么
  • 模块配比往往只能通过实验不断试错

因此,这部分变化并不是 Flux 2 的核心创新。


2. 用 VLM 完全替换 T5 Encoder

真正重要的变化在于两点。

第一点,是用 VLM(视觉语言模型)完全替换了原本的 T5 Encoder

这件事本身并不新鲜。 当前几乎所有主流图像生成或编辑模型,都已经引入了视觉模块,例如 Qwen Image 使用的就是 Qwen 自家的 VLM。

Flux 2 的关键不在“用了 VLM”,而在于:

它成功训练了一个 24B 规模的 VLM,并把它稳定接入了 Diffusion 体系。

3. Flux 2 VAE:真正的关键突破

我认为,Flux 2最有价值的创新,其实在于它新的 VAE 设计

要理解这一点,我们需要先回到一个基础问题。


为什么 VAE 会限制大模型的规模?

在图像生成训练中,我们并不是直接用原始图片,而是:

  1. 通过 VAE 对图片进行压缩
  2. 在 latent space 中进行 Diffusion 训练
  3. 再通过 decoder 还原成最终图像

VAE 的目标只有两个:

  • 压缩得足够小
  • 重建得尽可能像原图

它并不关心压缩后的表示是否“适合学习”。

这就会导致一个问题:

  • 小模型对 latent 中的噪声不敏感
  • 模型变大后,反而开始“看见”这些噪声
  • 噪声被当成信号,训练随之变得不稳定

于是,人们逐渐意识到:

VAE 产生的中间表示,本身可能存在“可学习性上限”。

什么样的信号是大语言模型喜欢的?

从经验来看,大语言模型更擅长处理:

  • 结构化
  • 有逻辑关系
  • 可归纳的表征

例如:

  • 文本 token
  • 明确的空间关系
  • 对象层级与位置关系

像 DINOv2 这类模型,本质上就在做一件事: 把图像转化为一种包含结构与关系的表征


Flux 2 的思路:让 VAE 同时学会“重建”和“表征”

Flux 2 的核心思路并不复杂:

在训练 VAE 的时候,引入额外的表征约束(类似 DINOv2 的信号)。

这样一来,VAE 的 latent space 就不只是“能还原”,而是:

  • 更有结构
  • 更有顺序
  • 更适合被大语言模型理解

这和一些近期论文中的做法高度一致—— 在 DiT 训练中加入额外的 representation loss,显著提升训练效率。

Flux 2 正是沿着这条路径,对 VAE 的训练方式进行了系统优化,最终让:

  • 大语言模型规模从 7B 提升到 24B
  • 联合训练依然保持稳定

为什么 Flux 2 看起来“像个玩具”?

原因其实很现实。

Flux 2 并没有花大量算力,去做大规模的微调和对齐:

  • 图像一致性
  • 编辑精度
  • 产品级体验

这些都不是它的重点。

它更像是在说:

“这条工程路线是可行的,你们可以继续往前走。”

一点个人的延伸理解

这也让我重新理解了,为什么 OpenAI 和 Google 能够做出当前最强的图像生成模型。

他们做的事情很简单,也很残酷:

  • 把 VAE
  • 把大语言模型
  • 把 Diffusion 骨架
  • 一起联合训练
  • 用海量算力不断迭代

算力本身,就是一种研究工具。

Flux 2 则是在用论文和开源代码告诉社区:如果你没有那么多算力,工程上可以怎么做。


结语:黎明前的哨声

所以,不要只因为 Flux 2 在产品层面不够亮眼,就低估它的意义。

在我看来,它更像是:

开源图像生成社区,黎明前的一声哨响。

随着 VAE 表征能力的持续提升(比如 DINOv3 之后的工作), 图像生成模型的上限,显然还远没有到头。

我相信,用不了太久,开源社区的模型,会再次追上那些当前看起来“不可战胜”的闭源产品。

http://www.jsqmd.com/news/165834/

相关文章:

  • highgo DB中数据库对象,模式,用户,权限之间的关系
  • Inter的电脑使用GPU加速训练
  • Docker Network网络模式:Miniconda-Python3.9镜像容器通信配置
  • 摄像机实况画面条纹问题排查指导
  • 永磁同步电机Matlab/Simulink仿真模型探索
  • 2026年AI人才“定价权”争夺战:掌握大模型核心算法,你就是在定义市场薪资上限!
  • 零基础速成:3天掌握Java与JS开发基础(基础部分)
  • 2025年技术领域大火!大模型应用开发工程师成为最火岗位,平均月薪高达30K+。2026年,抓住机遇入局,成为下一个技术界明星!
  • RADI-5.15-5.25-SMT-2WR-20WPK-R25,20 W的微波隔离器, 现货库存
  • 2025年塑料菱形网机器口碑排名:山东通佳机械产品质量稳定吗? - 工业设备
  • 计算机毕业设计springboot对于股票实时信息系统 基于SpringBoot的证券行情实时监测与交易辅助平台 融合SpringBoot框架的股市动态信息实时推送系统
  • SSH连接拒绝Connection refused?Miniconda-Python3.9镜像sshd服务检查
  • 2025保丽鑫手机保护膜凭啥出圈,手机保护膜源头工厂全解析 - 栗子测评
  • AppSpider 7.5.023 发布 - Web 应用程序安全测试
  • 计算机毕业设计springboot少儿体能训练在线课程预约管理系统 基于SpringBoot的青少年体质提升在线课程预约平台 SpringBoot驱动的儿童运动训练课程智能预约系统
  • 2025年离心玻璃棉板厂家权威推荐榜单:超细玻璃棉板/复合玻璃棉板/保温玻璃棉板/保温玻璃棉卷毡/大棚玻璃棉卷毡/硅酸铝毡/硅酸铝纤维毡源头厂家精选。 - 品牌推荐官
  • 昨天面试了一位测试人员,一面面试官总体的评价是:这个人看他侃侃而谈的,有点把握不准,你看看。这位测试应聘者来自大厂,总共9年的工作经验,在上一家公司干了8年,一直从事测试工作,在不同的部门和业务线1
  • GitHub热门项目推荐:基于Miniconda-Python3.9的AI实验复现仓库
  • 2025年固态继电器厂家推荐榜:多路/直流/单相/三相/交流固态继电器全系覆盖 - 品牌推荐官
  • 昨天面试了一位测试人员,一面面试官总体的评价是:这个人看他侃侃而谈的,有点把握不准,你看看。这位测试应聘者来自大厂,总共9年的工作经验,在上一家公司干了8年,一直从事测试工作,在不同的部门和业务线都
  • 告别选厂难!2025杭州卡布灯箱工厂优选 - 栗子测评
  • 必藏!5种大模型Agent工作流模式,告别乱七八糟的提示词,稳定输出高质量结果
  • 2025金刚钻石膜选哪家?这份切割膜厂家推荐助你轻松挑 - 栗子测评
  • 有效修复 Google Photos 备份卡住问题
  • 2025年空气弹簧/电磁式/薄膜式/主动式/气浮减震器推荐:北京恒帆减振科技全系产品解决方案 - 品牌推荐官
  • HTML Canvas绘图交互:Miniconda-Python3.9镜像Bokeh可视化库
  • 运维系列数据库系列【仅供参考】:达梦数据库:dokcer安装dm8-2
  • 2025led食人鱼灯珠哪家好?专业视角深度评测与推荐 - 栗子测评
  • 2026年中国领先战略咨询公司/管理咨询公司/企业咨询培训公司/品牌咨询公司/营销咨询公司盘点 - 栗子测评
  • 自由编辑+AI 赋能:ChatPPT与Nano Banana Pro的创作革命