深度研究:RAE v2 — 用表示自编码器替代 VAE,扩散模型的下一代架构
RAE (Representation Autoencoders) 全流程深度研究
研究范围: RAE v1 (ImageNet 验证) → RAE v2 (大规模文本到图像生成)
核心论文:
- v1: arXiv:2510.11690 (2025年10月)
- v2: arXiv:2601.16208 (2026年1月)
研究团队: NYU (Saining Xie 组) — Boyang Zheng, Nanye Ma, Shengbang Tong 等
代码: https://github.com/bytetriper/RAE
项目页: https://rae-dit.github.io/ / https://rae-dit.github.io/scale-rae/
一、核心问题:为什么 VAE 不够好?
扩散模型(Diffusion Models)的标配是两阶段训练
