1-Bit Bonsai Image 4B:仅 0.93GB 的本地图像生成模型,手机也能跑
1-Bit Bonsai Image 4B:仅 0.93GB 的本地图像生成模型,手机也能跑
2026 年 5 月 26 日,PrismML 发布了Bonsai Image 4B系列——一组极致压缩的图像生成模型,能在 iPhone、笔记本等本地设备上流畅运行扩散推理。这个项目在 Hacker News 上获得了 260+ 分的热度,技术社区反响强烈。
核心亮点:将 16GB 模型压缩到 1GB
Bonsai Image 4B 基于 FLUX.2 Klein 4B 架构,但做了根本性的改变——将 transformer 权重量化为二值(binary)和三值(ternary)表示:
| 模型 | Diffusion Transformer 体积 | 对比 FP16 缩小 |
|---|---|---|
| FLUX.2 Klein 4B(原始) | 7.75 GB | 1.0x |
| 1-bit Bonsai Image 4B | 0.93 GB | 8.3x |
| Ternary Bonsai Image 4B | 1.21 GB | 6.4x |
1-bit 版本使用 {-1, +1} 二值权重 + FP16 group-wise scaling factor,有效 1.125 bits/weight。Ternary 版本使用 {-1, 0, +1} 三值权重,有效 1.71 bits/weight,额外零状态带来更好的表示灵活性。
本地部署:手机端首次实现 4B 级图像生成
这是目前已知首个能在iPhone 上直接运行的 4B 参数级图像模型。
完整部署包(含压缩后的 text encoder 和 FP16 VAE):1-bit 版本 3.42 GB,Ternary 版本 3.88 GB。对比之下,原始 FLUX.2 Klein 4B 需要 15.97 GB。
关键运行时内存占用:
- 512×512 图像生成:1-bit 平均 1.5 GB,Ternary 平均 1.96 GB(原始 FLUX 需要 11.74 GB,缩小 7.8x)
- 1024×1024 图像生成:1-bit 平均 1.95 GB,Ternary 平均 2.38 GB(原始 FLUX 需要 14.39 GB,缩小 7.4x)
推理速度实测
Bonsai Image 4B 生成 512×512 图像的速度:
- iPhone 17 Pro Max:约 9.4 秒
- Mac M4 Pro:约 6 秒(比原始全精度 MFLUX pipeline 快 5.6x)
支持的硬件与部署栈
- Apple Silicon(iPhone、iPad、Mac):通过 MLX low-bit 路径
- NVIDIA CUDA GPU:通过 Gemlite low-bit GEMM kernels
- 推理时 text encoder 可在 prompt 编码后卸载,降低峰值内存
模型质量评估
PrismML 在三个基准上做了评估:
| 基准 | 测试内容 | 结果 |
|---|---|---|
| GenEval | 物体组合与属性绑定 | 与 FLUX.2 Klein 4B 接近 |
| HPSv3 | 人类偏好与美学质量 | 质量可接受 |
| DPG-Bench | 密集 prompt 遵循度 | 语义忠实度良好 |
主观对比显示,1-bit 版本在细节丰富度上有所损失,但主体结构和 prompt 遵循度保持良好。Ternary 版本因零状态的引入,在质量上更接近原始模型。
对开发者和 AI 应用的意义
Bonsai Image 4B 代表了一个重要趋势:大规模模型正变得足够小,可以在你的口袋里运行。
这对 AI 应用开发者意味着什么:
- 隐私优先:图像生成完全在本地完成,用户数据不出设备
- 零 API 成本:无需调用云端 API,推理成本趋近于零
- 离线可用:无网络环境也能生成高质量图像
- 低延迟:手机端 9 秒生成,体验接近原生应用
PrismML 表示将开放模型权重,开发者可以将其集成到自己的应用中。对于关注 AI + 移动端的团队来说,这是一个值得密切跟踪的项目。
总结
1-bit 和 Ternary 量化技术让 4B 参数级别的图像生成模型首次在手机上落地。这不仅是技术突破,更是 AI 应用从"云端依赖"走向"端侧原生"的一个里程碑。开源权重 + 本地运行 + 快速推理的组合,将催生新一代移动端 AI 创作工具。
如果你对这个方向感兴趣,可以关注 PrismML 的后续发布。我正在做的一个在线工具站 zidongai.com.cn 也在关注端侧 AI 部署的最新进展,欢迎交流。
