当前位置：首页 > news >正文

1-Bit Bonsai Image 4B：仅 0.93GB 的本地图像生成模型，手机也能跑

news 2026/7/30 16:29:16

1-Bit Bonsai Image 4B：仅 0.93GB 的本地图像生成模型，手机也能跑

2026 年 5 月 26 日，PrismML 发布了Bonsai Image 4B系列——一组极致压缩的图像生成模型，能在 iPhone、笔记本等本地设备上流畅运行扩散推理。这个项目在 Hacker News 上获得了 260+ 分的热度，技术社区反响强烈。

核心亮点：将 16GB 模型压缩到 1GB

Bonsai Image 4B 基于 FLUX.2 Klein 4B 架构，但做了根本性的改变——将 transformer 权重量化为二值（binary）和三值（ternary）表示：

模型	Diffusion Transformer 体积	对比 FP16 缩小
FLUX.2 Klein 4B（原始）	7.75 GB	1.0x
1-bit Bonsai Image 4B	0.93 GB	8.3x
Ternary Bonsai Image 4B	1.21 GB	6.4x

1-bit 版本使用 {-1, +1} 二值权重 + FP16 group-wise scaling factor，有效 1.125 bits/weight。Ternary 版本使用 {-1, 0, +1} 三值权重，有效 1.71 bits/weight，额外零状态带来更好的表示灵活性。

本地部署：手机端首次实现 4B 级图像生成

这是目前已知首个能在iPhone 上直接运行的 4B 参数级图像模型。

完整部署包（含压缩后的 text encoder 和 FP16 VAE）：1-bit 版本 3.42 GB，Ternary 版本 3.88 GB。对比之下，原始 FLUX.2 Klein 4B 需要 15.97 GB。

关键运行时内存占用：

512×512 图像生成：1-bit 平均 1.5 GB，Ternary 平均 1.96 GB（原始 FLUX 需要 11.74 GB，缩小 7.8x）
1024×1024 图像生成：1-bit 平均 1.95 GB，Ternary 平均 2.38 GB（原始 FLUX 需要 14.39 GB，缩小 7.4x）

推理速度实测

Bonsai Image 4B 生成 512×512 图像的速度：

iPhone 17 Pro Max：约 9.4 秒
Mac M4 Pro：约 6 秒（比原始全精度 MFLUX pipeline 快 5.6x）

支持的硬件与部署栈

Apple Silicon（iPhone、iPad、Mac）：通过 MLX low-bit 路径
NVIDIA CUDA GPU：通过 Gemlite low-bit GEMM kernels
推理时 text encoder 可在 prompt 编码后卸载，降低峰值内存

模型质量评估

PrismML 在三个基准上做了评估：

基准	测试内容	结果
GenEval	物体组合与属性绑定	与 FLUX.2 Klein 4B 接近
HPSv3	人类偏好与美学质量	质量可接受
DPG-Bench	密集 prompt 遵循度	语义忠实度良好

主观对比显示，1-bit 版本在细节丰富度上有所损失，但主体结构和 prompt 遵循度保持良好。Ternary 版本因零状态的引入，在质量上更接近原始模型。

对开发者和 AI 应用的意义

Bonsai Image 4B 代表了一个重要趋势：大规模模型正变得足够小，可以在你的口袋里运行。

这对 AI 应用开发者意味着什么：

隐私优先：图像生成完全在本地完成，用户数据不出设备
零 API 成本：无需调用云端 API，推理成本趋近于零
离线可用：无网络环境也能生成高质量图像
低延迟：手机端 9 秒生成，体验接近原生应用

PrismML 表示将开放模型权重，开发者可以将其集成到自己的应用中。对于关注 AI + 移动端的团队来说，这是一个值得密切跟踪的项目。

总结

1-bit 和 Ternary 量化技术让 4B 参数级别的图像生成模型首次在手机上落地。这不仅是技术突破，更是 AI 应用从"云端依赖"走向"端侧原生"的一个里程碑。开源权重 + 本地运行 + 快速推理的组合，将催生新一代移动端 AI 创作工具。

如果你对这个方向感兴趣，可以关注 PrismML 的后续发布。我正在做的一个在线工具站 zidongai.com.cn 也在关注端侧 AI 部署的最新进展，欢迎交流。

http://www.jsqmd.com/news/932840/

相关文章：

终极语音转字幕工具：5分钟快速实现视频自动字幕生成

Hy-MT2-1.8B-1.25Bit-GGUF性能评测：超越主流商业API的轻量级翻译神器

LongCat-Flash-Lite-FP8未来发展方向：技术路线图与社区发展计划

WechatDecrypt实战指南：微信数据库AES-256-CBC加密深度解析与完整解决方案

深入剖析MySQL InnoDB引擎底层针对Redis布隆过滤器防止缓存穿透的锁竞争与死锁检测内幕

GTA5线上小助手：5大核心功能彻底改变你的洛圣都体验

10个实用场景！bge-large-en-v1.5-openmind在检索增强与语义搜索中的创新应用

ELAA近场信道估计：技术挑战与创新解决方案

解决java.security.InvalidKeyException: Illegal key size

Ubuntu 20.04上从零复现A-Loam：我踩过的那些坑和最终解决方案

Windows Server 2016评估版总自动关机？别慌，用DISM命令换个正式版序列号就搞定

字典Dictionary

如何让微信聊天记录成为你的数字人生档案馆？WeChatMsg完整使用指南

如何快速获取完美歌词同步：163MusicLyrics开源工具完全指南

Sora 2体育视频生成正在淘汰传统转播车？：2024东京奥运会预演数据显示——单场赛事成本下降68%，但需在48小时内完成这6项合规改造

Sora 2商业广告落地指南（企业级合规+ROI可量化版）

从零开始：如何在电脑上完美运行Switch游戏的5步指南

CFnew插件系统：如何开发自定义插件

JSCPC现场赛生存手册：从Ubuntu命令行编译到看气球颜色‘抄作业’

ToDesk Linux客户端配置全解析：手把手教你读懂config.ini，管理连接密码与安全设置

从鸡尾酒会到脑电波：用Python和ICA算法实战盲信号分离（保姆级教程）

第一次打JSCPC（江苏省赛）是种什么体验？给新手小白的5点避坑指南

Odysseus AI工作空间10大核心功能详解：从聊天到深度研究的完整套件

CryptoSRAM：物联网安全加密的内存计算新范式

EhViewer开源漫画应用完整指南：从入门到精通的四步进阶

Python模拟詹姆斯韦伯太空望远镜

2026年6月业内推荐：探访温州专业高端笔记本定制制造厂臻冠文具 - 2026年企业资讯

Windows和Ubuntu共享键鼠，Barrier连接报错‘failed to connect secure socket’的保姆级修复指南

终极高效音乐歌单迁移攻略：3分钟实现多平台数据无缝流转

Boss Show Time：打破求职信息壁垒，让招聘时间一目了然的智能插件