当前位置: 首页 > news >正文

1-Bit Bonsai Image 4B:仅 0.93GB 的本地图像生成模型,手机也能跑

1-Bit Bonsai Image 4B:仅 0.93GB 的本地图像生成模型,手机也能跑

2026 年 5 月 26 日,PrismML 发布了Bonsai Image 4B系列——一组极致压缩的图像生成模型,能在 iPhone、笔记本等本地设备上流畅运行扩散推理。这个项目在 Hacker News 上获得了 260+ 分的热度,技术社区反响强烈。

核心亮点:将 16GB 模型压缩到 1GB

Bonsai Image 4B 基于 FLUX.2 Klein 4B 架构,但做了根本性的改变——将 transformer 权重量化为二值(binary)和三值(ternary)表示:

模型Diffusion Transformer 体积对比 FP16 缩小
FLUX.2 Klein 4B(原始)7.75 GB1.0x
1-bit Bonsai Image 4B0.93 GB8.3x
Ternary Bonsai Image 4B1.21 GB6.4x

1-bit 版本使用 {-1, +1} 二值权重 + FP16 group-wise scaling factor,有效 1.125 bits/weight。Ternary 版本使用 {-1, 0, +1} 三值权重,有效 1.71 bits/weight,额外零状态带来更好的表示灵活性。

本地部署:手机端首次实现 4B 级图像生成

这是目前已知首个能在iPhone 上直接运行的 4B 参数级图像模型。

完整部署包(含压缩后的 text encoder 和 FP16 VAE):1-bit 版本 3.42 GB,Ternary 版本 3.88 GB。对比之下,原始 FLUX.2 Klein 4B 需要 15.97 GB。

关键运行时内存占用:

  • 512×512 图像生成:1-bit 平均 1.5 GB,Ternary 平均 1.96 GB(原始 FLUX 需要 11.74 GB,缩小 7.8x)
  • 1024×1024 图像生成:1-bit 平均 1.95 GB,Ternary 平均 2.38 GB(原始 FLUX 需要 14.39 GB,缩小 7.4x)

推理速度实测

Bonsai Image 4B 生成 512×512 图像的速度:

  • iPhone 17 Pro Max:约 9.4 秒
  • Mac M4 Pro:约 6 秒(比原始全精度 MFLUX pipeline 快 5.6x)

支持的硬件与部署栈

  • Apple Silicon(iPhone、iPad、Mac):通过 MLX low-bit 路径
  • NVIDIA CUDA GPU:通过 Gemlite low-bit GEMM kernels
  • 推理时 text encoder 可在 prompt 编码后卸载,降低峰值内存

模型质量评估

PrismML 在三个基准上做了评估:

基准测试内容结果
GenEval物体组合与属性绑定与 FLUX.2 Klein 4B 接近
HPSv3人类偏好与美学质量质量可接受
DPG-Bench密集 prompt 遵循度语义忠实度良好

主观对比显示,1-bit 版本在细节丰富度上有所损失,但主体结构和 prompt 遵循度保持良好。Ternary 版本因零状态的引入,在质量上更接近原始模型。

对开发者和 AI 应用的意义

Bonsai Image 4B 代表了一个重要趋势:大规模模型正变得足够小,可以在你的口袋里运行

这对 AI 应用开发者意味着什么:

  1. 隐私优先:图像生成完全在本地完成,用户数据不出设备
  2. 零 API 成本:无需调用云端 API,推理成本趋近于零
  3. 离线可用:无网络环境也能生成高质量图像
  4. 低延迟:手机端 9 秒生成,体验接近原生应用

PrismML 表示将开放模型权重,开发者可以将其集成到自己的应用中。对于关注 AI + 移动端的团队来说,这是一个值得密切跟踪的项目。

总结

1-bit 和 Ternary 量化技术让 4B 参数级别的图像生成模型首次在手机上落地。这不仅是技术突破,更是 AI 应用从"云端依赖"走向"端侧原生"的一个里程碑。开源权重 + 本地运行 + 快速推理的组合,将催生新一代移动端 AI 创作工具。

如果你对这个方向感兴趣,可以关注 PrismML 的后续发布。我正在做的一个在线工具站 zidongai.com.cn 也在关注端侧 AI 部署的最新进展,欢迎交流。

http://www.jsqmd.com/news/932840/

相关文章:

  • 终极语音转字幕工具:5分钟快速实现视频自动字幕生成
  • Hy-MT2-1.8B-1.25Bit-GGUF性能评测:超越主流商业API的轻量级翻译神器
  • LongCat-Flash-Lite-FP8未来发展方向:技术路线图与社区发展计划
  • WechatDecrypt实战指南:微信数据库AES-256-CBC加密深度解析与完整解决方案
  • 深入剖析MySQL InnoDB引擎底层针对Redis布隆过滤器防止缓存穿透的锁竞争与死锁检测内幕
  • GTA5线上小助手:5大核心功能彻底改变你的洛圣都体验
  • 10个实用场景!bge-large-en-v1.5-openmind在检索增强与语义搜索中的创新应用
  • ELAA近场信道估计:技术挑战与创新解决方案
  • 解决java.security.InvalidKeyException: Illegal key size
  • Ubuntu 20.04上从零复现A-Loam:我踩过的那些坑和最终解决方案
  • Windows Server 2016评估版总自动关机?别慌,用DISM命令换个正式版序列号就搞定
  • 字典Dictionary
  • 如何让微信聊天记录成为你的数字人生档案馆?WeChatMsg完整使用指南
  • 如何快速获取完美歌词同步:163MusicLyrics开源工具完全指南
  • Sora 2体育视频生成正在淘汰传统转播车?:2024东京奥运会预演数据显示——单场赛事成本下降68%,但需在48小时内完成这6项合规改造
  • Sora 2商业广告落地指南(企业级合规+ROI可量化版)
  • 从零开始:如何在电脑上完美运行Switch游戏的5步指南
  • CFnew插件系统:如何开发自定义插件
  • JSCPC现场赛生存手册:从Ubuntu命令行编译到看气球颜色‘抄作业’
  • ToDesk Linux客户端配置全解析:手把手教你读懂config.ini,管理连接密码与安全设置
  • 从鸡尾酒会到脑电波:用Python和ICA算法实战盲信号分离(保姆级教程)
  • 第一次打JSCPC(江苏省赛)是种什么体验?给新手小白的5点避坑指南
  • Odysseus AI工作空间10大核心功能详解:从聊天到深度研究的完整套件
  • CryptoSRAM:物联网安全加密的内存计算新范式
  • EhViewer开源漫画应用完整指南:从入门到精通的四步进阶
  • Python模拟詹姆斯韦伯太空望远镜
  • 2026年6月业内推荐:探访温州专业高端笔记本定制制造厂臻冠文具 - 2026年企业资讯
  • Windows和Ubuntu共享键鼠,Barrier连接报错‘failed to connect secure socket’的保姆级修复指南
  • 终极高效音乐歌单迁移攻略:3分钟实现多平台数据无缝流转
  • Boss Show Time:打破求职信息壁垒,让招聘时间一目了然的智能插件