当前位置: 首页 > news >正文

在高通 Hexagon 上运行 BitNet:自定义 1.58 位内核实践

本文最初发表于 ENERZAi 官方网站,已获授权转载。

今天,我们很高兴分享一项团队长期以来所致力于的重要里程碑。ENERZAi 已成功通过 QNN,在高通 QCS6490 Hexagon NPU 上完成了 BitNet(b1.58)2B 模型的部署!

如果上面这句话让你感觉缩写词太多,不用担心。读完这篇文章,你将清楚地理解这件事的意义所在、为何如此之难,以及我们为何认为它预示着边缘设备 AI 能力的一次重要转变。

什么是 BitNet?

在深入探讨硬件部分之前,先来统一一下对 BitNet 的理解。

BitNet 是由微软研究院推出的大语言模型架构,它从根本上重新思考了模型权重的表达方式。BitNet b1.58 将模型中的权重限定为三个可能的值:–1、0 或 +1,即所谓的三值权重(Ternary Weights)。"1.58"这一命名来源于信息论:log?(3) ≈ 1.58,这是从理论上表示三种不同状态所需的最少比特数。

这一架构具有极小的内存占用,非常适合边缘端部署。我们在此前的文章中也对自研的 1.58 位量化工作进行了深入探讨,感兴趣的读者可参考相关内容。

核心挑战:NPU 不原生支持三值运算

BitNet b1.58 是一种以三元值(–1、0、+1)表示的架构,使其异常紧凑,非常适合边缘部署。

然而,包括高通 QNN 在内的大多数 NPU SDK 仅支持标准量化格式,BitNet 的三值运算并不在其支持之列,这意味着开箱即用的情况下,NPU 上根本不存在可执行的路径。

我们的突破:自定义 1.58 位内核

ENERZAi 通过为高通 Hexagon 架构开发自定义 1.58 位内核,成功在高通 QCS6490 Hexagon NPU 上以合理的内存占用和吞吐量运行了 BitNet(b1.58)2B 模型。

这是迈向在 NPU 上运行超过 80 亿参数级别模型这一目标的早期但意义重大的概念验证,而我们认为,这一规模正是实现真正边缘智能所必须达到的。

展望未来

这一成果不仅验证了 BitNet 在 NPU 上运行的可行性,更为未来边缘设备承载更大规模大语言模型奠定了基础。随着 AI 推理逐步向终端设备迁移,对低比特、高效率架构的探索将变得愈发关键。ENERZAi 将持续深耕这一方向,推动边缘 AI 的边界不断向前延伸。

Q&A

Q1:BitNet b1.58 架构的"1.58"是什么意思?

A:BitNet b1.58 中的"1.58"来源于信息论,具体指 log?(3) ≈ 1.58,即从理论上表示三种不同状态(–1、0、+1)所需的最少比特数。BitNet b1.58 将模型权重限定为这三个三元值,极大地压缩了模型体积,使其非常适合在内存资源有限的边缘设备上部署。

Q2:高通 QNN 为什么不能直接支持 BitNet 的三值运算?

A:高通 QNN 等主流 NPU SDK 通常只支持标准量化格式(如 INT8、INT4 等),而 BitNet b1.58 使用的三值权重(–1、0、+1)并不在其原生支持范围之内。因此,开箱即用的情况下,NPU 上根本没有可直接执行 BitNet 三值运算的路径,必须通过开发自定义内核来解决这一问题。

Q3:ENERZAi 是如何解决 BitNet 在高通 Hexagon NPU 上无法运行的问题的?

A:ENERZAi 专门为高通 Hexagon 架构开发了自定义 1.58 位内核,从而绕过了 QNN 不支持三值运算的限制。通过这一方式,团队成功在高通 QCS6490 Hexagon NPU 上以合理的内存占用和吞吐量运行了 BitNet(b1.58)2B 模型,完成了一次具有重要意义的概念验证。

http://www.jsqmd.com/news/943075/

相关文章:

  • 2026年天津律师口碑榜,立足第三者返还财产/婚内过错取证/损害赔偿 - 速递信息
  • SVD图生视频API踩坑记:Fooocus生成的图片如何用OpenCV无损调整到1024x576分辨率?
  • PUBG-Logitech:5步实现基于图像识别的罗技鼠标宏自动压枪系统
  • 2026/6/1
  • 网安学习笔记一阶段02——Windows操作系统
  • 2026聊城市黄金回收白银回收铂金回收店铺哪家好 靠谱门店全区域top推荐及联系方式 - 余生黄金回收
  • Cesium 3D Tiles模型旋转老是不对?可能是坐标系没搞清(绕任意轴旋转实战)
  • 入门吉他选购指南:桶型、材质、工艺对吉他性能的影响
  • 从诊断仪到Python脚本:我是如何用udsoncan库快速搭建一个UDS诊断上位机的
  • 不只是NERDTree:彻底解决Vim终端图标乱码,你的字体可能从一开始就装错了
  • 【Hadoop 10周年】我与Hadoop不得不说的故事
  • 8086与8088单板机接口转换调试笔记(续)
  • 代码阅读方法与最佳实践
  • 罐体倒罐监测 磁翻板液位计十大品牌 设备液位定点监控 - 仪表人叶工
  • 成都西装定制时尚指南:2024年5家潮流店铺深度测评 - 西装爱好者
  • KDiff3终极指南:如何快速掌握免费文件比较与合并工具
  • 别再怕图片被压缩了!用MBRS+DNN给图片加个‘隐形锁’,实测抗JPEG压缩效果
  • LabVIEW上位机+51单片机串口联动控制四相五线步进电机(含ULN2003驱动电路与完整工程文件)
  • 如何使用 Web Worker 多线程计算重新架构现代化前端组件库与核心数据流
  • AI报告审核成检测机构新标配,IACheck助力果蔬检测报告一次合格率大幅提升
  • OpenIPC固件:为海思、君正等主流IP摄像头芯片提供完整开源解决方案
  • DeepONet非线性算子学习终极指南:从零基础到实战应用
  • UniApp插件实战:手把手教你将高德地图SDK封装成安卓原生插件(for HBuilderX 3.8.7)
  • MATLAB数字变频双脚本包:含DDC下变频与DUC上变频完整实现及可视化示例
  • OpenCode:166K 星的开源 AI 编程 Agent,一天涨 1000 星凭什么?
  • 学术峰会项目管理全解析:从战略设计到长效运营
  • 中小企业适合使用经销商管理系统吗? - 麦麦唛
  • 避坑指南:在K230上跑通AI_Cube目标检测训练,这些细节千万别忽略
  • 2026年数据建模工具有哪些:五家优选品牌深度解析 - 科技焦点
  • 粮食检测报告审核进入智能时代:AI报告审核助力IACheck实现效率翻倍与质量双提升