当前位置: 首页 > news >正文

面壁智能开源低比特大模型训练成果 BitCPM-CANN,推理阶段释放约 6 倍显存红利

【导语:面壁智能联合清华大学、OpenBMB 开源社区,在清华大学鲲鹏昇腾科教创新卓越中心支持下,正式发布并开源低比特大模型训练方向的最新成果 BitCPM-CANN,该成果在华为昇腾上原生完成,性能表现优异。】


BitCPM-CANN:低比特大模型训练新突破

面壁智能宣布联合多方正式发布并开源低比特大模型训练方向的最新成果 BitCPM-CANN。从量化算子、训练算法到全链路框架,BitCPM-CANN 均在华为昇腾上原生完成,包含 0.5B、1B、3B、8B 四个模型尺寸。

显存红利与能力保留率双优

相比传统 BF16 精度,BitCPM-CANN 在推理阶段释放约6 倍显存红利,同时将模型能力保留率维持在 90%-97.2%。评测结果显示,三个尺寸模型的能力保留率达到 95.7% - 97.2% 区间,即使是能力保留最弱的 0.5B,保留率也达到了 90.1%。

这一成果对于手机产业意义重大,6 倍的显存红利意味着一个 8B 参数的 BitCPM-CANN 大模型,可以轻松运行在当前主流旗舰手机之上。

搭建低比特训练底座

面壁智能基于 MindSpeed × Megatron-LM 主干搭建了完整的低比特训练底座,包含环境适配、32K 长序列支持、并行策略、融合算子等完整工程体系。从此,所有面向昇腾的低比特训练工作,都可建立在同一套公共基础设施之上。

编辑观点:BitCPM-CANN 的发布与开源是低比特大模型训练领域的重要突破,其显存红利和高能力保留率为大模型在更多设备上的应用提供了可能,搭建的训练底座也将推动相关领域的发展。

http://www.jsqmd.com/news/891850/

相关文章:

  • 在ubuntu上配置taotoken作为python开发环境的默认大模型服务
  • 武汉圣擎航空:一站式机票酒店签证包车出行服务,高效省心出行优选 - 土星买买买
  • BiGRU-Attention与卡尔曼滤波融合的负面舆情预测模型实践
  • 3分钟掌握iOS应用签名:终极图形化工具完整指南
  • 如何用Excel零代码掌握AI算法:15个实战案例从Softmax到Transformer的完整指南
  • FPGA加速医疗网络安全:实时检测与硬件优化实践
  • Unity IL2Cpp逆向实战:从元数据解析到AES密钥还原
  • 专业做日式搬家的上海公司排名及其优势参考 - 资讯快报
  • ollama升级后局域网无法访问的解决过程
  • Excel AI算法实现终极指南:无需编程掌握深度学习核心原理
  • 图神经网络与强化学习融合:电力系统暂态稳定预防控制的AI新范式
  • 新手必看!用TD8620高斯计实测永磁铁与电磁铁,附线圈匝数计算实战
  • 解决 cc-connect + Claude Code 图片识别问题
  • 基于DTW与XGBoost的能源安全指数高频预测:代理变量遴选与建模实战
  • 构建可伸缩CNN:混合粒度剪枝与运行时切换技术实践
  • Unity启动页帧动画实现原理与工程实践
  • 用状态机做移动游戏端到端稳定性自动化
  • Blender导出OBJ到Unity模型发白的三大断点与解决方案
  • 基于循环嵌入与自举法的复向量信号物理参数置信区间估计
  • DVWA文件上传漏洞原理与四层纵深防御实践
  • WPA2-PSK WiFi攻防实战:从网卡驱动到handshake破解全流程
  • 四种索引,一个系统,重新定义 AI 如何理解知识
  • 解锁PC游戏新维度:Ryujinx Switch模拟器完全指南
  • EtherCAT PDO映射实战:从XML文件到STM32代码,搞定一个自定义模拟量变量
  • AutoRaise终极指南:macOS窗口悬停自动提升的完整教程
  • 2026 百色房屋漏水不用愁!雨中匠人免费上门检测,本地专业防水公司常年TOP1!卫生间免砸砖防水,快速解决您的烦恼。权威!靠谱!稳定!售后无忧!!! - 防水百科
  • Python构建独立发行版的深度技术解析与实战指南
  • 企业内训场景下利用 Taotoken 为学员提供统一的模型练习环境
  • 物理嵌入神经网络:融合高光谱廓线与卫星图像提升对流临近预报
  • 从LSB隐写到Nihilist密码:一次完整的Misc实战解密之旅