当前位置: 首页 > news >正文

CANN/amct DeepSeek-V3.2量化

NPU DeepSeek-V3.2 量化训练及推理

【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct

DeepSeek团队发布了最新的模型DeepSeek-V3.2,可利用稀疏架构DeepSeek Sparse Attention(DSA)来提高长序列的计算效率,降低推理成本。长上下文场景和其新颖的DSA结构,共同对推理优化系统提出了新诉求。

量化策略

相对于BF16推理,Int8量化可以有效降低端到端时延,提升系统吞吐。目前本sample已经支持W8A8C8/W4A8C8量化,量化架构如下:其中MLA量化位置如下:

  • MLAProlog:除Q_b_proj使用W8A8,其他Linear均不量化;KVCache量化到C8;
  • Sparse Flash Attention:KVCache Int8存储,BF16计算;
  • IndexerProlog:除Q_b_proj使用W8A8,其他Linear均不量化;Indexer Q使用A8量化;Indexer Cache使用C8量化;
  • Lightning Indexer: BatchMatmtul使用Int8计算;
  • MoE:路由专家使用W8A8/W4A8量化,共享专家使用W8A8量化;
  • MLAEpilog:O_proj使用W8A8量化;
  • LM_Head:暂不量化。

注: W8A8:W8指权重使用静态Per-Channel Int8量化,A8指数据使用动态Per-Token Int8量化; A8C8:A8表示Lightning Indexer中的Q使用动态Per-Token-Head Int8量化,Indexer Cache使用动态Per-Token-Head Int8量化; MLAEpilog:O_proj使用W8A8量化; KVCache C8:表示KVCache 使用动态Per-Token-Head-Tile-128 Int8量化;

量化目的

本sample量化位置与Ascend硬件性能强耦合,对性能瓶颈处做了竞争力的量化,部署友好

在当前W8A8C8量化策略下,线性层的量化覆盖率较低,MLA线性层中只对q_b_projw_o_proj进行了量化,Indexer模块只量化了wq_b_proj。主要原因是IndexerProlog融合算子设计成weights_proj模块的输出格式为fp16,且不做量化,因此MLA输入关联的Linear统一不做量化,好处是可将同一份BF16数据输入IndexerProlog和MLAProlog。

其次,MLAProlog KVCache的量化策略使用了动态存8算16。在超长序列情况下,W8A8C8量化精度接近无损,同时权重内存占用优化2倍。MLA C8算16获取内存收益,可以打高吞吐量。另一方面,LightningIndexer的A8C8获取计算收益,降低LI计算时延,TTFT和TPOT也同步优化。

W4A8C8量化版本针对DeepSeek-V3.2使用基于学习的量化算法优化Clamp参数,缓解W4A8离群值量化困难的问题,实现了较优的量化模型精度。同时,W4A8C8版本比W8A8C8节约MoE权重显存2x,因此在大EP场景下,利用W4A8 MoEGMM算子,同一张卡可以装下更多的专家,节约资源,优化计算访存比,实现单机部署。

【免费下载链接】amctAMCT是CANN提供的昇腾AI处理器亲和的模型压缩工具仓。项目地址: https://gitcode.com/cann/amct

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.jsqmd.com/news/783975/

相关文章:

  • AI代码优化实战:Code Shaman如何系统化提升代码质量与性能
  • 上海企业呼叫中心系统选型指南:如何打造高效客户联络平台 - 品牌2025
  • 别再为‘Target uses ARM-Compiler which is not available’抓狂了!一份给STM32/Keil开发者的编译器环境修复指南
  • 2026年必吃榜:这家鱼生餐厅的鲜甜让老饕直呼惊艳 - 品牌企业推荐师(官方)
  • Animal-AI:评估AI智能体动物级认知能力的强化学习基准测试场
  • 为团队内部工具集成 Taotoken 实现统一的 AI 能力调用
  • 南京爱屋建筑防水:栖霞屋顶防水怎么联系 - LYL仔仔
  • DVWA靶场通关后,我总结了这5个最容易被忽略的实战细节(附BurpSuite配置)
  • CANN/cann-bench转置算子评测
  • CANN尾轮负载均衡优化
  • MoltFi:为AI交易代理构建链上安全护栏的架构与实践
  • 对比直接使用厂商API接入Taotoken在路由容灾上的优势
  • CANN Pi0.5昇腾训推实践
  • Ubuntu 20.04 + ROS2 Foxy 环境下,手把手搞定 Swarm-SLAM 多机器人协同建图环境(附常见编译报错解决)
  • MoE模型多语言路由优化实战:37%延迟降低方案
  • 为Hermes Agent自定义配置Taotoken提供方并写入环境变量
  • 2025届毕业生推荐的六大降重复率工具推荐
  • 元宇宙数据安全与AI隐私保护:从联邦学习到差分隐私的实战架构
  • 国内合规亲子鉴定机构排行:3家靠谱机构盘点 - 奔跑123
  • cann/catlass多核切K矩阵乘法
  • CANN / cann-recipes-infer: NPU DeepSeek-V3.2-Exp Ascend C 融合算子优化
  • 全域无感时空管控,解锁智慧港口集卡AGV全自主调度新模式
  • llocal框架:本地化AI应用开发实战与RAG实现指南
  • 基于LLM与Telegram API构建智能聊天摘要机器人:从原理到部署
  • 【2026收藏版】小白程序员必看!大模型从入门到进阶全攻略,告别焦虑快速上岸
  • Hyper-V虚拟机网络配置避坑指南:从‘网络不可达’到流畅上网,手把手教你配置CentOS/Ubuntu静态IP和DNS
  • 基于可解释AI的微射流速度预测:FNN与SHAP解析空化气泡位置影响机制
  • 全国主流亲子鉴定机构排行:资质与服务实测盘点 - 奔跑123
  • CANN/HCCL环境变量配置资源信息
  • 基于纯文本的极简个人信息管理:plain命令行工具实践指南