当前位置：首页 > news >正文

全网首份指令级拆解：华为昇腾950DT如何撬动DeepSeek 75%降价与字节锁单

news 2026/6/15 14:29:39

一、一份拆解报告，搅动了整个AI算力江湖

6月12日，华尔街知名半导体研究机构SemiAnalysis发布了一份报告。这份报告不一般——他们拿到了华为昇腾950DT的样机，围绕DeepSeek V4的推理链路做了一次Trace级别的指令拆解。

结论可以用一句话总结：DeepSeek V4跑在昇腾950DT上，推理成本可以打掉75%。

75%是什么概念？如果把目前DeepSeek Pro的API调用价格砍到四分之一，它就不再只是"便宜好用"的选项，而是直接变成整个AI应用层的成本锚点。所有依赖模型调用的SaaS、Agent、Copilot类产品，成本结构会被彻底重写。

更值得注意的是，在这份拆解报告流传之前，字节跳动已经提前锁定了大批昇腾950DT订单。阿里的单子也在路上。这不是"观望"，这是抢产能。

一家被制裁的中国公司造出的芯片，正在撬动全球AI推理的定价权。

二、从"能用"到"好用"，昇腾走了多远

要理解950DT为什么重要，得先回到昇腾芯片的起点。

华为做AI芯片不是新闻。2018年的昇腾310、2019年的昇腾910，都是在制裁之前就规划好的产品线。但早期的昇腾有一个所有人都知道的痛点：硬件参数不差，软件生态太难啃。

CANN（华为的AI计算框架）和CUDA的差距，不是跑分能填平的。开发者要在昇腾上跑模型，光是算子适配就能把人折腾到怀疑人生。2023年《金融时报》的一篇报道直接点过：DeepSeek早期用昇腾训练时，“芯片稳定性差、互联速度慢、软件工具链不成熟”——三个问题，每一个都能让工程团队掉一层皮。

但从那时到现在，昇腾完成了几件关键的事：

第一，自研HBM。华为搞出了自己的高带宽内存HiBL 1.0和HiZQ 2.0。在美光、三星、SK海力士的HBM被出口管制卡脖子的背景下，这个突破的意义比芯片本身更大——它意味着华为在AI芯片最核心的"存算墙"问题上，有了一条自己的路。

第二，CANN Next兼容CUDA。新增了SIMT编程模型，开发者可以直接把CUDA代码迁过来跑。这不是"完全替代"，但大大降低了迁移门槛。生态的飞轮，从这一环开始加速。

第三，灵衢（UnifiedBus）互联协议。单卡打不过就拼系统。灵衢支撑8192卡乃至15488卡的超节点互联，这是华为"用架构补制程"思路的集大成者。

到2026年4月DeepSeek V4发布时，V4已经原生跑在昇腾950PR上。徐直军在HC大会上的那句"算力过去是、未来也将继续是人工智能的关键，更是中国人工智能的关键"，放到这个节点看，不再像是一句口号。

三、SemiAnalysis的Trace级拆解：950DT到底强在哪

回到SemiAnalysis那份报告。他们拆解的重点不在纸面参数，而在实际推理链路的执行效率。

3.1 两个版本，两种打法

昇腾950系列实际上有两颗芯片：950PR和950DT。它们的计算核心相同，但内存系统截然不同。

950PR搭载HiBL 1.0内存，128GB容量，1.6TB/s带宽。主要面向推理的Prefill（预填充）阶段和推荐系统业务。本质是"降本版"——用自研内存替代昂贵的HBM3e方案，在不牺牲太多性能的前提下，把硬件采购成本压到H20的四分之一。

950DT才是真正的性能怪兽。它搭载HiZQ 2.0内存系统，容量拉到144GB，带宽翻到4TB/s，互联带宽2TB/s。这个配置是专门为推理的Decode（逐token生成）阶段和模型训练场景设计的。

关键差异在于：Decode阶段是内存带宽敏感型任务。大模型每生成一个token，都要把整个模型权重从内存里过一遍。如果内存带宽跟不上，算力再强也是空转。950DT的4TB/s带宽，让它在这个瓶颈环节上可以和英伟达B200掰手腕。

3.2 协同设计：芯片和模型一起打磨

SemiAnalysis拆解中最重要的发现之一，是昇腾950DT和DeepSeek V4之间不是"先有模型，再适配芯片"的传统路径，而是协同设计。

这意味着DeepSeek在开发V4的过程中，华为的芯片团队就深度参与进来了。模型的推理路径、硬件执行方式、CANN软件栈的算子优化——这三层是在同一张桌子上一起打磨的。

具体来说体现在三个层面：

算子层：DeepSeek V4的MoE（混合专家）架构有1万亿参数，每次推理只激活约370亿。MoE模型的核心瓶颈是Expert Routing（专家路由）和All-to-All通信。SemiAnalysis发现，华为为V4专门定制了稀疏矩阵乘法和Expert Gather指令，把MoE路由延迟降低了40%以上。

内存层：V4推理时，全部专家权重待在HBM里，每次推理只把激活的专家加载到计算单元。950DT的144GB大容量HBM让所有专家权重能常驻内存，避免了昂贵的weight swapping操作。4TB/s的带宽则保证了专家切换的吞吐。

通信层：在多卡推理场景下，Tensor Parallelism的通信开销往往是性能杀手。灵衢2.0的2TB/s互联带宽配合华为定制的All-Reduce通信原语，让跨卡通信不再成为瓶颈。

3.3 75%降价是怎么算出来的

SemiAnalysis的测算逻辑大致如下：

单卡推理吞吐量：950DT在运行DeepSeek V4 Decode任务时，得益于4TB/s内存带宽和定制算子，单卡吞吐量达到H100的约85%-90%。
但卡的成本是H100的约25%。华为自研HBM和国内供应链的成本结构，让950DT的硬件单价远低于受管制的H100/H200。
折算到每百万token的推理成本：大约是当前DeepSeek Pro定价的25%。注意这是硬件侧的潜力，实际定价还涉及DeepSeek的商业策略。但即使打个折，降价50%以上几乎是板上钉钉的。

更重要的是，这个降价空间不是靠"赔本赚吆喝"撑起来的，而是硬件成本结构的变化。HBM3e/HBM4是英伟达B200中最贵的组件之一，而华为用自研HiZQ 2.0替代了这个成本黑洞。一旦950DT量产出货稳定，这个成本优势会持续放大。

四、字节锁单背后：推理定价权正在转移

拆解报告引发的市场反应，比报告本身更有意思。

4.1 从"试试看"到"抢产能"

2026年4月DeepSeek V4发布时，阿里、字节、腾讯已经下了数十万颗昇腾950PR的订单。那是V4刚出来、大家还在验证的阶段。

到6月SemiAnalysis报告出来后，情况完全变了。

据多个信源交叉验证，字节跳动已经追加了950DT的锁单，总量远超此前950PR的订单。阿里的订单也在加速推进。腾讯虽然动作稍慢，但也没有缺席。

这背后的逻辑很清楚：谁先拿到足量的950DT，谁就能在推理服务市场拿到成本优势。降75%的推理成本，对于字节这样的"模型调用大户"——旗下豆包、扣子、飞书AI等产品对推理的消耗量以每天数十亿token计——可以直接转化为每年数十亿人民币的成本节约。

4.2 英伟达的"中国焦虑"

英伟达并非没有应对。H20是专门为中国市场定制的合规版GPU，性能被精确地卡在出口管制的红线之下。B200更是不可能直接卖给中国。

但昇腾950DT的出现，让"H20够用"的假设站不住脚了。

如果DeepSeek V4跑在950DT上的推理成本只有跑在H20上的三分之一甚至四分之一，那云计算厂商没有理由继续大比例采购H20。这不只是一个"国产替代"的故事，而是纯经济学的决策。

路透社4月份的报道已经提到，昇腾950系列芯片的订单逼近75万颗。这个数字放在2025年，是几乎不可想象的。

4.3 更深层的信号：推理定价权

过去两年，AI推理的定价权牢牢掌握在英伟达手里。虽然DeepSeek一直在压价，但它的成本底取决于它用什么芯片。

如果DeepSeek的成本底被英伟达的芯片定价锁死，那它的"价格屠夫"策略就只能打到某个程度。

昇腾950DT改变了这个前提。当DeepSeek的核心推理链路可以完全脱离CUDA生态、跑在自主可控且成本结构完全不同的硬件上时，推理定价权的天平开始倾斜。

这不是说英伟达要输了。英伟达在高端训练市场、全球生态、软件成熟度上的优势依然巨大。但在中国市场的推理场景里，昇腾+DeepSeek的组合正在建立一套平行体系。这套体系不需要在每一个维度上都赢，只需要在"性价比"这一个维度上形成压倒性优势，就足以改变格局。

五、影响与启发：国产AI算力的大考才刚刚开始

SemiAnalysis的拆解报告像一面镜子，照出了国产AI芯片的成绩和短板。

成绩：路线对了

华为选择的"系统级创新代替单芯片堆料"路线，在制裁背景下几乎是唯一可行的道路。灵衢互联、自研HBM、CANN Next、超节点架构——这套组合拳的逻辑是清晰的：既然单卡制程受限，就让千卡万卡像一台机器一样工作。

DeepSeek V4的成功适配，是对这条路线的阶段性验证。它证明了一件事：不需要台积电3nm，也能造出支撑顶级大模型推理的AI芯片方案。

挑战：生态和量产

但几个硬骨头还在前面：

量产爬坡。60万颗910C、目标是160万片的总产量——华为2026年的产能计划非常激进。中芯国际7nm的良率和产能能不能扛住？自研HBM的量产能不能跟上？这是比芯片设计更现实的挑战。

软件生态的护城河。CANN Next兼容CUDA是好事，但兼容不等于替代。真正要让开发者从CUDA迁移到CANN，需要的不只是API兼容，而是文档、工具链、社区、第三方库的全套体验。CUDA花了15年构建的护城河，不是一年两年能填平的。

训练的缺失。目前DeepSeek V4的训练仍部分依赖英伟达集群，昇腾主要扛起了推理。要实现"训练+推理全链路国产化"，还有不少坑要踩。

启发：从一个芯片到一个时代

昇腾950DT的故事，本质上不是一个芯片的故事。它是中国AI产业在极端外部约束下，被迫走出的一条自主之路。

这条路不好走。2023年DeepSeek用昇腾训练时摔过的跟头，2024年华为工程师为精度对齐熬过的夜，都是这条路上的代价。

但现在看，这些代价正在转化成壁垒。当昇腾+DeepSeek的组合形成闭环，那些还在等待"制裁解除后继续用英伟达"的企业，可能会发现自己已经错失了窗口期。

对开发者来说，最实际的建议可能是：开始认真学CANN。不是因为"爱国"，而是因为未来几年，你在中国做AI infra、做大模型部署、做推理优化，昇腾将是一个绕不开的选项。早学晚学都是学，早学有红利。

对于整个行业，SemiAnalysis的这份拆解报告传递了一个清晰的信号：AI芯片的地缘政治游戏规则，正在被改写。主角不再只有一个。

参考来源：SemiAnalysis Ascend 950DT Trace Analysis（2026.06.12）、TechWeb报道（2026.06.08）、EET-China DeepSeek V4适配昇腾报道（2026.04.09）、华为全联接大会2025徐直军演讲

查看全文

http://www.jsqmd.com/news/1017294/

PowerPC e300核心指令集与手册修订深度解析：嵌入式开发避坑指南

好用的openclaw哪个公司好

2026推荐：肇庆井水检测单位，农村饮用水井水检测中心 - 公共场所卫生检测

2026无锡江诗丹顿回收测评 7家门店对比当场打款推荐 - 开心测评

如何快速掌握Upkie：开源双足轮式机器人的完整实践指南

5步搭建智能微信群消息转发系统：告别重复劳动，实现信息同步自动化

NLP语义校准协议：从分词失真到可解释决策的工程实践

d3d8to9：让经典Direct3D 8游戏在现代Windows系统上重生

5分钟掌握UV Squares：Blender UV编辑的智能网格转换革命

MPC866内存同步与异常处理：嵌入式系统稳定性的核心机制

Beyond All Reason：开源RTS游戏的终极魅力与完整入门指南

嵌入式Linux性能调优实战：总线频率驱动与OProfile深度解析

2026靠谱的四川定制旅游服务公司选择攻略 8步走 - 资讯纵览

暗黑2存档编辑器完整指南：3步快速上手免费网页版角色修改工具

（二十三）信捷PLC Modbus通讯功能介绍

D2DX终极指南：三步让暗黑破坏神2在现代电脑上焕发新生

3个常见性能陷阱与突破方案：打造流畅的微信小程序数据可视化

别急着重启路由器！小米妙享中心突然连不上的终极解法：关机大法实测有效

AlienFX Tools：告别AWCC臃肿，掌握Alienware终极轻量控制方案

图形学期末突击：从八叉树到Gerstner波，手把手带你推导关键考点（附避坑指南）

嵌入式开发中宏汇编器的核心原理与工程实践指南

Linux——MySQL

英雄联盟内存换肤技术：R3nzSkin工具深度解析与安全使用指南

解锁音乐自由的3种创新方案：告别平台锁定的终极指南

Nothing Ever Happens：揭秘那个“永远做空”的预测市场套利机器人

白云创业心得｜2026 工贸企业经营，专业财税合规比低价代账更划算 - 资讯综合站

【爱马仕】Hermes 自动化工具部署方案一键包安装流程全解析（包含安装包）

避坑指南：dlnm包做分布滞后模型时，你的交叉基矩阵可能设错了（R语言实战反思）

数据预处理实战：从缺失值到漂移监控的七道生死关

FlexRay消息缓冲区：汽车电子通信的数据一致性保障机制