从CPU市场到AI算力格局:一场关于技术路线、商业逻辑与生态锁定的深度梳理
从CPU市场到AI算力格局:一场关于技术路线、商业逻辑与生态锁定的深度梳理
本文内容整理自相关技术讨论与问答记录,仅作为个人学习笔记存档。
一、为什么科技公司更"偏爱"To B业务?
一个敏锐的观察是:Intel更看重服务器CPU,云服务公司(AWS、Azure、Google Cloud)几乎完全以To B为核心,Anthropic的To B业务也比To C做得更好。这背后的商业逻辑清晰而深刻。
1.1 To B vs To C:六个关键差异
| 维度 | To C(个人用户) | To B(企业客户) |
|---|---|---|
| 客户生命周期价值(LTV) | 低,迁移成本极低,随时可能取消订阅 | 极高,迁移涉及改代码、重购硬件、培训员工,合同多为年度或多年度 |
| 利润率与定价权 | 红海竞争,用户对价格极度敏感 | 企业追求稳定性与SLA,愿意为可靠性支付溢价 |
| 技术门槛与护城河 | 个人用户不关心私有部署、合规报告 | 银行、医院等必须满足SOC2、HIPAA等复杂需求,形成高门槛 |
| 收入可预测性 | 按月付费,波动大 | 年度合同+预付费模式,现金流极佳 |
| 网络效应与生态锁定 | 难以建立生态 | 企业软件默认运行在某平台上,新企业只能跟随 |
| 战略定位契合度 | 品牌广告作用 | 基础设施供应商的核心利润来源 |
1.2 典型案例:NVIDIA的"双轮驱动"
NVIDIA是一个值得深入剖析的平衡案例。其游戏显卡(GeForce,To C)和AI芯片(数据中心,To B)都做得很好,但市值的绝大部分来自于AI芯片(To B)的预期。
“靠To B赚大钱,靠To C护生态”——这句话是对NVIDIA商业模式的精炼概括:
- To B赚大钱:数据中心业务(H100、B200等)占总收入80%以上,一块H100售价3-4万美元,毛利率超90%。客户是微软、亚马逊、特斯拉这类一次性采购成千上万块的企业。
- To C护生态:GeForce游戏显卡让全球数百万开发者、学生、研究人员买得起带CUDA的GPU。几千块钱的GeForce卡和几万块的企业卡使用同一套CUDA编程模型。这种生态锁定效应使得"CUDA成为每个开发者DNA的一部分"——当企业决策采购算力时,几乎没有第二选项。
类比:像一家剃须刀公司。To B是卖昂贵的商用刀片给理发店(赚大钱),To C是卖便宜的刀架给普通人(护生态)。普通人买刀架不赚钱,但学会使用后,理发店自然也会选同样的系统。
二、Google TPU:被嘲笑十年后,用Gemini证明自己
2.1 “业务成功本身就是最硬的证明”
半导体行业存在一个残酷现实:纯技术参数(算力、带宽、制程)并不直接等于商业成功或行业认可,真正的认可来自于"能否跑通成功的、大规模的业务"。
Google的TPU(张量处理单元)正是这一规律的完美注脚。
2.2 TPU的"原罪"与转折点
“原罪”:TPU从一开始就不是通用计算芯片,它被设计出来只为加速Google自己的TensorFlow模型,使用脉动阵列(Systolic Array)和Google自有的编程模型(JAX/XLA)。在传统半导体专家眼里,这就像一个"专用玩具"。
转折点:Gemini:当Google宣布Gemini(尤其是1.0和1.5版本)完全在TPU v4/v5e/v5p上训练,并且性能达到甚至超越GPT-4级别时,意义发生了根本性转变:
- 业务证明:一个真正难、真正大的业务能跑通,说明TPU不是实验室玩具
- 规模验证:训练Gemini需要数万个TPU协同工作数月,证明了系统工程的成熟度
- 对外宣告:Google不再需要半导体圈的认可,它用自己的业务成功作为最强说服力
2.3 Google胜在哪里?
Google的胜利不是芯片的胜利,而是系统的胜利:
| 胜利要素 | 具体表现 |
|---|---|
| 坚持(超过10年) | 从2015年第一代TPU到2025年的TPU v7,持续投入 |
| 一年一代 | 设计-制造-部署-反馈的闭环速度极快,v4、v5e、v5p、v6、v7快速迭代 |
| 软硬兼施 | 硬件层(脉动阵列、HBM、互联)与编译器(XLA/JAX)深度耦合,协同优化 |
这与华为昇腾的处境形成对照:昇腾也走全栈自研路线,但早期CANN软件栈被戏称为"CANN’t",缺乏像Gemini那样全球范围内技术上无可置疑的大模型落地案例来证明自己。不过华为也在用盘古、问界等业务倒逼昇腾成长,走在相似的道路上。
三、AMD的AI芯片战略:机遇与挑战并存
3.1 对AMD的"博客式"分析
一段关于AMD的深入分析指出:
“AMD的MI300系列还是相当可以的,4xx在scale-up协议上,就像AMD历史上一样朝三暮四,脚踏三只船,非常的含糊其辞,我觉得是个大败笔,其余的操作没有问题。”
核心判断:
| 观点 | 评估 |
|---|---|
| MI300性能"相当可以" | ✅ 成立。MI300X在推理吞吐量上可达H200的2-5倍,192GB HBM3大内存优势明显 |
| MI400战略"含糊其辞" | ⚠️ 部分成立。技术上支持开放的UALink和以太网,多条路线并行确有"脚踏三只船"迹象,但定性为"大败笔"为时尚早 |
| 竞争路线选择正确 | ✅ 准确。以开放性对抗NVIDIA封闭生态,以推理市场为突破口 |
| 2026年推理若立住,估值可达NVIDIA 1/3-1/5 | 🔘 为时过早。AMD目前在AI GPU市场份额仅个位数(约6-7%) |
| 数据中心CPU是"加分项" | ✅ 完全正确。EPYC处理器收入份额已达41.3%,出货量份额更达50% |
3.2 AMD的历史包袱
AMD曾凭借64位扩展技术(x86-64)和首个原生双核架构等技术领先,但因战略摇摆、执行不力,最终被Intel夺回优势。这种"起大早,赶晚集"的基因延续至今,MI400在多路线中摇摆的迹象,不免让人担忧其能否克服这个"历史包袱"。
3.3 推理市场:AMD的破局机遇
推理任务对内存带宽和容量要求极高,而对核心计算单元依赖相对较低——这正是AMD MI300系列的优势所在。但要让市场相信AMD能成为推理时代的主导者,至少需要证明三点:
- 软件生态成熟度:ROCm能否媲美CUDA的开发者体验
- 大规模部署稳定性:多节点集群的可靠性验证
- 互联方案广泛采用:scale-up协议能否获得行业共识
四、推理 vs 训练:CUDA依赖的真相
4.1 一个危险的误解
认为"推理天然比训练更中立、更容易摆脱CUDA",可能是这张牌桌上一张看似正确但最危险的底牌。
事实:推理对CUDA的依赖度从来就不低。
4.2 为什么推理也需要强大的软件生态?
大模型推理并非简单的"加载模型,输入输出",而是复杂的系统工程:
- 推理引擎层:vLLM的PagedAttention、Continuous Batching等优化技术需要与底层硬件深度协同
- 算子/内核层:需要为FP8/FP4等低精度格式编写优化的内核
- 框架集成层:PyTorch、JAX、LangChain等框架需要无缝支持
- 量化/压缩层:AWQ、GPTQ、SmoothQuant等量化算法需要配套的算子优化
开发者做技术选型时考虑的不是"是否绑定CUDA",而是"哪个生态能让我最快地将模型部署上线,并获得最优性能"。
4.3 AMD ROCm的进展与差距
| 维度 | NVIDIA (CUDA) | AMD (ROCm) | 差距评估 |
|---|---|---|---|
| 推理性能(峰值) | H200/B200领先 | MI300X在某些场景(大模型、长上下文)反而更优 | 互有胜负 |
| 推理性能(性价比) | 高 | 更低(MI300X内存大,可单卡跑大模型) | AMD明显占优 |
| 推理引擎支持 | vLLM、Triton、TensorRT-LLM全面优化 | vLLM已支持ROCm,Triton有官方指南 | AMD追赶中 |
| 算子/内核库 | cuBLAS、cuDNN、CUTLASS成熟一二十年 | hipBLAS、MIOpen、AOTriton正在完善 | 差距缩小 |
| 开发者体验 | 安装简单,文档丰富 | 版本兼容性仍是痛点 | CUDA更优 |
| 大规模部署验证 | AWS、Azure、GCP十亿级美元采购 | Meta、OCI、MS已部署,但规模不足 | NVIDIA优势明显 |
关键结论:差距的核心已经不是"能跑vs不能跑",而是"顺手vs折腾"、“规模vs试点”。
4.4 推理市场的未来格局
推理市场正以惊人速度扩张:
- 市场规模:AI推理芯片市场到2027年可能达到1万亿美元
- 占比超越:2025年底至2026年,推理已占据AI算力消耗的约67%,预计2026年推理需求将超过训练4-5倍
- 群雄并起:AMD、Google TPU、AWS自研芯片、Cerebras、Groq、Qualcomm AI200等都在积极布局
有分析认为,到2028年,NVIDIA在推理市场的份额可能从现在的80%以上降至50%。
五、CPU市场四象限全景图
5.1 市场划分框架
CPU市场可清晰划分为四个板块:
| 市场板块 | 核心角色 | 市场格局与特点 | 关键数据 |
|---|---|---|---|
| 1. HPC(高性能计算) | Intel, AMD, NVIDIA, ARM | 战略价值>市场价值,代表技术巅峰,决定未来3-5年技术路线 | 2025年11月TOP500前十中,AMD占5席,Intel占3席,ARM占2席 |
| 2. Data Center CPU(云端) | Intel, AMD, ARM (AWS Graviton等) | 主要利润战场,x86统治但ARM猛攻 | Intel约72.7%,AMD约27.3%;ARM服务器出货量占比预计达21.1% |
| 3. PC CPU(桌面/笔记本) | Intel, AMD, 苹果(ARM) | 市场容量最大,以量取胜,利润薄 | 桌面AMD 50.1% vs Intel 48.5%;笔记本Intel 73.6% vs AMD 20-22% |
| 4. 嵌入式 & AIoT | Intel, AMD, ARM, RISC-V | 最碎片化,ARM根基深厚,RISC-V快速渗透 | ARM在移动/嵌入式SoC领域占比超90%;RISC-V占比约3-5% |
5.2 各板块深度解析
HPC:技术风向标
HPC收入占比不高,但这里是技术巅峰。最新TOP500榜单中,采用AMD CPU/GPU的系统已占据压倒性优势。谁在超算里赢了,谁就拿到了下一代计算生态的"入场券"。
TOP500:全球超级计算机算力权威排行榜,由德国曼海姆大学、美国田纳西大学等学者于1993年发起,每年6月和11月发布两次。排名依据是High-Performance Linpack (HPL)基准测试——让超算解巨大线性方程组,看每秒能完成多少次浮点运算(FLOPS)。
Data Center CPU:主要利润战场
- AMD的进攻:EPYC系列从零到近30%市场份额,证明在高端市场只要产品优秀,客户(云厂商)愿意给机会
- ARM的奇袭:AWS Graviton等云厂商自研芯片避开了Intel和AMD的正面战场,直接从最大客户内部攻破
PC CPU:守成与变量
笔记本市场的高粘性(Intel占约四分之三)说明,在移动端品牌、渠道和功耗的综合壁垒极高。未来变量:AI PC能否带来换机潮,以及ARM架构PC处理器能否在Windows生态真正打开局面。
嵌入式 & AIoT:长尾也是未来
这个市场虽然杂乱,但它是RISC-V最好的试验田,也是x86最难触及的领域。谁在这个"边缘"地带赢了,谁就可能在万物智联时代成为新的中心。
5.3 软件生态:关键战场
无论哪个市场,硬件性能差距在缩小,软件生态壁垒反而越来越高:
- AMD在服务器市场成功,离不开对软件和开源社区的持续投入
- ARM要攻占服务器,必须让所有软件无缝跑在ARM上
- RISC-V最大的挑战不是设计性能强大的核心,而是构建完整工具链和应用生态
六、AI推理芯片:应该单独列一个板块吗?
一个自然的问题是:以推理为核心的硬件(如专门的LPU或各家自研推理芯片),应该归类在哪个板块?
判断:推理芯片不会单独成为一个与上述四板块并列的"第五板块",而是会渗透进每一个角落:
- Data Center:推理芯片是云端AI服务的核心算力,与数据中心CPU/GPU深度融合
- HPC:超算 increasingly 承担AI推理任务,推理优化成为超算设计的重要考量
- PC/Edge:AI PC的NPU、边缘设备的推理加速器,让推理能力下沉到终端
- 嵌入式/AIoT:物联网设备的本地推理需求,是低功耗推理芯片的最大市场
推理不是独立板块,而是一种横向能力,它将重塑所有计算场景的计算架构。
七、信息来源与工具
在以上分析中,几个关键的信息来源和工具值得了解:
7.1 IDC(国际数据公司)
全球著名的信息技术、电信和消费科技领域的市场咨询与顾问机构,成立于1964年,是IDG集团全资子公司。在半导体和IT基础设施领域是极受信赖的权威数据来源。其市场追踪融合了OEM厂商销售数据、渠道分销数据和终端用户调查等多层次信息。
7.2 HPCwire
全球高性能计算领域最权威、历史最悠久的新闻与信息网站之一(创办于1986年)。报道全球最快的超级计算机、前沿技术、行业趋势。其每年颁发的HPCwire Readers’ and Editors’ Choice Awards是业界极具声望的奖项。当新款超算芯片发布时,HPCwire是展示性能数据、被专家深入分析的重要舞台。
7.3 TOP500
全球超级计算机算力权威排行榜,每年6月和11月发布两次。采用自愿申报制,价值在于揭示技术趋势和路线,而非完整战力清单(Google、微软、亚马逊及中国部分顶尖超算并不总是提交数据)。
八、总结:几个核心判断
To B是利润中心,To C是生态护城河:科技公司更看重To B,因为企业客户付费能力强、粘性高、迁移成本大。To C更多是品牌广告和数据飞轮。
芯片的价值由业务成功定义:纯技术参数不等于商业成功。Google TPU用Gemini证明了自己,华为昇腾也在走同样的路。
AMD处于关键路口:技术已具备竞争力,但战略连贯性和执行力决定能否从"第二选择"升级为"核心玩家"。推理市场是机遇,历史包袱是风险。
推理正在重塑算力格局:2026年推理需求将超过训练4-5倍,推理芯片不会独立成板块,而是渗透进所有计算场景。CUDA在推理领域的护城河并非不可逾越,但ROCm仍需证明"顺手"和"规模"。
软件生态是终极壁垒:无论硬件性能如何,开发者体验、框架兼容性、大规模部署稳定性才是决定胜负的关键。
本文内容整理自相关技术讨论与问答记录,仅作为个人学习笔记存档。
