当前位置：首页 > news >正文

半导体产业的经济逻辑、技术瓶颈与AI芯片格局：一份学习笔记

news 2026/5/1 1:05:53

在阅读半导体和AI芯片相关博客时，有几个关键概念和逻辑链条引发了深入思考。本文将这些疑问和解答系统性地整理出来，作为一份便于复习的知识存档。

一、半导体产业的“赢家通吃”法则：为什么？

这个问题来自对半导体产业竞争格局的观察。在芯片行业，常常出现“功能更全、性能更高、可靠性更好的产品，价格反而更便宜”的怪象。要理解这个现象，需要从芯片产业的成本结构入手。

1.1 NRE与边际成本

芯片的成本构成决定了它的经济学特性。

NRE（Non-Recurring Engineering，一次性工程费用）极高。开发一颗3nm芯片的研发费用已进入10亿美元俱乐部，其中包含设计、验证、流片、EDA工具、IP授权等费用。

边际成本（物料成本）却相对较低。一旦芯片设计定型并投入量产，每多生产一颗芯片的增量成本，不过是硅片、光刻胶、封测等费用。

这种成本结构导致一个结果：谁能卖出最多的芯片，谁就能把天价NRE摊薄到极致。假设研发花费10亿美元，卖出1000片则每片分摊100万美元；卖出1亿片则每片分摊仅10美元。于是，市场份额最大的企业可以将产品定价压得非常低，同时性能还最强。规模效应（Economies of Scale）在这里发挥到了极致。

1.2 “721”格局的历史演化

这种成本结构推动了一个反复上演的产业规律：新技术出现后，一个新品类诞生，初期涌入100多家初创公司各做各的产品；随后经历激烈竞争、倒闭潮，最后通过合并与收购，收敛为3-5家公司。通常在终局阶段，第一名占据约80%的市场份额，第二名约15%，其余所有公司分食剩下的5%。

以下是几个典型品类的时间线演化：

GPU（图形处理器）：1995年前后3D加速卡兴起，市场涌现3dfx、S3 Graphics、Matrox、ATI、NVIDIA等数十家企业。2000年后，随着DirectX标准统一和制造成本飙升，3dfx被NVIDIA收购，S3被VIA收购。2006年AMD收购ATI，最终收敛为NVIDIA与AMD的双寡头。

FPGA（现场可编程门阵列）：1980年代赛灵思（Xilinx）发明FPGA后，Altera、Lattice、Actel等几十家公司跟进。2015年Intel收购Altera，2022年AMD收购Xilinx。现今市场基本呈现AMD（Xilinx）与Intel（Altera）双雄格局。

DRAM（动态随机存取存储器）：1970年代英特尔发明DRAM后，美日涌现数百家企业。1990年代经历残酷价格战，英特尔、德州仪器等退出。最终收敛为三星、SK海力士、美光三家，合计占据超过95%的市场份额。

此外，CPU领域（Intel与AMD）、以太网交换芯片（Broadcom与Marvell）、移动处理器AP（高通与联发科）等都呈现出类似的收敛轨迹。

二、训练与推理：为什么注定分化？

在观察当前AI芯片市场时，一个观点引起了注意：训练市场可能延续传统半导体“一家独大”的格局，而推理市场的门槛相对低得多，市场前景却又大得多。这背后的原因值得拆解。

2.1 训练市场：为什么“一家独大”？

训练是一项需要万卡集群、连续运行数月的高风险工程。它的垄断壁垒来自三个层面。

第一，信任成本极高。投入上亿美元训练一个千亿参数大模型，任何硬件节点的算力掉线、内存溢出或网络拥塞，都可能导致整个集群梯度同步失败，俗称“炸炉”。没有技术负责人会拿自己的职业生涯去冒险尝试未经验证的新硬件。

第二，软件生态锁定。NVIDIA通过十多年的积累，打造了CUDA这一AI领域的“操作系统”。几乎所有主流框架（PyTorch、TensorFlow）都深度依赖CUDA。切换平台意味着之前数亿美元的代码资产作废，团队生产力归零。

第三，系统级复杂性。训练不仅需要单卡算力强，还需要NVLink、InfiniBand等高速互联技术来构建“虚拟超级计算机”，需要解决负载均衡、容错、断点续训（Checkpointing）等系统工程难题。这些经验都是NVIDIA用十年时间趟过的坑。

这三道壁垒叠加，使得训练市场天然倾向于寡头格局。

2.2 推理市场：为什么“百花齐放”？

推理是将已经训练好的模型用来响应实际请求。它与训练有本质区别。

第一，单节点可闭环。推理不需要万卡互联。大多数模型的推理可以在单卡、单机甚至边缘设备上完成。这大幅降低了初创公司的入场门槛。

第二，软件栈的解耦。训练离不开CUDA，但推理的软件栈已高度抽象化。通过ONNX、MLIR、TVM等中间表示（IR）技术，可将PyTorch训练的模型直接编译到各种异构硬件上。这使非NVIDIA芯片能以较低成本承接推理任务。

第三，需求极度碎片化。自动驾驶需要微秒级响应，ChatBot需要毫秒级响应，监控摄像头有严格的功耗限制。从云端到边缘到终端，场景千差万别，不可能由一款芯片通吃所有需求。

第四，前景数倍于训练。大模型只训练一次，但上线后每天要响应数以亿计的API调用。随着AI应用普及，推理总算力需求将远超训练一个数量级。这正是云厂商（谷歌TPU、亚马逊Inferentia、微软Maia）纷纷自研推理芯片的根本驱动力。

因此，推理市场虽然最终也会收敛，但更可能呈现“3-5家核心供应商 + 多个利基领域玩家”的多元格局，而非一家通吃。

三、重新审视一个关键参数：Memory Bandwidth per Core

在研究AI芯片时，注意到了NVIDIA Grace CPU特别强调的一个参数：Memory Bandwidth per Core（单核内存带宽）。NVIDIA宣称Grace能达到约6GB/s的单核带宽，而传统x86服务器CPU通常在2-3GB/s。为什么这个参数突然变得如此重要？

3.1 CPU的“带宽饥饿”

先看一组对比数据：

处理器类型	总带宽	核心数	每核带宽
典型x86服务器	300 GB/s	128	~2.3 GB/s
AWS Graviton 3	300 GB/s	64	~4.7 GB/s
NVIDIA Grace	546 GB/s	72	~7.6 GB/s

当核心数堆到128核，而内存通道没有成倍增加时，每个核心能分到的带宽就急剧缩水。如果单核带宽只有2GB/s，这个核心在处理数据流时就像用一根细吸管喝奶昔——算力单元（ALU）大多时间在空转等数据，这种状态被称为**“核饥饿”（Core Starvation）**。

3.2 GPU带宽明明更高，为什么也“饿”？

一个自然产生的疑问是：GPU的显存带宽动辄几百甚至上千GB/s（如H200高达4.8TB/s），为什么还说AI负载是Memory-Bound的？

这需要理解GPU内部的工作方式。GPU拥有数万个小型计算核心（CUDA Cores）。以H100为例，16896个核心共享3352GB/s带宽，平均到每个核心只有约0.2GB/s。但因为GPU采用SIMT（单指令多线程）架构，它不追求单核带宽，而是靠海量并行来掩盖带宽不足。

然而，在LLM推理的Decoding阶段，每生成一个Token都需要把巨大的权重矩阵从显存完整读取一遍，而只对这个极小的Token做运算。这个极低的计算强度（Arithmetic Intensity）使得GPU的大量算力核心实际上是在“等数据”。这就是为什么决定LLM推理速度的不是算力峰值（TFLOPS），而是内存带宽（HBM BW）。

3.3 CPU带宽在AI推理中的角色

既然GPU内部已经带宽受限，为什么CPU的单核带宽也重要？原因在于数据搬运的全链路瓶颈。

在典型推理流程中，数据需要经过三级搬运：磁盘→系统内存（DDR），系统内存→显存（HBM），显存→GPU核心。CPU的单核带宽决定了第二阶段能多快“喂饱”GPU的管道。如果CPU单核带宽太低，连填满PCIe或NVLink通道的速度都达不到，那么价值数万美元的GPU就只能在前端空等。

此外，在NVIDIA Grace-Hopper这样的C2C互联架构中，CPU内存和GPU显存构成统一地址空间，GPU可直接访问CPU内存。此时CPU内存带宽过低，就相当于给GPU连了一根吸管而非消防栓。NVIDIA强调6GB/s的单核带宽，本质上是在定义“什么才是一个合格的AI CPU”，传递“平衡核心数和单核性能比盲目堆核更重要”的设计哲学。

四、推理引擎与推理框架：一个容易混淆的概念

在讨论AI推理部署时，“推理框架”和“推理引擎”两个词常被混用，但它们在软件栈中处于不同层级。

4.1 本质区别

可以用一个比喻来理解：

推理框架是“菜谱”：负责定义模型结构，并将训练好的模型转换成标准化的中间格式。
推理引擎是“灶台”：负责读入菜谱，然后针对具体硬件高效地执行这些计算任务。

4.2 功能定位对比

维度	推理框架	推理引擎
关注阶段	模型转换时（离线性）	模型运行时（在线性）
硬件依赖	低，与目标硬件无关	极高，针对特定芯片深度调优
输入	训练产出的模型文件（.pth, .h5）	框架导出的中间格式（.onnx）
输出	中间表示文件（IR）	硬件计算结果
典型任务	图优化、算子融合、模型量化	内存分配、内核启动、硬件指令下发
典型代表	PyTorch、ONNX	TensorRT、OpenVINO、TVM、SGLang