谷歌第八代 TPU 来了:性能提升 124%
前言
这几天 Google Cloud Next 大会上最炸圈的不是 Gemini 新版本,是两块芯片。
谷歌推出了 TPU8t(训练用)和 TPU8i(推理用),每瓦性能分别比上一代提升 124% 和 117%,TPU8i 每美元性能提升 80%。圈内人说了一句话:「如果对外出售,或将取代英伟达。」
本文从技术角度梳理这次 TPU 更新的核心变化,以及它对 AI 算力格局的影响。
适合谁看:
- 关注 AI 芯片技术方向的开发者
- 需要选型云端 AI 算力的工程师
- 想了解英伟达 GPU vs 谷歌 TPU 差异的读者
一、谷歌第八代 TPU 到底更新了什么
1.1 两款芯片的定位
| 型号 | 用途 | 每瓦性能提升 | 每美元性能提升 |
|---|---|---|---|
| TPU8t | AI 模型训练 | +124% | 未披露 |
| TPU8i | AI 模型推理 | +117% | +80% |
TPU8t 和 TPU8i 是分开优化的产品。训练芯片追求绝对吞吐量,推理芯片更在意成本效率——这个设计逻辑和英伟达的 H100(训练)/ L40S(推理)分开产品线的思路是一样的。
1.2 TPU 和 GPU 的核心区别
很多人问:TPU 到底比 GPU 强在哪?
GPU 是通用并行计算单元,设计之初是为图形渲染,后来被 CUDA 生态绑定到 AI 计算上。
TPU(Tensor Processing Unit)是谷歌专门为矩阵运算设计的芯片,对 Transformer 架构的大模型有针对性优化:
GPU(通用): CUDA Core → 支持各类并行计算 优点:生态好,工具链成熟 缺点:通用设计带来的功耗偏高 TPU(专用): TPU Core → 针对矩阵乘法(矩阵×矩阵)深度优化 优点:特定任务效率极高,功耗比更好 缺点:只能在谷歌云上用,生态相对封闭1.3 124% 性能提升是怎么实现的
具体架构细节谷歌没有完全披露,但结合已知信息,主要来源于三个方向:
1. 内存带宽扩大:大模型推理的瓶颈常常不在算力,而在内存读取速度。第八代 TPU 进一步提升了 HBM(高带宽内存)的带宽。
2. 互连架构升级:多芯片协作时,数据传输效率提升了,理论峰值算力更容易被实际利用到。
3. 制程迭代:更先进的制程意味着同等功耗下,晶体管密度更高,运算能力更强。
二、对 AI 开发者意味着什么
2.1 Google Cloud 算力成本可能下降
TPU8i 每美元性能提升 80%,直接影响的是在 Google Cloud 上跑推理的成本。
如果你的业务在 GCP 上运行大模型推理(比如用 Vertex AI 调用 Gemini),这个提升意味着同样的预算能跑更多请求,或者同样的请求量花更少的钱。
2.2 自研芯片生态加速成形
谷歌不是唯一在做这件事的:
- 亚马逊:Trainium2(训练)+ Inferentia3(推理)
- 微软:Maia 2(与 OpenAI 联合使用)
- 阿里:倚天 + 含光 910B
- 百度:昆仑 3
云厂商都在绕过英伟达自研芯片,原因很直接:减少对英伟达的依赖,降低算力采购成本,掌握硬件层的主导权。
2.3 对框架和工具链的影响
目前 TPU 使用的主要是 JAX 框架(谷歌自家的),PyTorch XLA 也支持,但生态成熟度和 CUDA 没法比。
如果你的训练代码是 PyTorch 写的,迁移到 TPU 有一定门槛:
python
复制
# PyTorch on GPU device = torch.device("cuda") model.to(device) # PyTorch on TPU (需要 torch_xla) import torch_xla.core.xla_model as xm device = xm.xla_device() model.to(device) # 注意:TPU 上的调试比 GPU 更麻烦,建议先在 CPU 上跑通逻辑主要坑点:
- TPU 对动态计算图支持不好,最好用静态图
- 部分 PyTorch 算子在 TPU 上没有原生实现,会 fallback 到 CPU
- 数据加载管道需要重新优化,否则 TPU 会被饿到
三、英伟达真的会被取代吗
3.1 短期内不会
英伟达的护城河有三个:CUDA 生态、供应链、H100/H200/B200 的实际性能领先。
CUDA 是最难撼动的。过去十几年,PyTorch、TensorFlow 几乎所有的优化都是围绕 CUDA 做的。大量工程师的肌肉记忆、已有的代码库、成熟的调试工具——这些不是换一块更便宜的芯片就能解决的。
3.2 中长期有压力
但也要看清楚:
- 推理侧的竞争比训练侧激烈得多。推理是高频、规模化的,成本敏感度更高。TPU8i 在推理成本上的优势,会推动更多企业在推理场景选择 GCP。
- Transformer 之后的模型架构还在演变。如果未来主流架构对矩阵乘法的依赖度变化,通用 GPU 和专用 TPU 的优劣势也会重新洗牌。
- 英伟达今年出货量受限(B200 供应紧张),云厂商自研芯片的替代压力在加大。
3.3 务实建议
如果你是开发者,现在不用急着迁移,但可以关注:
- 你的业务推理成本是不是主要开销?如果是,Google Cloud TPU 值得评估
- 你用的框架是不是 JAX?如果是,TPU 迁移成本很低
- 你的模型规模多大?超大模型(千亿参数以上)TPU Pod 有优势
四、总结
这次谷歌第八代 TPU 的发布,几个核心要点:
- 性能提升明显:训练提升 124%,推理提升 117%,推理成本效率提升 80%
- 英伟达短期无忧:CUDA 生态护城河没那么容易突破
- 云厂商自研芯片大势所趋:谷歌、亚马逊、微软、阿里都在做,算力竞争从芯片本身延伸到了整个基础设施层
- 推理侧是主战场:成本敏感的推理场景,是 TPU 们最有机会的切入点
英伟达的王座还在,但坐得没之前稳了。
你的业务有考虑过 TPU 替代方案吗?或者在 GPU vs TPU 选型上有踩过什么坑?欢迎评论区交流。
