当前位置：首页 > news >正文

谷歌第八代 TPU 来了：性能提升 124%

news 2026/4/26 2:29:01

前言

这几天 Google Cloud Next 大会上最炸圈的不是 Gemini 新版本，是两块芯片。

谷歌推出了 TPU8t（训练用）和 TPU8i（推理用），每瓦性能分别比上一代提升 124% 和 117%，TPU8i 每美元性能提升 80%。圈内人说了一句话：「如果对外出售，或将取代英伟达。」

本文从技术角度梳理这次 TPU 更新的核心变化，以及它对 AI 算力格局的影响。

适合谁看：

关注 AI 芯片技术方向的开发者
需要选型云端 AI 算力的工程师
想了解英伟达 GPU vs 谷歌 TPU 差异的读者

一、谷歌第八代 TPU 到底更新了什么

1.1 两款芯片的定位

型号	用途	每瓦性能提升	每美元性能提升
TPU8t	AI 模型训练	+124%	未披露
TPU8i	AI 模型推理	+117%	+80%

TPU8t 和 TPU8i 是分开优化的产品。训练芯片追求绝对吞吐量，推理芯片更在意成本效率——这个设计逻辑和英伟达的 H100（训练）/ L40S（推理）分开产品线的思路是一样的。

1.2 TPU 和 GPU 的核心区别

很多人问：TPU 到底比 GPU 强在哪？

GPU 是通用并行计算单元，设计之初是为图形渲染，后来被 CUDA 生态绑定到 AI 计算上。

TPU（Tensor Processing Unit）是谷歌专门为矩阵运算设计的芯片，对 Transformer 架构的大模型有针对性优化：

GPU（通用）： CUDA Core → 支持各类并行计算 优点：生态好，工具链成熟 缺点：通用设计带来的功耗偏高 TPU（专用）： TPU Core → 针对矩阵乘法（矩阵×矩阵）深度优化 优点：特定任务效率极高，功耗比更好 缺点：只能在谷歌云上用，生态相对封闭

1.3 124% 性能提升是怎么实现的

具体架构细节谷歌没有完全披露，但结合已知信息，主要来源于三个方向：

1. 内存带宽扩大：大模型推理的瓶颈常常不在算力，而在内存读取速度。第八代 TPU 进一步提升了 HBM（高带宽内存）的带宽。

2. 互连架构升级：多芯片协作时，数据传输效率提升了，理论峰值算力更容易被实际利用到。

3. 制程迭代：更先进的制程意味着同等功耗下，晶体管密度更高，运算能力更强。

二、对 AI 开发者意味着什么

2.1 Google Cloud 算力成本可能下降

TPU8i 每美元性能提升 80%，直接影响的是在 Google Cloud 上跑推理的成本。

如果你的业务在 GCP 上运行大模型推理（比如用 Vertex AI 调用 Gemini），这个提升意味着同样的预算能跑更多请求，或者同样的请求量花更少的钱。

2.2 自研芯片生态加速成形

谷歌不是唯一在做这件事的：

亚马逊：Trainium2（训练）+ Inferentia3（推理）
微软：Maia 2（与 OpenAI 联合使用）
阿里：倚天 + 含光 910B
百度：昆仑 3

云厂商都在绕过英伟达自研芯片，原因很直接：减少对英伟达的依赖，降低算力采购成本，掌握硬件层的主导权。

2.3 对框架和工具链的影响

目前 TPU 使用的主要是 JAX 框架（谷歌自家的），PyTorch XLA 也支持，但生态成熟度和 CUDA 没法比。

如果你的训练代码是 PyTorch 写的，迁移到 TPU 有一定门槛：

python

复制

# PyTorch on GPU device = torch.device("cuda") model.to(device) # PyTorch on TPU (需要 torch_xla) import torch_xla.core.xla_model as xm device = xm.xla_device() model.to(device) # 注意：TPU 上的调试比 GPU 更麻烦，建议先在 CPU 上跑通逻辑

主要坑点：