当前位置: 首页 > news >正文

谷歌第八代 TPU 来了:性能提升 124%

前言

这几天 Google Cloud Next 大会上最炸圈的不是 Gemini 新版本,是两块芯片。

谷歌推出了 TPU8t(训练用)和 TPU8i(推理用),每瓦性能分别比上一代提升 124% 和 117%,TPU8i 每美元性能提升 80%。圈内人说了一句话:「如果对外出售,或将取代英伟达。」

本文从技术角度梳理这次 TPU 更新的核心变化,以及它对 AI 算力格局的影响。

适合谁看

  • 关注 AI 芯片技术方向的开发者
  • 需要选型云端 AI 算力的工程师
  • 想了解英伟达 GPU vs 谷歌 TPU 差异的读者

一、谷歌第八代 TPU 到底更新了什么

1.1 两款芯片的定位

型号用途每瓦性能提升每美元性能提升
TPU8tAI 模型训练+124%未披露
TPU8iAI 模型推理+117%+80%

TPU8t 和 TPU8i 是分开优化的产品。训练芯片追求绝对吞吐量,推理芯片更在意成本效率——这个设计逻辑和英伟达的 H100(训练)/ L40S(推理)分开产品线的思路是一样的。

1.2 TPU 和 GPU 的核心区别

很多人问:TPU 到底比 GPU 强在哪?

GPU 是通用并行计算单元,设计之初是为图形渲染,后来被 CUDA 生态绑定到 AI 计算上。

TPU(Tensor Processing Unit)是谷歌专门为矩阵运算设计的芯片,对 Transformer 架构的大模型有针对性优化:

GPU(通用): CUDA Core → 支持各类并行计算 优点:生态好,工具链成熟 缺点:通用设计带来的功耗偏高 TPU(专用): TPU Core → 针对矩阵乘法(矩阵×矩阵)深度优化 优点:特定任务效率极高,功耗比更好 缺点:只能在谷歌云上用,生态相对封闭

1.3 124% 性能提升是怎么实现的

具体架构细节谷歌没有完全披露,但结合已知信息,主要来源于三个方向:

1. 内存带宽扩大:大模型推理的瓶颈常常不在算力,而在内存读取速度。第八代 TPU 进一步提升了 HBM(高带宽内存)的带宽。

2. 互连架构升级:多芯片协作时,数据传输效率提升了,理论峰值算力更容易被实际利用到。

3. 制程迭代:更先进的制程意味着同等功耗下,晶体管密度更高,运算能力更强。


二、对 AI 开发者意味着什么

2.1 Google Cloud 算力成本可能下降

TPU8i 每美元性能提升 80%,直接影响的是在 Google Cloud 上跑推理的成本。

如果你的业务在 GCP 上运行大模型推理(比如用 Vertex AI 调用 Gemini),这个提升意味着同样的预算能跑更多请求,或者同样的请求量花更少的钱。

2.2 自研芯片生态加速成形

谷歌不是唯一在做这件事的:

  • 亚马逊:Trainium2(训练)+ Inferentia3(推理)
  • 微软:Maia 2(与 OpenAI 联合使用)
  • 阿里:倚天 + 含光 910B
  • 百度:昆仑 3

云厂商都在绕过英伟达自研芯片,原因很直接:减少对英伟达的依赖,降低算力采购成本,掌握硬件层的主导权。

2.3 对框架和工具链的影响

目前 TPU 使用的主要是 JAX 框架(谷歌自家的),PyTorch XLA 也支持,但生态成熟度和 CUDA 没法比。

如果你的训练代码是 PyTorch 写的,迁移到 TPU 有一定门槛:

python

复制

# PyTorch on GPU device = torch.device("cuda") model.to(device) # PyTorch on TPU (需要 torch_xla) import torch_xla.core.xla_model as xm device = xm.xla_device() model.to(device) # 注意:TPU 上的调试比 GPU 更麻烦,建议先在 CPU 上跑通逻辑

主要坑点:

  • TPU 对动态计算图支持不好,最好用静态图
  • 部分 PyTorch 算子在 TPU 上没有原生实现,会 fallback 到 CPU
  • 数据加载管道需要重新优化,否则 TPU 会被饿到

三、英伟达真的会被取代吗

3.1 短期内不会

英伟达的护城河有三个:CUDA 生态、供应链、H100/H200/B200 的实际性能领先。

CUDA 是最难撼动的。过去十几年,PyTorch、TensorFlow 几乎所有的优化都是围绕 CUDA 做的。大量工程师的肌肉记忆、已有的代码库、成熟的调试工具——这些不是换一块更便宜的芯片就能解决的。

3.2 中长期有压力

但也要看清楚:

  • 推理侧的竞争比训练侧激烈得多。推理是高频、规模化的,成本敏感度更高。TPU8i 在推理成本上的优势,会推动更多企业在推理场景选择 GCP。
  • Transformer 之后的模型架构还在演变。如果未来主流架构对矩阵乘法的依赖度变化,通用 GPU 和专用 TPU 的优劣势也会重新洗牌。
  • 英伟达今年出货量受限(B200 供应紧张),云厂商自研芯片的替代压力在加大。

3.3 务实建议

如果你是开发者,现在不用急着迁移,但可以关注:

  • 你的业务推理成本是不是主要开销?如果是,Google Cloud TPU 值得评估
  • 你用的框架是不是 JAX?如果是,TPU 迁移成本很低
  • 你的模型规模多大?超大模型(千亿参数以上)TPU Pod 有优势

四、总结

这次谷歌第八代 TPU 的发布,几个核心要点:

  1. 性能提升明显:训练提升 124%,推理提升 117%,推理成本效率提升 80%
  2. 英伟达短期无忧:CUDA 生态护城河没那么容易突破
  3. 云厂商自研芯片大势所趋:谷歌、亚马逊、微软、阿里都在做,算力竞争从芯片本身延伸到了整个基础设施层
  4. 推理侧是主战场:成本敏感的推理场景,是 TPU 们最有机会的切入点

英伟达的王座还在,但坐得没之前稳了。

你的业务有考虑过 TPU 替代方案吗?或者在 GPU vs TPU 选型上有踩过什么坑?欢迎评论区交流。

http://www.jsqmd.com/news/700992/

相关文章:

  • 重构远程控制:基于WebRTC的下一代跨平台解决方案
  • 当前国产模型编程哪家最强?Reddit 社区实测反馈分析
  • 基于LlamaIndex构建高效RAG系统的实践指南
  • 新概念英语第二册34_Quick work
  • Vue项目SEO优化新思路:实测translate.js如何让单页应用更受搜索引擎青睐
  • HPRMAT:混合精度与GPU加速的核反应计算突破
  • 从零构建原神私服:KCN-GenshinServer的3大架构创新与技术突破
  • Oasis智能体框架:从目标驱动到自主任务规划的AI工程实践
  • 移动端架构治理
  • 决策树建模实战:从数据准备到预测应用
  • python中eval的用法及说明
  • Transformer模型训练技巧与实战问题解析
  • SMS Backup+:守护你的珍贵通信记忆,让手机数据永不丢失
  • DeepSeek V4 的成功发布,Opus 4.7 的落寞:中美大模型正在进行一场上甘岭战役
  • 2026年比较好的高纯洁净不锈钢管/氢能用洁净不锈钢管厂家哪家好 - 品牌宣传支持者
  • Parlant:构建可控AI对话智能体的上下文工程与动态匹配框架
  • 西里网已完成备案,对西里网感兴趣,欢迎朋友们,收藏使用!
  • airPLS算法突破:自适应迭代加权惩罚最小二乘法革新基线校正技术,实现3倍性能提升
  • 开源AI知识库与Vibe Coding实战:从零构建AI驱动的开发工作流
  • 线性回归入门教程:Excel实现与实战技巧
  • C++ Move 构造与拷贝构造的区别
  • 轻松解锁显卡隐藏性能:NVIDIA Profile Inspector完整实用指南
  • 语雀文档批量导出难题破解:yuque-exporter 让内容迁移变得如此简单
  • 构建AI驱动的Obsidian智能代理客户端:从原理到实践
  • 2026留学生暑期实习服务可靠品牌标杆名录盘点:留学生实习内推、留学生找国内实习、留学生找实习、留学生找工作、留学生新加坡找工作选择指南 - 优质品牌商家
  • 深入探索 Agentic Workflow:开启 AI 智能体的新篇章
  • Python基础:整数浮点数布尔值的运算与常用操作
  • 闲鱼自动化数据采集系统:打造你的智能二手商品监控助手
  • Winhance中文版:让Windows系统优化变得简单高效的智能工具
  • 深入浅出 MCP (Model Context Protocol): 赋予 AI Agent 强大的工具调用能力