当前位置：首页 > news >正文

黄仁勋在GTC宣判了训练时代的死亡

news 2026/3/26 20:41:56

3月17日，黄仁勋站在GTC 2026的舞台上，讲了将近两个小时。

他说了两句话，足以让整个行业坐立不安。

第一句：黄仁勋在GTC上给出了一个数字：推理算力的需求，将比训练高出1000倍。

第二句：所有SaaS公司都将消失。

这不是危言耸听。这是一位用三十余年把英伟达从游戏显卡厂商变成全球AI基础设施核心供应商的人，对接下来这个时代，给出的最直接判断。

一、推理需求为何是1000倍？

在GTC 2026之前，整个AI产业的竞争焦点是训练。谁能用更少时间训练更大的模型，谁就站在食物链顶端。大模型参数量从百亿飙到万亿，GPU集群从几千张扩张到十几万张。“用多少算力训练了多少token”，成了衡量一家AI公司实力的核心指标。

这套逻辑在训练时代是对的。但它忽略了一件事：训练是一次性的，推理是持续的。

想象一下：GPT-4这类大模型，从训练到发布，只需要训练一次。但一旦部署，每天响应的用户请求可能是数以亿计。每一次对话、每一次搜索、每一次代码补全，背后都是一次推理计算。用户规模越大，推理需求越高；应用场景越多，推理需求越高；AI深入业务流程的程度越深，推理需求越高。

再叠加一个更关键的变量：AI智能体（Agent）。

传统AI应用，用户问一句，模型答一句，一次推理。但Agent是不同的——它需要感知环境、制定计划、调用工具、执行步骤、验证结果。完成一个复杂任务，可能需要成百上千次推理调用。黄仁勋在GTC上的判断是：未来企业的每一个业务流程，都将由AI智能体来完成。

训练，是一次性的。推理，是持续的、指数级增长的。

这就是为什么是1000倍。

二、Token工厂：CEO们要学会管算力产能了

黄仁勋在GTC上抛出了一个极具破坏力的新概念：Token工厂。

他说：“未来，全球的CEO将像管理产能一样管理Token输出率。”

这句话描述的是一种正在发生的现实。过去，企业的核心资产是数据、人才、品牌。未来，将再加上一项：Token产能——你的AI系统每秒能处理多少推理，每次推理的成本是多少，延迟是多少。这将直接决定你的业务响应速度、客户体验质量，以及整个运营成本结构。

然后，黄仁勋在台上公布了一个数字。

这个数字，让台下沉默了一秒。

Vera Rubin平台，将单token推理成本降至上一代的十分之一。

成本下降90%，意味着什么？

意味着过去因为“太贵而无法规模化”的AI应用场景，将集中爆发。医院可以给每个病历配一个AI助诊；教育平台可以给每个学生提供真正个性化的实时辅导；每一家企业的每一条工作流，都可以被AI智能体接管。被Token成本压制的一切需求，即将被集中释放。

黄仁勋把这个时代叫做“推理时代”，但更精准的描述或许是：AI从“精英特权”变成“基础设施”的时代。

三、SaaS的葬礼

“所有SaaS公司都将消失。”

这是GTC 2026全场最炸裂的一句话，也是最容易被误读的一句话。

黄仁勋的意思不是说软件会消失，而是说：传统SaaS的商业模式，将被AI Agent从根本上瓦解。

理解这个判断，需要先理解SaaS的本质。SaaS的核心逻辑是：把一种标准化的软件能力，通过订阅的方式持续出售给用户。你买的是“功能”——CRM的客户管理功能、ERP的财务管理功能、项目管理工具的协作功能。

但AI Agent出现之后，这个逻辑被釜底抽薪了。

Agent不购买“功能”，Agent完成“任务”。你不需要一个CRM系统来管理客户，你只需要一个Agent，告诉它“帮我跟进这100个潜在客户”，它会自己调用各种工具、发邮件、安排日程、更新记录、生成报告。它完成的是结果，而不是使用一个界面。

这意味着，过去软件公司卖的那层“功能封装”，将逐渐变得透明、可替代。未来的软件竞争，不是“谁的界面更好用”，而是“谁的Agent能力更强、执行更可靠、成本更低”。

这是黄仁勋在GTC上反复提到「OpenClaw是个人AI时代的操作系统」的底层逻辑——操作系统级别的基础设施，从来不向上层应用妥协。它只会替代它们。

四、英伟达押注的不是芯片，是重写世界的基础设施话语权

理解了前三点，再来看GTC的核心发布，你会看到一个完全不同的逻辑。

这些发布背后，有一个统一的战略意图：把推理时代的每一层基础设施，全部纳入英伟达的版图。

这次的主角是Vera Rubin平台——它已经不是一颗芯片，甚至不是一个芯片系列，而是一套完整的AI超算基础设施体系：Vera CPU、Rubin GPU、NVLink 6高速互联、ConnectX-9超级网卡、BlueField-4数据处理单元，加上今年首次整合进来的Groq 3 LPU。

Groq是一家专注推理加速的公司，英伟达去年12月以约200亿美元与Groq签署技术授权协议，并引入其核心团队。Groq 3 LPU做的那件事，可以这样理解：过去GPU做推理，像一辆性能优异但路况受限的赛车；Groq 3 LPU的加入，是给这辆赛车单独修了一条极速专用道——专为AI智能体高并发、低延迟的场景设计，带宽是同类HBM4的近7倍。

还有一个发布，让人有点震惊：Vera Rubin Space Module。

英伟达把AI算力送上了太空。与H100相比，太空推理算力提升最高25倍。合作方是Axiom Space和Planet Labs。这不是噱头——现代地球观测卫星每天拍摄的图像数据，远超地面传输带宽。如果能在轨道上完成目标识别，只把“有价值的结论”传回地面，传输成本将大幅下降。AI算力的边界，正在从数据中心扩展到轨道空间。

支撑这一切的底座，是英伟达用20年时间打造的CUDA生态。黄仁勋多次强调，CUDA是推动加速计算的核心飞轮。这个飞轮的护城河，不仅仅是技术，更是20年里积累的开发者习惯、工具链、框架生态——这些东西，不是用钱或时间能复制的。

下一代架构“费曼”（Feynman）已经在路线图上：台积电1.6nm制程，引入光通信技术，黄仁勋说它将支撑“百万倍算力需求”。

英伟达的战略意图很清楚：用每一代架构，把竞争对手的追赶窗口压缩到极限。从地面到太空，从训练到推理，从硬件到软件栈——全覆盖。

结语：你的认知框架，过时了吗？

黄仁勋在GTC 2026用将近两个小时说了一件事：游戏规则变了。

但这件事的冲击力，不在于英伟达发布了什么，而在于它正在逼迫每一个置身AI行业的人，重新检视自己的认知框架。

如果你是一家企业的技术负责人，今天还在用“我们用了多少参数的模型、训练了多少数据”来衡量AI能力，那你的评估框架可能已经过时了。推理时代的核心竞争力是Token产能、推理延迟、单次调用成本——这些词，将越来越频繁地出现在你的技术评审会上。

如果你在做SaaS，今天还在迭代功能界面、优化用户体验流，那你需要认真想一个问题：当你的用户可以用一个Agent直接完成任务的时候，他们还需要你的界面吗？

如果你是一个技术人，今天的职业价值还建立在“我能实现这个功能”上，那你需要往上走一层：从实现者变成架构者，从功能交付者变成系统设计者，从执行Agent的人变成指挥Agent的人。

历史上，每一次基础设施的范式转移——从大型机到个人电脑，从本地软件到云计算——都曾经释放出数量级的新需求，也都曾经让一批没有及时迁移认知框架的人，从时代的中心滑落到边缘。

推理时代，已经开始了。

这不是黄仁勋的预言。这是一场已经开始的迁移，正在等待你决定：你站在新大陆上，还是还在旧船上？