当前位置：首页 > news >正文

英伟达发布Groq 3 LPX推理加速器，瞄准AI基础设施下一战场

news 2026/7/7 14:59:21

2026年被预测为AI从试点转向生产的关键之年，将在企业中发挥可衡量的价值。但尽管许多企业已经准备就绪，底层基础设施似乎还未跟上步伐，特别是在下一阶段的推理计算方面。

英伟达表示已经克服了这些限制，在加速计算领域取得了其称之为"里程碑式"的成就。

这家芯片公司今日发布了针对Vera Rubin GPU的英伟达Groq 3 LPX推理加速器。这种组合架构针对"万亿参数模型和百万Token上下文"进行了优化，英伟达声称可以实现每兆瓦最高35倍的推理吞吐量提升，以及最高10倍的收入机会增长。

Groq 3 LPX在今日的英伟达GTC大会上发布，它是包含七款新芯片和五个机架的架构的一部分，旨在协同工作形成"一台大型超级计算机"。

英伟达表示，这一发布代表了范式转变，架构正从仅仅训练大语言模型转向在生产环境中运行推理工作负载。

Moor Insights & Strategy副总裁兼首席分析师Matt Kimball指出："训练是一种'忘记预算、忘记功耗，尽快训练好模型'的思维方式，而推理是AI驱动工作流和应用的持续性能表现。"

他指出，这是一个重要的成本考量，"必须在所有地方、所有时间为所有用户实现"。

新的Groq 3语言处理单元基于Groq公司的知识产权，该公司去年底与英伟达签署了200亿美元的许可协议。据这家芯片公司介绍，一组语言处理单元可以作为"巨型单一处理器"运行。

虽然Rubin GPU将继续处理预填充（提示处理），但Groq的LPX现在将处理解码（响应）中的延迟敏感部分。英伟达表示，两者结合可以提供"新级别的推理性能"。

每个LPX机架配备256个语言处理单元，拥有128GB片上静态随机存取存储器、150TB/s带宽、芯片到芯片链路以及与NVL72（英伟达液冷AI超级计算机）的高速连接。英伟达声称，这些组合可以将延迟降低到"接近零"。

LPX与Vera Rubin AI工厂的集成将在今年下半年推出。

Greyhound Research首席分析师Sanchit Vir Gogia指出，训练和推理对基础设施的压力截然不同。训练奖励"大规模并行处理和暴力扩展"，而推理（特别是长上下文和交互式推理）对延迟、内存移动、缓存行为、并发性和每个Token交付成本要敏感得多。

GPU在训练方面表现"卓越"，但行业已经达到了一个单一主导GPU方案不再足够的阶段，Gogia说。训练是有限的，而推理是连续的：每个提示、工具调用、推理步骤、检索循环和智能体循环都会在生产中消耗资源。

他说，LPX正在解决AI基础设施堆栈中"最棘手的部分"，挑战不仅仅是原始计算能力。当前的AI部署在必须结合长上下文、顺序Token生成、内存压力和低延迟期望时开始"摇摆不定"，同时还要在不可预测的交互式需求中保持昂贵基础设施的可用性。

"英伟达现在公开围绕推理作为独特的系统问题重新设计加速计算，而不是假装同一架构可以优雅地处理从训练到长上下文、交互式、智能体推理的所有事情，"Gogia说。"这才是真正的转变。"

LPX之所以至关重要，是因为它解决了预填充-解码分离问题。预填充和解码是大语言模型推理的两个基本但截然不同的阶段。

Kimball解释说，预填充是提示阶段：输入一个问题，进行解释，并"从一堆来源收集大量数据"来创建上下文并确定正确答案。另一方面，解码（也称为自回归推理）发生在用户看到响应时。

"推理实际上是一个标题下的两个工作负载：预填充和解码，"Kimball说。"预填充是高度并行化的，解码是高度串行化的。"

GPU对预填充是最佳选择，因为它们擅长高度并行化功能；像Groq这样的加速器更适合解码，因为它们擅长高度串行化任务，其中Token生成是完全并行化的。

"解码越快，我的智能体工作流表现越好，"Kimball说。

他指出，AWS和Cerebras最近也宣布了通过Bedrock支持这种分解推理环境的合作伙伴关系，并称英伟达的公告不仅是AI经济学的转变，也是推理经济学的转变。

"我们有这些训练好的模型，推理是AI在企业中真正实现的地方，"Kimball指出。"如果这些模型不能使流程更准确、更快速、更高效，那有什么用呢？"

不过，重要的是要理解LPX并不是"通用企业技术故事"，Gogia指出。

"它是对高级、延迟敏感、内存密集型推理工作负载需求的专业化基础设施响应，"他强调说，"IT领导者不应被英伟达的性能框架迷惑。"

每个IT领导者应该问的第一个问题是"极其简单的"：他们的工作负载真的需要这种级别的基础设施吗？

因为实际上，大多数企业不需要万亿参数推理和百万Token上下文作为默认运营模式。许多企业仍在努力管理较小规模的生成式AI部署，更不用说工业规模的智能体系统了。

他指出，企业在AI下一阶段的更大突破将来自更好的模型路由、缓存、软件优化、内存管理、工作流重新设计和推理遥测，而不是"直接跳到最先进的机架规模架构"。

另一个重要考虑是内部工作负载经济学：应用程序每个有用Token的成本是多少？当上下文扩展、用户增加或智能体开始链接更多推理步骤时会发生什么？有多少基础设施真正得到了利用？

"这些才是真正的问题，因为AI基础设施越来越关注'有效输出'，而不仅仅是吞吐量，"Gogia说。

此外，他指出，IT领导者应该将内存视为"战略约束"。长上下文和KV-cache增长不会消失，虽然英伟达对此的"巧妙"回答是分层、外部化上下文内存和跨机架协调，但这使得架构决策更加复杂。

此外，Gogia指出，功耗和冷却必须被视为一级变量，领导者必须密切关注生态系统成熟度和锁定问题。英伟达试图不仅拥有硅层，还要拥有系统设计、编排和存储分层，同时主导围绕高级Token的经济叙述。

这使得软件可移植性和生态系统灵活性至关重要。"下一阶段的赢家不会是那些简单购买更多AI基础设施的组织，"Gogia说。"而是那些确切知道高级推理在哪里重要、在哪里不重要，以及如何管理这种差异的组织。"

Q&A

Q1：Groq 3 LPX推理加速器有什么特点？

A：Groq 3 LPX是英伟达发布的推理加速器，专门针对万亿参数模型和百万Token上下文优化。它与Vera Rubin GPU结合使用，可以实现每兆瓦最高35倍的推理吞吐量提升和最高10倍的收入机会增长，主要用于处理延迟敏感的解码任务。

Q2：为什么英伟达要区分训练和推理计算？

A：训练和推理对基础设施的要求完全不同。训练是"忘记预算、忘记功耗，尽快训练好模型"的思维方式，而推理是AI驱动应用的持续性能表现。推理需要处理更多的延迟敏感任务、内存管理和成本控制，因此需要专门的架构设计。

Q3：企业是否需要立即采用LPX技术？

A：不一定。专家建议企业首先评估是否真正需要万亿参数推理和百万Token上下文。大多数企业仍在努力管理较小规模的生成式AI部署，更大的突破可能来自更好的模型路由、缓存优化、软件优化等，而非直接跳到最先进的机架规模架构。

查看全文

http://www.jsqmd.com/news/497918/

【架构】-----Service 层代码太长太乱？试试这套 “见名知意” 的命名规范！

中小企业为什么要重视业财一体化

国内炒黄金的人多不多？炒现货黄金有什么门槛？

HBase在大数据领域海量数据存储的解决方案

收藏 | 从零开始学LangGraph，构建能思考的Agentic RAG系统，小白也能轻松上手！

2026年了，居然还有免费的BIM软件！

Nginx解决前端跨域问题

【JUC并发 | 第八篇】AQS的底层原理

金仓数据库在MySQL迁移中的实践复盘：某汽车集团近百套系统两周平滑替换路径

mysql数据库常规操作2

北航软件工程[I.2] 个人作业：软件案例分析

共享内存与进程间通信(IPC)：提升TDengine时序数据库内部数据流转效率

TCP vs UDP 怎么选（偏实战：别背概念，用场景做决策）

3月面了十几家前端岗后，我才知道大佬这份飞书题库的含金量

求你了，别用 YYYY-MM-dd！

comsol 锂枝晶模型此模型为多枝晶定向形核，可以直接拿来用，不用自己建模，三种物理场：相...

26年春季学期学习记录第8天

MySQL索引入门：B+树原理+创建优化，新手也能看懂慢查询优化

汽车电子构架演进（二）AUTOSAR的组成和演进

python+Ai技术框架的计算思维与人工智能学习网站设计与实现django flask

【后端新手谈 03】告别满屏 try-catch！全局异常处理器的实用价值

大模型落地实战：深度解析 Transformers、vLLM、Ollama 等 6 大主流部署框架

违章真的会让车险涨价吗？很多车主都搞错了，看完少花几千块！（违章真的会影响车险保费吗？一文讲清楚交强险和商业险的浮动规则）

HarmonyOS6 半年磨一剑：RcTag 组件实战案例（一）内容展示与商品筛选

LangChain大模型应用开发指南：小白也能轻松掌握，收藏必备！

当LSTM戴上“概率眼镜“：用贝叶斯视角玩转时间序列预测

【Python × AI】Memory 机制深度解析：为大模型植入“长期记忆”的艺术

中文乱码，解决

相关文章：