当前位置: 首页 > news >正文

OpenAI与Broadcom联合推出专为AI推理打造的定制芯片Jalapeno

OpenAI今日正式发布了一款名为Jalapeno的定制芯片,将用于驱动其旗下的大语言模型。

该处理器由OpenAI与Broadcom联合开发。Broadcom在定制芯片设计领域经验丰富,此前曾协助谷歌开发TPU系列AI加速器,谷歌还于今年4月将与Broadcom的芯片合作协议延长至2031年。

英伟达的旗舰Rubin显卡既能处理训练任务,也能承担推理工作负载。相比之下,Jalapeno专为推理场景设计——即AI模型在响应用户查询时的运行过程。据OpenAI介绍,早期测试结果显示,Jalapeno在每瓦性能方面显著优于"当前最先进水平",这一表述可能是在暗指英伟达的芯片产品。

目前OpenAI公开的关于Jalapeno设计细节仍十分有限。不过,官方博客文章提到,其底层"架构旨在减少数据移动"。这一表述暗示,Jalapeno的架构可能着力降低逻辑电路与片外存储器之间的数据传输量——这正是推理集群中的主要性能瓶颈之一。

AI芯片供应商通常采用多种方式来减少数据移动,其中最常见的方案是为加速器配备大容量片上SRAM(一种高速存储器)。芯片集成的SRAM越多,需要传输至片外存储器的数据量就越少。Cerebras Systems和Groq均采用了这一技术路线。

OpenAI表示,基于Jalapeno的推理集群将采用多项Broadcom网络技术,其中包括Tomahawk芯片系列——该系列专为以太网交换机供电而设计,支持同机架内服务器之间以及跨机架的数据传输。

Broadcom最新推出的Tomahawk 6可实现每秒高达1.6太比特的流量处理,并内置拥塞管理引擎,能有效解决可能拖慢连接速度的网络瓶颈问题。

OpenAI计划将Jalapeno芯片与Broadcom提供的网络设备部署于定制服务器机架中,并与总部位于多伦多的数据中心设备设计服务商Celestia Inc.合作开发相关系统。Celestia还可协助客户优化服务器生产线。

OpenAI计划于今年年底前上线首批Jalapeno服务器,并逐步扩大该芯片的应用规模。其博客文章将Jalapeno定位为"多代计算平台的第一步",暗示未来可能还将开发更多推理处理器,甚至为模型训练等相邻场景设计定制芯片。

Jalapeno还有望为OpenAI开辟新的营收来源。英伟达目前以DGX一体机的形式销售显卡产品,这类系统集成了CPU、散热模块及其他硬件。OpenAI具备推出搭载Jalapeno的竞争性一体机产品的实力,甚至可借助此类系统为企业客户提供本地化部署其AI模型的能力。

进军利润丰厚的AI硬件市场,不仅有望推动OpenAI的营收增长,还可能在其即将到来的公开募股过程中提升投资者兴趣。其主要竞争对手Anthropic近期已提交上市申请。对OpenAI而言,一套推理硬件产品将成为路演过程中极具价值的差异化筹码,尤其是在Anthropic可能抢先上市的情况下。

Q&A

Q1:Jalapeno芯片和英伟达的GPU有什么区别?

A:英伟达的旗舰Rubin显卡既能处理AI训练任务,也能承担推理工作负载,是一款通用型AI加速器。而Jalapeno专为推理场景设计,即专注于AI模型响应用户查询时的运行过程。据OpenAI早期测试数据,Jalapeno在每瓦性能方面显著优于当前最先进水平,这可能意味着其能效比英伟达芯片更高。不过由于Jalapeno目前仅用于推理,并不支持模型训练任务。

Q2:Jalapeno芯片在架构设计上有什么特别之处?

A:OpenAI透露,Jalapeno的底层架构着力"减少数据移动",即降低芯片逻辑电路与片外存储器之间的数据传输量。这是推理集群中的主要性能瓶颈。业内常见的解决方案是在芯片内集成大容量SRAM高速存储器,Cerebras和Groq均采用了类似思路,Jalapeno也可能沿用这一方向,但OpenAI目前尚未公开更多具体设计细节。

Q3:OpenAI推出Jalapeno芯片对其上市有什么影响?

A:Jalapeno芯片有望帮助OpenAI打入利润丰厚的AI硬件市场,并开辟新的营收来源。OpenAI可以效仿英伟达DGX一体机的模式,推出搭载Jalapeno的AI推理一体机,甚至支持企业客户在本地部署其AI模型。在竞争对手Anthropic已提交上市申请的背景下,拥有自研推理硬件产品将成为OpenAI路演时的重要差异化优势,有助于提升投资者信心。

http://www.jsqmd.com/news/1078403/

相关文章:

  • Activity Host 作为确定性编排与认知智能代理的桥梁
  • AI漫剧创作工具性价比适配梳理
  • Elasticsearch迁移到Qdrant实战指南:向量搜索性能优化与生产落地
  • 看完就会:盘点2026年好评如潮的的AI智能降重工具
  • gc触发crash,根因却是unsafe
  • 三位科技先驱谈如何与AI建立信任与责任机制
  • Bright Data AI Agent VS 传统爬虫开发
  • 从零搭建小红书爆文分析系统:日均处理 2500 条笔记的工程实践
  • 特征工程中的编码策略与特征选择:从信息泄漏防护到统计检验驱动筛选
  • OpenGL学习笔记-03-VBO/VAO
  • Python实战:Excel箭头取值算法,一次解决上下查找匹配问题
  • 基于SpringBoot的校园社团管理与发展态势分析系统
  • LeetCode 3737.统计主要元素子数组数目 I:枚举+计数
  • 大语言模型(LLM)核心技术与训练全流程解析
  • 星载深度学习实战:深空探测中的模型压缩与实时部署
  • 快速搭建MQTT服务器:5步搞定
  • 5套AI提问万能框架,同样问题答案质量直接提升40%
  • MeTube:自托管的 yt-dlp 下载管理界面
  • G1 释放物理内存,避免长期无效占用内存
  • 企业级AI落地实操指南:Copilot Studio与Azure AI Search深度集成
  • 想住阳朔遇龙河民宿?这几家凭啥成游客首选,速来揭秘!
  • 被需要的感觉,会上瘾
  • 为什么pandas读Excel日期列全是浮点数字?
  • 2轴舵机控制板
  • LLM Evaluation 论文盘点:从静态榜单到动态、抗污染、任务化评测
  • Linux命令:zsh
  • Roblox帧率解锁终极指南:如何免费突破60FPS限制获得流畅游戏体验
  • MonetaMarkets的账户协同感够不够清楚?
  • 后端工程师转型AI第一课--Ollama与私有化大模型实战
  • 从手动配置到预设即代码