当前位置: 首页 > news >正文

马斯克全球最大GPU集群建成,Grok要起飞了!

来源:量子位

刚刚,全球首个GW级超算集群Colossus 2,正式投入运行

马斯克兴奋喊话:

这是全球首个达到1GW的超算集群,4月还将进一步升级至1.5GW。

网友直呼疯狂:「1.5GW,光是插座估计都得给墙壁装满了。」

有了这剂算力强心针,Grok的忠实拥趸已经提前开香槟,开始畅想Grok5的统治时代。

但在全网狂欢的背后,更多的人是苦不堪言——

2026年夏天,美国13个州的6700万居民,可能要因数据中心的存在被停电,没空调吹了。

全球首个GW级训练集群

老马的执行力太恐怖了。

不靠亚马逊,不靠微软,也没有「星际之门」计划,一己之力于孟菲斯平地建起一座1GW的超算集群。

前一代超算集群Colossus 1从无到有仅用了122天。

它配备约20万颗英伟达H100/H200和约3万颗英伟达GB200 NVL72。

而在此基础上翻了好几倍,功率达到1GW的Colossus 2,只花了仅仅不到一年。

1GW是什么概念?

一般来说,1GW可以为75万户家庭供电,相当于高峰时期的旧金山。

一座核电站的功率差不多也就是1GW。

如果按马斯克所说,今年4月份,Colossus 2将升级至1.5GW,最终总装机容量达到2GW,这个数字将与美国大多数主要城市的用电量相当。

按照规划,彻底完工后的Colossus 2将内置55.5万张GPU,远超Meta的15万、微软10万,以及谷歌的分布式基础设施。

而这庞大的资源,全部为Grok独自享用。

此前,曾有爆料称Grok 5的参数将达到惊人的6万亿左右,是Grok 4的两倍以上。

原因便是基于Colossus 2:

当时有观点认为Grok 5将在拥有数十万张英伟达GPU的Colossus 2上训练,耗电量约为1GW。

如今,Colossus 2已正式上线,1GW的条件也正正好好满足

而随着前段时间xAI E轮融资200亿美元的进账,Grok 5的Scaling筹码还在进一步增加。这意味着更大的模型参数,更快的训练速度、迭代速度,部署速度。

当OpenAI还在为2027年的算力基础设施发愁时,xAI已经把一座「城市级」AI 工厂开机运行,将Grok 5提前扶上了市场心目中的下一个SOTA。

正如网友所说,AI时代,速度就是最强的护城河。

居民受不了啦!

不过,并非所有人都因这种「速度」受益。

据《华尔街日报》消息,美国非营利电网运营商PJM,未来可能在极端高温或严寒天气期间,轮流对区域内的居民断电。

这意味着,美国13个州的6700万人,在今年不得不迎来一个相当难熬的夏天。

要说清楚这个问题,得先明白PJM是干嘛的。

PJM,简单来说就是美国能源系统的交通指挥中心,它根据实时用电需求,协调发电厂何时增发、何时降载,以维持供需平衡。

然而,大模型大力出奇迹的竞赛正在破坏这种平衡。

在数据中心建设热潮推动下,PJM预计未来10年电力需求将以年均4.8%的速度增长。

对一个多年需求变化不大的系统来说,这样的增速相当罕见。

一边需求激增,另一边,供给的增速却相当缓慢。新建电厂的速度甚至都跟不上老电厂的退役速度,电网容量面临饱和。

供需一旦出现偏差,电网频率就会波动,进而可能损坏发电厂等关键基础设施。

为避免这些风险,PJM只能两害相权取其轻,通过在用电高峰期轮流停电来卸压。

PJM也不是没想过其他办法。

去年9月,PJM发布了一系列提议,希望数据中心在高峰时段主动降低用电量,或改从其他渠道获取电力支持。

然而,亚马逊、谷歌、微软等几乎都表示了反对,认为这是对数据中心的歧视

值得一提的是,PJM主要负责美国东海岸地区,而xAI的Colossus位于中南部,并不在PJM电网覆盖范围内。

同时,为减少对当地电网的冲击,xAI还部署了168个特斯拉Megapack电池储能系统,在用电高峰期提供电力缓冲,尽量避免周边居民遭遇停电。

http://www.jsqmd.com/news/270672/

相关文章:

  • 智能填空系统实战:BERT模型部署指南
  • 机器人学习!(二)ROS2-环境配置(6)2026/01/19
  • 小白也能玩转文本排序!Qwen3-Reranker-0.6B保姆级教程
  • SGLang-v0.5.6部署实战:混合精度推理加速技巧
  • GTE中文语义相似度计算实战:新闻标题去重系统构建
  • 快速理解LED显示屏与NovaStar控制系统的安装流程
  • SenseVoice Small保姆级教程:语音识别模型训练
  • AI读脸术 vs 传统方案:人脸属性分析性能对比实战评测
  • 图片旋转判断模型Docker部署全攻略:一键启动服务
  • DeepSeek-R1-Distill-Qwen-1.5B参数详解:top_p与temperature协同调优
  • Qwen3-4B推理吞吐低?vLLM并行优化实战解决方案
  • Hunyuan-MT-7B-WEBUI前端优化:WebSocket实现实时交互体验
  • 从论文到落地:SAM3提示词引导分割模型镜像一键部署教程
  • 【毕业设计】SpringBoot+Vue+MySQL 在线课程管理系统平台源码+数据库+论文+部署文档
  • DCT-Net模型版权保护:数字水印技术应用
  • 智能扫描仪部署教程:中小企业文档数字化入门指南
  • 君乐宝冲刺港股:9个月营收151亿净利9亿,刚派息10亿 红杉与春华是股东
  • ComfyUI云端部署:基于容器化的一键启动解决方案
  • YOLOv9/YOLOR多模型对比:基于YOLOR架构的性能评测
  • BGE-Reranker-v2-m3优化实战:处理长尾查询的挑战
  • 图解说明UDS诊断协议通信流程图
  • 别再人盯系统了!DevOps Agent自主值守,智能预见运维风险
  • 语音工程师必备:FSMN-VAD快速搭建技巧
  • AutoGen Studio部署案例:企业知识管理系统构建教程
  • Glyph开源价值解析:为何选择自主部署方案
  • YOLOFuse避坑指南:单模态用户迁移注意事项说明
  • 如何用文字生成萌宠图片?Cute_Animal_For_Kids_Qwen_Image步骤详解
  • 如何用AI捏出理想声音?Voice Sculptor镜像快速上手
  • 从口语到书面语一键转换|FST ITN-ZH镜像实战指南
  • FunASR语音识别数据安全:敏感信息处理策略