当前位置: 首页 > news >正文

两相液冷:从“能跑起来”到“稳得下来”,满足智算中心对热管理的期待

常见问题(FAQ

Q:两相液冷能把PUE降到多少?
A:在液冷区域,局部pPUE可达1.05-1.10;整站PUE典型值约1.15-1.25,取决于自然冷源利用率及室外气候。

Q:存量机房改造需要停机吗?
A:采用模块化两相背板方案,可在不停机条件下部署,单机柜施工约2-4小时,业务中断小于2小时。

Q:两相液冷相比单相液冷,节能效果如何?
A:根据塔能内部测试,冷却能耗可降低40%以上,泵组能耗下降约60%(因流量需求仅为单相的1/5-1/9)。

摘要

AI算力爆发推动机柜功率密度突破30kW,单相液冷在高密度场景下面临局部热点、温度波动大等瓶颈。两相液冷利用相变潜热实现±1.5℃以内精准控温(实验室可达±1℃),从根本上减少热降频,保障算力稳定释放。通过芯片级冷板、机柜级换热、站级集成的三层协同架构,既支持新建智算中心追求极致PUE,也支持存量机房不停机改造。实测显示,方案可降低冷却能耗40%以上,算力承载能力提升30%50%。两相液冷节能方案,让智算中心从能跑起来稳得下来

正文

一、行业正在经历一场静默的热管理革命

1.AI算力爆发,机柜功率密度已逼近风冷与单相液冷的物理极限

近年来,AI训练集群的单机柜功率迅速攀升,从过去的5-10kW跃升至30kW以上,部分头部智算中心甚至规划部署120kW级超高密度机柜。这一趋势的背后,是GPU集群算力呈指数级增长,芯片功耗同步飙升。然而,传统的风冷系统在高密度下已不足以应对,即便是当前主流的单相液冷技术,也在面对局部热点频发、温度波动剧烈等问题时逐渐暴露其局限性(尤其是在机柜功率超过30kW的场景)。

2.液冷不再是要不要做的选择题,而是怎么做才可持续的必答题

随着东数西算工程推进和各地对PUE的严苛限制,数据中心进入PUE时代。仅靠提升空调效率或优化气流组织已无法满足要求,液冷成为新建数据中心的标准配置。但行业正在悄然分化:早期以能降温为目标的液冷方案,正逐步被控温稳定、能效优异、可长期运行的新一代热管理能力所取代。

3.真正的挑战不在散热,而在控温系统协同

许多数据中心反馈:我们上了液冷,为什么机器还是频繁降频?”“为什么PUE改善有限?这反映出一个深层问题:单纯的热量转移并不能保障算力稳定释放。芯片在剧烈温度波动下仍会触发保护机制,导致性能下降。而真正决定算力兑现率的,是能否将核心器件长期维持在最优工作温区——±2℃以内。两相液冷可将温控精度提升至±1.5℃

二、客户的真实困境:热管理正在拖累算力投资回报

1.高密度机柜装得满,跑不满:热瓶颈制约资源利用率

不少数据中心投入重金采购高性能服务器,却因热管理能力不足,被迫降低负载运行。一台设计为30kW的机柜实际只能承载20kW,造成电力、空间与设备资源的巨大浪费。

2.改造项目停不起、改不动:传统液冷方案难以适配存量机房

对于大量已建成的数据中心而言,全面更换服务器或重建冷却系统成本高昂且风险极大。客户需要的是不影响业务连续性的在线升级方案。塔能两相背板方案可在不停机条件下部署,适配主流服务器。

3.运维越来越复杂:设备在线”≠“受控

即便实现了设备联网,许多客户的物联网平台仍停留在数据展示阶段。温度异常报警后,仍需人工排查;冷却系统各子模块独立运行,缺乏联动优化。两相液冷方案通过统一SaaS平台实现远程调控与故障预警。

三、破解困局的关键:从散热系统迈向运行质量基础设施

1.两相液冷的本质,是用相变潜热实现精准控温

相比单相液冷依靠显热带走热量,两相液冷利用液体在微通道内发生气化吸热的相变过程,其换热效率高出数十倍。更重要的是,在沸腾过程中,冷板表面温度近乎恒定,天然具备±1.5℃以内的温度控制精度(实验室可达±1℃)。这意味着,无论芯片瞬时功耗如何波动,都能被快速响应并稳定在设定温区。

2.航天级技术下放,让极端工况下的可靠性成为可能

该技术最早应用于航天器红外探测器、机载雷达等对温控要求极高的场景,历经数十年极端环境验证。如今,这一技术通过模块化设计下沉至数据中心领域,不仅提升了系统的环境适应性,也大幅降低了长期运行中的故障率与维护成本。

3.芯片级+机柜级+站级三层协同,构建系统级热管理能力

单一冷板无法解决全局问题。真正的竞争力在于构建从芯片泵驱冷板机柜背板换热集成冷站自然冷却的全链条热管理架构:芯片级定点冷却CPU/GPU,杜绝局部热点;机柜级背板式两相换热,回收服务器排气余热;站级集成化冷站配合AI寻优控制,最大化利用自然冷源。这一架构既适用于新建智算中心追求极致PUE,也可通过模块化组件实现存量机房不停机改造。

四、未来属于可管、可控、可运营的智能热管理底座

1.物联网平台不是附属品,而是热管理的大脑

通过物联网SaaS平台,可实现实时监测每块冷板的温度、流量、相变状态;动态调节泵压与沸点,匹配负载变化;自动生成能效报告,识别异常能耗;与DCIM系统联动,实现故障预判与远程处置。真正的节能,不是换一批设备,而是建立持续优化的能力。

2.项目交付服务运营:节能变成可量化的成果

在塔能内部测试及客户试点项目中,采用该方案后的数据中心实现:平均PUE降至1.12以下,局部pPUE可达1.05;冷却能耗降低40%以上;服务器热降频事件减少90%AI训练任务中断率显著下降;存量机房算力承载能力提升30%50%。这些结果已在电信、科研等行业得到初步验证。

这场变革的终点,不是谁掌握了某种冷却介质,而是谁真正理解了:未来的基础设施竞争,是运行质量的竞争,是系统能力的竞争,是能否用软件定义硬件、用数据驱动决策的竞争。

免责声明本文数据基于塔能内部测试及典型项目模拟,实际效果受机房环境、负载类型、改造条件等因素影响,具体收益以项目现场评估为准。

http://www.jsqmd.com/news/786452/

相关文章:

  • 港口全真孪生多模态融合穿透视觉智能技术白皮书 】
  • 终极指南:如何在Windows上使用com0com虚拟串口驱动实现零成本串口通信
  • 大语言模型提示词工程:从AI游戏设计到工程实践
  • AI赋能马术:Gemini3.1Pro打造智能护理知识库
  • Godot引擎集成FFmpeg:专业视频解码与跨平台编译实战
  • CANN/ops-cv图像偏移变换算子
  • 基于Cursor-Agents-Kit构建AI编程智能体:从原理到团队实战指南
  • Sunshine游戏串流服务器:3步搭建你的跨平台游戏云
  • 万字长文!最详GEO攻略!重磅盘点!全球十家GEO 优化公司权威实力排名与口碑好geo服务商全解析+高频FAQ - 互联网科技品牌测评
  • 2026最权威的十大降AI率方案解析与推荐
  • Linuxdo:终端原生插件化启动器,打造Linux桌面效率工作流
  • Pixel2Geo™像素地理映射技术白皮书——铸就智慧港口厘米级空间感知巅峰
  • CANN/asc-devkit算子属性设置API
  • CANN昇腾学习中心
  • Talon语音与眼动追踪:重塑人机交互,打造高效工作流
  • MetaTune框架:解决机器人控制参数耦合的元学习方法
  • 基于大语言模型的智能爬虫:从规则驱动到意图驱动的范式革命
  • CANN驱动P2P使能查询API
  • Slack与Cursor AI本地自动化助手:提升开发效率的智能工作流
  • CANN/driver创建算力组API
  • 思维导图+实验报告册
  • Go HTTP客户端熔断保护:ok-breaker原理、配置与生产实践
  • Camera Graph™多镜协同算法白皮书——破解港口超大场景跨域感知行业难题
  • 提升实习候选人体验,降低爽约与流失
  • 掌握AI教材生成技巧,借助低查重工具,3天完成50万字教材编写!
  • 为内部知识库问答机器人集成taotoken多模型后备路由能力
  • AI与运筹学融合:构建可信、公平且可解释的智能决策系统
  • 华为CANN/pypto全1张量创建函数
  • 你还在手动敲命令部署?GitHub Actions 让你 push 即上线,摸鱼时间翻倍
  • CANN/driver DCMI逻辑物理ID转换