抠门也是生产力!Meta用“胶水芯片”把淘汰的DDR4内存塞进现代服务器
https://jovans2.github.io/files/vistara_camera_ready.pdf
如果你最近关注过半导体市场,一定会发现一个让互联网大厂集体头疼的现象:由于 AI 数据中心对高性能算力的饥渴需求,DDR5 内存的价格一路狂飙,甚至出现了阶段性的供不应求。面对动辄数以亿计的硬件采购账单,强如 Facebook 的母公司 Meta 也坐不住了。
为了把每一分钱都花在刀刃上,Meta 的工程师们想出了一个极其硬核的“省钱大招”——新服务器买不起那么多昂贵的 DDR5?那就把那些刚好到了报废年限、从旧服务器上成批抠下来的 DDR4 旧内存重新利用起来,塞进原本只能插 DDR5 的全新服务器里!
他们靠的是一颗自己研发的“续命神器”——Vistara ASIC 芯片。有趣的是,精打细算过日子的不止 Meta 一家,韩国一家叫Panmnesia的技术初创公司,也拿着类似的绝活盯上了这块庞大的企业级市场。
一、 定制 ASIC 芯片搭桥,让两代硬件“喜结连理”
在计算机体系结构中,DDR4 和 DDR5 内存由于物理接口、工作电压、信号协议完全不同,在硬件层面上是绝对不可能兼容的。现代的服务器处理器(比如 AMD 最新的 Turin 架构 CPU)原生只支持 DDR5 控制器。
为了打破这个物理隔阂,Meta 专门研发了Vistara 芯片。简单来说,这颗芯片扮演的是“超级实时翻译官”的角色:它基于先进的CXL 2.0 (Compute Express Link) 规范中的 Type-3 内存扩展协议。芯片的一头连接在主板的 PCIe 5.0 高速通道上,听从 CPU 的指挥;另一头则向下兼容,直接管理传统的老旧 DDR4 内存条。
我们可以通过Tom's Hardware 独家披露的核心硬件规格,看看这个“新老混搭”的服务器到底有多强悍:
| 核心硬件组件 | 具体技术参数与数据信息 |
| 中央处理器 (CPU) | 158核 AMD EPYC “Turin” 处理器,功耗高达300 W级别 |
| 本地新内存 (DDR5) | 768 GBDDR5-6400 内存(走12通道),最高带宽冲到614 GB/s,延迟仅~130 纳秒 |
| 外挂老内存 (DDR4) | 256 GBDDR4-2400 内存(由8条回收的 32GB RDIMM 组成),最高带宽~76 GB/s,延迟约~250 纳秒 |
| 连接总线与控制器 | 2颗 Vistara ASIC 芯片,各自占用 PCIe Gen5 x8 通道,数据交换粒度为256字节 |
| 整机总内存容量 | 768 GB + 256 GB =1024 GB (1 TB) |
| 外挂部分功耗 | 2颗 ASIC 芯片 + 8条 DDR4 内存合计功耗仅约50 W |
| 服务器整机功耗 | 介于450 W 至 560 W之间 |
二、 深度解密:这套“新老混搭”系统是如何高效运转的?
把旧内存连上新服务器只是第一步,如何让两代速度相差悬殊的内存在同一个操作系统下和谐共存,才是最考验软硬件调教功力的地方。
1. 物理层面的“变废为宝”
每个 Vistara ASIC 芯片内部集成了两个独立的 72 位 DDR4 内存通道。Meta 目前主要的回收对象是旧服务器上退役的32GB DDR4-2400 RDIMM 内存条。在一台新型 MemServer 服务器中,Meta 部署了两颗 Vistara 芯片,每颗芯片外挂 4 条旧内存。这样一来,原本该躺在电子垃圾回收厂的 8 条旧内存,直接为新服务器凭空变出了256GB 的额外可用容量,将整机总内存撑到了1TB。
2. 软件层面的“冷热分流”智能化调度
在系统内核眼里,这批通过 CXL 总线挂载的 DDR4 老内存,并不会跟原生的 DDR5 混在一起,而是会被软件栈透明地识别为一个独立的NUMA(非统一内存访问)节点,也就是所谓的“慢速备用区”。
得益于 Linux 系统强大的内核调度机制,服务器会自动进行数据冷热分层:
热数据(频繁访问):留给原生主板上的 DDR5-6400 内存,享受614 GB/s的超高带宽和130 纳秒的极低延迟,确保核心业务(如 AI 推理、高并发数据库)全速运行。
冷数据(不常访问):比如暂时挂起的后台进程、历史日志缓存等,系统会自动把它们“迁移”到外挂的 DDR4 慢速层。虽然它的带宽只有76 GB/s,延迟也有250 纳秒,但对冷数据来说完全够用。
3. 硬件内部的极致压榨:3个RISC-V核心与50ns低延迟
很多人会担心,在 CPU 和内存之间加了一颗外挂 ASIC 芯片,数据传输还要走一遍 PCIe 总线,延迟会不会爆炸?
为了解决这个问题,Meta 在 Vistara 芯片内部塞进了3个定制的 RISC-V 处理器内核,专门负责处理安全启动、硬件初始化、固件管理以及实时的健康监控。通过深度优化 CXL 控制器和内存流水线,他们成功砍掉了大量的协议握手开销。在空闲状态下,这颗芯片带来的额外往返延迟被压缩到了惊人的50 纳秒左右,几乎将总线损耗降到了忽略不计的水平。
4. 四倍芯片级保护:比新内存还要稳?
旧内存由于使用年限长,突发故障(如单比特翻转)的概率显然比新内存高。为了防止老硬件罢工导致整台 158 核的服务器崩溃,Meta 在芯片内集成了高级的里德-所罗门(Reed-Solomon)双符号纠错算法。这套算法提供了高达4倍芯片级保护(4x Chipkill-level protection),这意味着即便内存颗粒同时出现多处硬件损坏,芯片也能强行把数据纠正过来,稳如泰山。
三、 硬件巨头的群体共鸣:Panmnesia 打造通用“省钱方案”
Meta 研发这套技术完全是为了“自产自销”,并不打算对外售卖芯片。但这条路子一旦证明可行,其他没有自研芯片能力的数据中心和云服务商自然也想分一杯羹。
韩国的技术初创公司Panmnesia敏锐地捕捉到了这个商机,他们正在开发一套现成的、面向全行业发售的通用 CXL 控制器和交换机方案。
彻底干掉 PCIe 留下的“坏习惯”
Panmnesia 的 CEO 郑明洙在面对行业质疑时指出,此前业界普遍唱衰 CXL 外挂内存,是因为早期的 CXL 技术不成熟。很多厂商图省事,直接拿现成的 PCIe 协议 IP 改一改就拿来用。但 PCIe 本质上是为硬盘、显卡等设备设计的,它的架构在每一层都设有独立的缓冲区,数据传输需要一层层排队、同步,这在对延迟极其敏感的“内存语义通信”中是致命的。
而 Panmnesia 彻底重新设计了数据路径,用共享缓冲区(Shared Buffers)代替了传统的每层独立缓冲区,彻底干掉了多余的同步等待开销。
突破拓扑限制:多达 64 个节点的“超级内存池”
更具革命性的是,Panmnesia 在其配套的 CXL 交换机中引入了基于端口的路由 (PBR, Port-Based Routing)技术。
传统的 HBR(基于层级的路由):像一棵树一样,数据必须逐级汇报、分流,不仅限制了设备的连接数量,还极易造成主干道拥堵。
创新的 PBR(基于端口的路由):打破了树状限制,支持更灵活的网络拓扑。
在实际应用中,早期的 CXL 方案顶多能让几台机器共享一小块内存,而 Panmnesia 的架构可以把多达 64 个服务器节点通过交换机连成一片,变成一个巨大的、动态调配的“超级共享内存池”。
对于管理着成千上万台服务器的云计算巨头(Hyperscalers)而言,这意味着他们可以把整个机房里闲置的、淘汰的旧内存全部集中起来,谁需要就分给谁,将 Expensive DRAM(昂贵内存)的利用率压榨到极限。
目前,Panmnesia 的商业化推进极快,不仅拿出了面向 PCIe 6.4 / CXL 3.2 的融合交换机芯片测试样品,甚至连面向未来的PCIe 7.0 和 CXL 4.0组合 IP 都已经全部开发完毕。
在硬件成本飙升、DDR5 价格居高不下的今天,“新三年,旧三年,缝缝补补又三年”这句老话,竟然在科技实力最顶尖的互联网巨头身上得到了硬核的印证。
Meta 仅仅付出了50W 的额外功耗代价,就让原本要报废的旧内存稳定提供了 76 GB/s 的可用带宽。这种既环保、又能省下几亿采购预算的“新老混搭”技术,注定会引发整个服务器行业的集体效仿。看来在接下来的数据中心里,DDR4 这款老将,还能坐在 CXL 的电竞椅上再战好几年!
