4.8 万美元买 GPU 服务器值不值?实测节省 1.7 万,成果获 40 多万次浏览!
将 GPU 视为一种投资
2024 年,辞去 FAANG 公司工作成为独立研究员后,打造了一台名为 "grumbl" 的服务器,配备 6 块 Ada 6000 GPU,花费 4.8 万美元。因收入中断,若强大 GPU 能让工作提前两个月成功,购买就值得,所以买了能在公寓运行的最强大服务器。
选择 GPU
参考 Tim Dettmers 的 GPU 选择指南,把选择范围缩小到 A100、H100 或 RTX 6000 Ada。因 A100 不支持 FP8 且推理性能慢,又将范围缩小到 6000 Ada 和 H100。对比价格/吞吐量比率后,选择了 6000 Ada GPU。
电力限制
住在公寓无法升级电路支持标准数据中心服务器,6 块 GPU 功耗超单个公寓电路承受能力,所以配备两个电源并分别插入不同电路插座。雇专业电脑组装师确保安全。最终把服务器搬到父母家地下室,可升级电路。
自建 GPU 服务器与使用云服务提供商
通过计算 GPU 使用情况并与云端租用同等算力成本比较来评估。2024 年按当时租赁价格,需近一年、利用率达 85%以上才能与云租赁成本持平。编写脚本记录 GPU 使用和功率情况以计算电费。分析只对比按需定价,提前预订实例对自己不太划算。
GPU 随时间的使用情况图表
统计每块 GPU 每天至少使用一次的小时数来衡量使用情况,这对云租赁更有利。服务器有三次停机维护,2025 年 6 月后使用量明显增加。总平均使用率为 76%,从 2025 年 1 月 1 日开始计算,利用率为 85%,对此有点失望。
最终计算
使用每天租赁价格乘以当天使用的 GPU 小时数并相加来计算节省费用,根据网上参考信息估算历史价格。计算出电费约 3000 美元,每月约 125 美元。截至 2026 年 3 月 13 日,租用同等算力费用达 6.8 万美元,总共节省 1.7 万美元。此后每天能节省 90 - 105 美元。
真正的最终计算
购买服务器是为打造酷东西,花长时间做高风险实验失败后取得成果,解决了大语言模型的重大问题,发布成果获 40 多万次浏览量,多家公司联系使用知识产权。
建议及其他注意事项
自己搭建高端服务器要小心,易犯代价高昂的错误;转接卡问题可参考 Nathan Odle 的转接卡调查;不建议每个人都购买这样的设备;租用和拥有 GPU 心态差异大;分析未考虑时间成本;服务器需购买商业保险;若再做一次,会买标准数据中心服务器并在托管中心租用空间。
