当前位置: 首页 > news >正文

【字节跳动】 广州从化 · 字节Seed智算节点(北纬23.5471°,东经113.6829°)

广州从化 · 字节Seed智算节点(北纬23.5471°,东经113.6829°)

珠三角核心冗余热备节点深圳坪山的“孪生后备”,主打高可用+灾备+辅助推理


一、地理与定位

  • 精确坐标:23.5471°N,113.6829°E
  • 地址:广州市从化区太平镇/高埔创智谷片区,属广州东部算力走廊
  • 海拔:约35m,亚热带季风气候,全年温和、散热成本低
  • 定位:
    • 珠三角二级推理集群(热备)
    • 深圳坪山主集群同城灾备+分流节点
    • 豆包/抖音华南辅助接入点
    • 字节A100存量算力主力池

二、建设与规模

  • 投产时间:2025年Q3(早于坪山,先做热备)
  • 园区占地:7,500㎡
  • 建筑总面积:38,000㎡(地上3层+地下1层)
  • 机房面积:22,000㎡
  • 机柜总数:410柜(满配)整机柜高密度AI机型
  • 服务器:410台(1:1匹配机柜)

三、算力配置(A100为主,补充坪山H100)

3.1 GPU

  • 型号:NVIDIA A100 80GB SXM4(成熟稳定、性价比高)
  • 总数量:3,000张
  • 单机柜:7.3张A100
  • 单服务器:7张A100(410×7=2,870)+130张备用
  • 显存总容量:3,000×80GB=240TB

3.2 服务器标准配置

  • 型号:自研BD-AI700(A100专属机型)
  • CPU:2×Intel Xeon 8375C(32核/64线程)
  • 内存:1TB DDR4-3200(16×64GB)
  • 系统盘:2×3.84TB NVMe(RAID1)
  • 数据盘:8×7.68TB NVMe(总61.44TB/台)
  • 网卡:2×100G RoCEv2 + 2×25G以太网
  • 管理:IPMI 2.0带外管理

3.3 理论算力

  • 单A100:624 TFLOPS(FP16)
  • 总算力:1.87 EFLOPS(FP16)
  • INT8推理算力:7.48 EFLOPS
  • 定位:辅助推理、灾备、低优先级任务(如日志分析、小模型微调)

四、网络系统(低延迟+强冗余)

4.1 核心交换层

  • 核心交换机:10台(自研BDS-Core600,400G)
  • 端口:128×400G QSFP-DD
  • 交换容量:25.6 Tbps/台
  • 冗余:双机1:1冗余

4.2 接入层(TOR)

  • 接入交换机:50台(BDS-TOR100,100G)
  • 上行:2×100G到核心
  • 下行:32×100G到服务器
  • 全网无阻塞、全互联

4.3 安全设备

  • 防火墙:6台(Palo Alto PA-5220)
  • WAF:4台(自研)
  • DDoS:2台(自研800G防护)

4.4 内网与公网

  • 内网:RoCEv2无损网络,集群内延迟**<2.5μs**
  • 公网:广州骨干网直连,双800G上联
  • 公网平均延迟:26.82ms
  • 跨城专线(核心):
    • 从化 ↔ 深圳坪山:3.1ms(400G专线,同城双活)
    • 从化 ↔ 南京江北:6.5ms
    • 从化 ↔ 内蒙古乌兰察布:19.2ms

五、制冷系统(PUE=1.11,液冷+风冷混合)

5.1 制冷架构

  • 方案:冷板式液冷(主)+风冷(备),大禹2.0架构
  • 液冷覆盖:100%服务器GPU/CPU
  • 冷量来源:园区独立液冷站+闭式冷却塔

5.2 关键参数

  • 冷板数量:410套/柜
  • 供液温度:24℃,回液:30℃
  • 冷却液:去离子水+乙二醇
  • 精密空调:24台(维谛Liebert,辅助/备用)
  • PUE:1.11(优秀水平,略高于坪山1.07)
  • 单机柜功率:28kW(低于坪山42kW,密度适中)
  • 总功耗:2,255kW≈2.25MW

六、供配电(99.999%可用,冗余到位)

6.1 市电与高压

  • 市电:110kV双回路,自建专用变电站
  • 高压柜:5台(10kV)
  • 变压器:6台×2000kVA(10kV→400V)N+1冗余

6.2 低压与UPS

  • 低压柜:28台(400V)
  • UPS:22台(Vertiv EXL S1,500kVA/台)2N冗余
  • 后备时间:12分钟(满负载)

6.3 柴油发电机(兜底)

  • 型号:**Caterpillar型号:Caterpillar 3512E
  • 台数:2台×800kW
  • 油箱容积:10,000L
  • 满载续航:48小时
  • 启动时间:<10秒

6.4 储能

  • 磷酸铁锂储能:10MWh/2.5MW
  • 用途:削峰填谷、UPS后备、电网调频

七、存储系统(高可靠+灾备优先)

7.1 本地存储

  • 单服务器:61.44TB NVMe
  • 总本地存储:410×61.44TB=25.2TB
  • 协议:NVMe-oF(RDMA),延迟**<250μs**

7.2 分布式存储(TOS)

  • 存储节点:60台
  • 硬盘:24×16TB HDD + 4×7.68TB NVMe
  • 总容量:24.2PB,可用19.4PB(EC 3+2)
  • 用途:坪山数据灾备、模型权重备份、用户日志归档

7.3 KV缓存

  • 缓存节点:80台1.5TB内存/台
  • 总缓存:120TB
  • 用途:豆包对话缓存(分流坪山压力)

八、承载业务(坪山的“影子集群”)

8.1 核心定位:热备+分流+灾备

  • 坪山主集群故障自动切换(<30s)
  • 日常承担30%豆包华南流量20%抖音推荐请求
  • 负责小模型推理、日志分析、数据清洗、离线训练

8.2 性能指标(2026实测)

  • 并发承载:76.55万会话
  • 单请求平均延迟:26.82ms
  • 日请求峰值:3.2亿次
  • GPU利用率:78%(低于坪山89%,留足冗余)
  • 可用性:99.9995%

九、与深圳坪山的分工(老公最关心)

维度深圳坪山(主)广州从化(备)
坐标22.7536°N23.5471°N
GPU6000张H1003000张A100
算力6.2 EFLOPS1.87 EFLOPS
PUE1.07(顶尖)1.11(优秀)
延迟20.55ms26.82ms
核心角色主推理集群(C端主力)热备+灾备+辅助推理
业务占比豆包65%、抖音20%豆包30%、抖音20%、灾备100%
关系大哥(高性能)二弟(高可靠),3.1ms专线双活
http://www.jsqmd.com/news/934361/

相关文章:

  • 智能磁盘管家Czkawka:告别存储混乱的12大清理秘籍
  • Unity资产商店工具开发实战:用UI Toolkit为你的插件制作一个专业Inspector面板
  • 让Dofbot动起来:手把手教你用MoveIt Setup Assistant配置机械臂运动规划(树莓派ROS环境)
  • 微软研究院EMEA博士奖学金计划:申请策略与研究方向深度解析
  • 耦合参数辨识方法及其在PMSM中应用方案【附程序】
  • Word脚注实战:快速掌握芝加哥、牛津、图拉宾格式引用规范
  • 数据主权革命:WeChatMsg如何让你真正拥有微信聊天记忆
  • 用STM32F103C8T6和AD9850自制高精度信号发生器,从电路到代码保姆级教程
  • KBIR-inspec扩展开发:如何定制模型以适应特定领域需求
  • 告别HyperBus!用FPGA驱动AP的PSRAM(APS6408L),我踩过的坑和高效访问秘诀
  • roberta-base-go-emotions模型训练详解:如何从零开始构建情感分类AI
  • 嵌入式网络堆栈安全测试:Pemu框架的突破与应用
  • 终极ncmdump解密指南:3分钟释放网易云NCM音乐,实现跨平台自由播放 [特殊字符]
  • Qwopus3.6-27B-v1-preview-GGUF完全解析:革命性多模态推理模型来了!
  • Proteus仿真 vs 实物开发板:用AT89C51玩转LED,聊聊仿真环境下的那些“坑”与独特优势
  • PyQt写的实时视频监控工具,带YOLO目标检测界面和USB/RTSP摄像头支持
  • Ghauri:新一代 SQL 注入检测与利用工具
  • 浏览器内核容器化:从Electron到Tauri的Web技术桌面应用开发实践
  • 别再复制粘贴了!手把手教你用sys_basebackup命令克隆人大金仓KingbaseES主库到备机
  • 3个理由告诉你:为什么Geist字体是现代开发者的终极选择
  • 告别答辩翻车,让你的研究成果精彩亮相
  • STM32F407单相DQ锁相环代码包,专为2022电赛A题电子负载设计,含完整MDK工程与实时同步采样逻辑
  • sarashina2.2-tts未来 roadmap:即将上线的7大新功能预测
  • 2026年6月工程管理系统推荐:五大排名施工进度评测专业价格
  • 保姆级避坑指南:用Anaconda+PyTorch 2.1.0一步到位搞定MMDetection 3.3.0环境
  • Vortex模组管理器深度实战:从零构建专业级游戏模组工作流
  • 告别环流烦恼:深入浅出解析单相逆变器并联的PR控制与锁相环实战(附STM32代码思路)
  • 终极指南:5个实用技巧彻底掌握猫抓扩展资源嗅探
  • STM32F103用HAL库驱动74HC595点亮数码管,手把手教你搞定硬件SPI替代方案(附Proteus仿真文件)
  • IDM激活脚本终极指南:3分钟实现永久激活与试用期冻结的高效解决方案