当前位置: 首页 > news >正文

在K8S环境里部署大模型

部署说明:

本示例使用SGlang作为大模型部署运行的框架,并且使用SGLang Router作为网关负载后端部署的大模型服务。示例使用模型为deepseek-v32,每台节点为8张H200GPU卡,一共三台实例。下面为具体内容

1、部署deepseek-v32的sts服务

apiVersion: apps/v1
kind: StatefulSet
metadata:name: deepseek-v32-workernamespace: deepseek
spec:serviceName: deepseek-v32-workerreplicas: 3selector:matchLabels:app: deepseek-v32-workermodel: deepseek-v32template:metadata:labels:app: deepseek-v32-workermodel: deepseek-v32spec:affinity:podAntiAffinity:requiredDuringSchedulingIgnoredDuringExecution:- labelSelector:matchLabels:app: deepseek-v32-workertopologyKey: kubernetes.io/hostnamecontainers:- name: sglangimage: lmsysorg/sglang:v0.4.1-cu124command: ["python3", "-m", "sglang.launch_server"]args:- "--model-path=/models/DeepSeek-V3.2"- "--tp=8"- "--dp=1"- "--quantization=fp8"- "--context-length=131072"- "--mem-fraction-static=0.88"- "--trust-remote-code"- "--port=8000"- "--enable-metrics"ports:- containerPort: 8000name: httpresources:limits:nvidia.com/gpu: "8"cpu: "128"memory: "1Ti"volumeMounts:- name: modelsmountPath: /models- name: dshmmountPath: /dev/shmvolumes:- name: modelspersistentVolumeClaim:claimName: deepseek-v32-pvc- name: dshmemptyDir:medium: MemorysizeLimit: "200Gi"tolerations:- key: nvidia.com/gpuoperator: Existseffect: NoSchedule
---
apiVersion: v1
kind: Service
metadata:name: deepseek-v32-workernamespace: deepseek
spec:selector:app: deepseek-v32-workerports:- port: 8000name: http

2、部署Router Deploy(并通过K8S机制实现worker自动发下)

apiVersion: v1
kind: ServiceAccount
metadata:name: sglang-routernamespace: deepseek
---
apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:name: sglang-routernamespace: deepseek
rules:
- apiGroups: [""]resources: ["pods"]verbs: ["get", "list", "watch"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:name: sglang-routernamespace: deepseek
subjects:
- kind: ServiceAccountname: sglang-routernamespace: deepseek
roleRef:kind: Rolename: sglang-routerapiGroup: rbac.authorization.k8s.io
---
apiVersion: apps/v1
kind: Deployment
metadata:name: deepseek-v32-routernamespace: deepseek
spec:replicas: 2selector:matchLabels:app: deepseek-v32-routertemplate:metadata:labels:app: deepseek-v32-routerspec:serviceAccountName: sglang-routercontainers:- name: routerimage: lmsysorg/sglang:v0.4.1-cu124command: ["python3", "-m", "sglang_router.launch_router"]args:- "--service-discovery"                           # 启用 K8s 服务发现- "--selector=app=deepseek-v32-worker"            # 匹配 Worker 标签- "--service-discovery-namespace=deepseek"        # Namespace- "--service-discovery-port=8000"                 # Worker 端口- "--policy=cache_aware"                          # 缓存感知路由- "--cache-threshold=0.5"- "--port=8080"- "--host=0.0.0.0"ports:- containerPort: 8080name: routerresources:limits:cpu: "4"memory: "8Gi"livenessProbe:httpGet:path: /healthport: 8080initialDelaySeconds: 10periodSeconds: 5
---
apiVersion: v1
kind: Service
metadata:name: deepseek-v32-routernamespace: deepseek
spec:selector:app: deepseek-v32-routerports:- port: 8080targetPort: 8080type: ClusterIP
---
apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:name: deepseek-v32namespace: deepseekannotations:nginx.ingress.kubernetes.io/proxy-read-timeout: "1200"nginx.ingress.kubernetes.io/proxy-send-timeout: "1200"
spec:rules:- host: deepseek-v32.yourdomain.comhttp:paths:- path: /pathType: Prefixbackend:service:name: deepseek-v32-routerport:number: 8080

总结:
通过sglang-router并配合K8S的自动发现机制,实现扩容模型实例时,能够自动感知,无需人工干预。

http://www.jsqmd.com/news/853006/

相关文章:

  • 别再只用基本触发!Vivado ILA高级触发器模式实战:用状态机精准捕获复杂时序Bug
  • 2026 年音频连接器十大品牌排名及解析 - 十大品牌榜
  • 数据中心液冷厂家哪家好? 川润股份:国内稀缺的“算力液冷+绿色能源”全链条闭环服务商 - 资讯速览
  • LaTeX新手避坑指南:为什么你的PDF没有书签?hyperref宏包配置详解
  • FPGA DDR3实战:用MIG核把256MB内存变成高速数据缓存(附Verilog状态机代码)
  • 从账单明细看taotoken按token计费模式的清晰度与灵活性
  • 2026 年 AI赋能 十大品牌排名及解析 - 十大品牌榜
  • 2026兴城市本地人必选的瓷砖空鼓专业维修公司TOP5推荐!卫生间空鼓翘边,厨房空鼓翘边,客厅空鼓翘边,全天响应,免费上门,5月专业瓷砖空鼓修复公司持证上岗师傅排名最新深度调研方案) - 一休修缮
  • 第4篇:Skill的提示词设计精要——让AI精准理解意图
  • 完全免费的本地语音识别方案:3步实现Windows实时语音转文字终极指南
  • 小红书视频怎么去水印?2026年最新方法+工具推荐对比 - 科技热点发布
  • 【RT-DETR实战】057、动态稀疏注意力(Dynamic Sparse Attention)探索:从显存爆炸到推理加速的实战手记
  • 【DeepSeek CPU推理方案终极指南】:20年AI基础设施专家亲授,零GPU环境下实现95%+模型吞吐量的5大硬核优化策略
  • Zynq UltraScale+ MPSoC SoM选型与开发实战:从异构计算到嵌入式系统设计
  • 广州商家必看商铺搬迁标准流程与本地搬迁公司选择要点|顺风搬家兄弟搬运 - 生活服务
  • 30分钟搞定黑苹果:OpCore Simplify如何让Hackintosh配置从专业难题变成简单操作
  • 初创团队如何利用Taotoken统一管理多个AI项目的API调用与成本
  • 2026 年轻触开关十大品牌排名及解析 - 十大品牌榜
  • 2026风口风阀厂家推荐:行业技术与产品实力解析 - 品牌排行榜
  • 考试宝| 2026 职业备考 企业考核优选34 项核心业务凭什么碾压同行 - 讲清楚了
  • 从插值到积分:用np.interp和np.trapz,5步完成传感器数据平滑与能量估算(Python实战)
  • 中创共赢这个公司服务怎么样? - 服务品牌热点
  • 2026年AI Agent正在变成企业的数字员工
  • MarkdownViewer++:在Notepad++中实现Markdown实时渲染与多格式导出的高效工作流
  • 我想请深圳中创共赢这个公司做咨询服务,这个公司整体怎么样,靠不靠谱? - 服务品牌热点
  • 2026 国内大厂 Java 最全面试真题(含场景方案+数据库+分布式必问)
  • 告别命令行!5分钟搞定SimpleFOCStudio免安装版(附中文版下载)
  • C语言内联函数:原理、应用与性能优化实战
  • Taotoken的用量分析与账单追溯功能让财务对账更轻松
  • 从莱顿瓶到手机:一个300年前的“水罐”如何塑造了今天的电子世界?