当前位置：首页 > news >正文

Ubuntu20.04生产环境：TranslateGemma集群部署全记录

news 2026/3/26 20:36:26

Ubuntu20.04生产环境：TranslateGemma集群部署全记录

本文记录了从裸机安装到k8s集群编排的完整过程，包含NVIDIA驱动问题排查、GPU资源共享等实战经验，帮你快速搭建高可用翻译系统。

1. 环境准备与系统安装

1.1 硬件要求与系统选择

在开始部署之前，需要确保你的硬件环境满足基本要求。推荐配置至少2台服务器，每台配备：

GPU：NVIDIA Tesla T4或更高版本（至少8GB显存）
内存：32GB或以上
存储：100GB可用空间
网络：千兆以太网互联

选择Ubuntu 20.04 LTS作为操作系统，主要是因为这个版本有良好的长期支持，而且与NVIDIA驱动和Kubernetes的兼容性都经过充分验证。

1.2 Ubuntu 20.04 裸机安装

安装过程相对直接，但有几个关键点需要注意：

分区方案建议：

/根分区：50GB
/home：根据需求分配
swap：物理内存的1.5倍
/data：剩余所有空间（用于模型存储）

安装时选择最小化安装，减少不必要的软件包，提高系统安全性。

安装完成后，首先更新系统：

sudo apt update && sudo apt upgrade -y sudo apt install -y curl wget vim git build-essential

2. NVIDIA驱动与CUDA环境配置

2.1 驱动安装与问题排查

NVIDIA驱动的安装是最容易出问题的环节。推荐使用官方PPA源：

# 添加官方PPA源 sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update # 查看推荐的驱动版本 ubuntu-drivers devices # 安装推荐版本的驱动 sudo apt install -y nvidia-driver-535

常见问题排查：

如果安装后出现黑屏或驱动无法加载，可以尝试：

# 检查驱动状态 nvidia-smi # 如果命令不存在，尝试重新安装 sudo apt purge nvidia-* sudo apt install -y nvidia-driver-535 # 检查内核模块 lsmod | grep nvidia

2.2 CUDA和cuDNN安装

安装完驱动后，配置CUDA环境：

# 下载并安装CUDA 11.8 wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run sudo sh cuda_11.8.0_520.61.05_linux.run

配置环境变量：

echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc

验证安装：

nvcc --version

3. Kubernetes集群搭建

3.1 容器运行时安装

使用containerd作为容器运行时：

# 安装containerd sudo apt install -y containerd # 配置containerd sudo mkdir -p /etc/containerd containerd config default | sudo tee /etc/containerd/config.toml # 重启服务 sudo systemctl restart containerd sudo systemctl enable containerd

3.2 Kubernetes组件安装

在所有节点上安装kubeadm、kubelet和kubectl：

sudo apt update sudo apt install -y apt-transport-https ca-certificates curl curl -fsSL https://pkgs.k8s.io/core:/stable:/v1.28/deb/Release.key | sudo gpg --dearmor -o /etc/apt/keyrings/kubernetes-apt-keyring.gpg echo 'deb [signed-by=/etc/apt/keyrings/kubernetes-apt-keyring.gpg] https://pkgs.k8s.io/core:/stable:/v1.28/deb/ /' | sudo tee /etc/apt/sources.list.d/kubernetes.list sudo apt update sudo apt install -y kubelet kubeadm kubectl sudo apt-mark hold kubelet kubeadm kubectl

3.3 集群初始化

在主节点上初始化集群：

sudo kubeadm init --pod-network-cidr=10.244.0.0/16 \ --apiserver-advertise-address=<主节点IP>

配置kubectl：

mkdir -p $HOME/.kube sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config sudo chown $(id -u):$(id -g) $HOME/.kube/config

安装网络插件（Flannel）：

kubectl apply -f https://github.com/flannel-io/flannel/releases/latest/download/kube-flannel.yml

4. GPU资源共享配置

4.1 NVIDIA设备插件安装

为了让Kubernetes能够识别和管理GPU资源，需要安装NVIDIA设备插件：

kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.1/nvidia-device-plugin.yml

验证GPU资源是否被正确识别：

kubectl describe node <节点名称> | grep nvidia.com/gpu

4.2 资源限制与分配

在部署TranslateGemma时，可以通过资源限制来合理分配GPU资源：

resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/gpu: 1

5. TranslateGemma部署实战

5.1 模型下载与准备

首先下载TranslateGemma模型文件：

# 创建模型存储目录 mkdir -p /data/models/translategemma cd /data/models/translategemma # 下载模型文件（以12B版本为例） wget https://huggingface.co/google/translategemma-12b-it/resolve/main/pytorch_model.bin wget https://huggingface.co/google/translategemma-12b-it/resolve/main/config.json

5.2 Docker镜像构建

创建Dockerfile来构建推理服务镜像：

FROM pytorch/pytorch:2.0.1-cuda11.8-cudnn8-runtime WORKDIR /app # 安装依赖 RUN pip install transformers>=4.30.0 accelerate>=0.20.0 # 复制模型和代码 COPY model /app/model COPY app.py /app/ EXPOSE 8000 CMD ["python", "app.py"]

构建镜像：

docker build -t translategemma-inference:latest .

5.3 Kubernetes部署配置

创建Deployment和Service：

apiVersion: apps/v1 kind: Deployment metadata: name: translategemma-deployment spec: replicas: 2 selector: matchLabels: app: translategemma template: metadata: labels: app: translategemma spec: containers: - name: translategemma image: translategemma-inference:latest ports: - containerPort: 8000 resources: limits: nvidia.com/gpu: 1 requests: nvidia.com/gpu: 1 volumeMounts: - name: model-storage mountPath: /app/model volumes: - name: model-storage hostPath: path: /data/models/translategemma --- apiVersion: v1 kind: Service metadata: name: translategemma-service spec: selector: app: translategemma ports: - port: 8000 targetPort: 8000 type: LoadBalancer

应用配置：

kubectl apply -f translategemma-deployment.yaml

6. 高可用性配置

6.1 负载均衡设置

使用Ingress实现流量分发：

apiVersion: networking.k8s.io/v1 kind: Ingress metadata: name: translategemma-ingress annotations: nginx.ingress.kubernetes.io/affinity: "cookie" spec: rules: - http: paths: - path: /translate pathType: Prefix backend: service: name: translategemma-service port: number: 8000

6.2 健康检查与自动恢复

在Deployment中添加健康检查：

livenessProbe: httpGet: path: /health port: 8000 initialDelaySeconds: 30 periodSeconds: 10 readinessProbe: httpGet: path: /health port: 8000 initialDelaySeconds: 5 periodSeconds: 5

7. 监控与维护

7.1 资源监控

安装Prometheus和Grafana来监控集群状态：

# 添加Prometheus仓库 helm repo add prometheus-community https://prometheus-community.github.io/helm-charts helm repo update # 安装Prometheus helm install prometheus prometheus-community/prometheus

7.2 日志收集

使用EFK栈（Elasticsearch、Fluentd、Kibana）进行日志管理：

# 安装Elasticsearch helm install elasticsearch elastic/elasticsearch # 安装Kibana helm install kibana elastic/kibana # 安装Fluentd kubectl apply -f https://raw.githubusercontent.com/fluent/fluentd-kubernetes-daemonset/master/fluentd-daemonset-elasticsearch.yaml