当前位置：首页 > news >正文

Kubernetes性能调优最佳实践

news 2026/7/27 3:50:57

Kubernetes性能调优最佳实践

引言

在生产环境中，Kubernetes集群的性能直接影响应用的稳定性和用户体验。性能调优是一个持续的过程，涉及资源配置、调度策略、存储优化等多个方面。本文将深入探讨Kubernetes性能调优的最佳实践。

一、资源管理优化

1.1 资源请求与限制配置

apiVersion: v1 kind: Pod metadata: name: optimized-pod spec: containers: - name: app image: my-app:latest resources: requests: cpu: "500m" memory: "1Gi" limits: cpu: "2" memory: "4Gi" ports: - containerPort: 8080

1.2 QoS等级配置

apiVersion: v1 kind: Pod metadata: name: guaranteed-pod spec: containers: - name: app image: my-app:latest resources: requests: cpu: "1" memory: "2Gi" limits: cpu: "1" memory: "2Gi"

二、调度策略优化

2.1 节点亲和性配置

apiVersion: apps/v1 kind: Deployment metadata: name: affinity-app spec: replicas: 3 selector: matchLabels: app: affinity-app template: metadata: labels: app: affinity-app spec: affinity: nodeAffinity: requiredDuringSchedulingIgnoredDuringExecution: nodeSelectorTerms: - matchExpressions: - key: node-role.kubernetes.io/worker operator: Exists - key: hardware-type operator: In values: - high-cpu - gpu podAntiAffinity: requiredDuringSchedulingIgnoredDuringExecution: - labelSelector: matchExpressions: - key: app operator: In values: - database topologyKey: kubernetes.io/hostname containers: - name: app image: my-app:latest

2.2 Pod优先级配置

apiVersion: scheduling.k8s.io/v1 kind: PriorityClass metadata: name: high-priority value: 1000000 globalDefault: false description: "High priority class for critical applications" --- apiVersion: scheduling.k8s.io/v1 kind: PriorityClass metadata: name: medium-priority value: 500000 globalDefault: false description: "Medium priority class for standard applications" --- apiVersion: v1 kind: Pod metadata: name: critical-app spec: priorityClassName: high-priority containers: - name: app image: critical-app:latest

三、存储性能优化

3.1 存储类配置

apiVersion: storage.k8s.io/v1 kind: StorageClass metadata: name: fast-storage provisioner: kubernetes.io/aws-ebs parameters: type: gp3 iopsPerGB: "100" throughput: "125" reclaimPolicy: Retain allowVolumeExpansion: true volumeBindingMode: Immediate --- apiVersion: storage.k8s.io/v1 kind: StorageClass metadata: name: slow-storage provisioner: kubernetes.io/aws-ebs parameters: type: gp2 reclaimPolicy: Delete allowVolumeExpansion: true volumeBindingMode: WaitForFirstConsumer

3.2 PVC配置

apiVersion: v1 kind: PersistentVolumeClaim metadata: name: database-pvc spec: accessModes: - ReadWriteOnce resources: requests: storage: 100Gi storageClassName: fast-storage --- apiVersion: apps/v1 kind: StatefulSet metadata: name: database spec: template: spec: containers: - name: database image: postgres:latest volumeMounts: - name: data mountPath: /var/lib/postgresql/data subPath: postgres volumeClaimTemplates: - metadata: name: data spec: accessModes: [ "ReadWriteOnce" ] resources: requests: storage: 100Gi storageClassName: fast-storage

四、网络性能优化

4.1 Service配置优化

apiVersion: v1 kind: Service metadata: name: my-service annotations: service.beta.kubernetes.io/aws-load-balancer-type: nlb service.beta.kubernetes.io/aws-load-balancer-nlb-target-type: ip spec: type: LoadBalancer selector: app: my-app ports: - port: 80 targetPort: 8080 externalTrafficPolicy: Local sessionAffinity: ClientIP sessionAffinityConfig: clientIP: timeoutSeconds: 10800

4.2 Ingress配置优化

apiVersion: networking.k8s.io/v1 kind: Ingress metadata: name: my-ingress annotations: nginx.ingress.kubernetes.io/ssl-redirect: "true" nginx.ingress.kubernetes.io/use-regex: "true" nginx.ingress.kubernetes.io/client-body-buffer-size: "10m" nginx.ingress.kubernetes.io/proxy-body-size: "50m" nginx.ingress.kubernetes.io/proxy-read-timeout: "60" nginx.ingress.kubernetes.io/proxy-send-timeout: "60" nginx.ingress.kubernetes.io/upstream-hash-by: "$remote_addr" spec: tls: - hosts: - example.com secretName: example-tls rules: - host: example.com http: paths: - path: /api/ pathType: Prefix backend: service: name: api-service port: number: 80

五、容器运行时优化

5.1 containerd配置

version = 2 [plugins."io.containerd.grpc.v1.cri"] sandbox_image = "k8s.gcr.io/pause:3.8" max_container_log_line_size = -1 [plugins."io.containerd.grpc.v1.cri".containerd] snapshotter = "overlayfs" default_runtime_name = "runc" [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc] runtime_type = "io.containerd.runc.v2" runtime_engine = "" runtime_root = "" privileged_without_host_devices = false [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options] SystemdCgroup = true

5.2 镜像优化

FROM golang:1.20-alpine AS builder WORKDIR /app COPY go.mod go.sum ./ RUN go mod download COPY . . RUN CGO_ENABLED=0 GOOS=linux go build -a -installsuffix cgo -o myapp . FROM scratch COPY --from=builder /app/myapp /myapp USER 1000:1000 ENTRYPOINT ["/myapp"]

六、应用性能优化

6.1 连接池配置

from sqlalchemy import create_engine from sqlalchemy.pool import QueuePool engine = create_engine( "postgresql://user:password@postgres:5432/mydb", poolclass=QueuePool, pool_size=20, max_overflow=10, pool_timeout=30, pool_recycle=3600, )

6.2 缓存策略

from redis import Redis from functools import lru_cache redis = Redis(host='redis', port=6379, db=0) @lru_cache(maxsize=128) def get_user(user_id): cache_key = f"user:{user_id}" cached = redis.get(cache_key) if cached: return json.loads(cached) user = db.query(User).filter_by(id=user_id).first() redis.setex(cache_key, 3600, json.dumps(user.to_dict())) return user.to_dict()

七、监控与调优循环

7.1 性能指标监控

apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: name: app-monitor spec: selector: matchLabels: app: my-app endpoints: - port: metrics interval: 15s scrapeTimeout: 10s --- apiVersion: monitoring.coreos.com/v1 kind: PrometheusRule metadata: name: performance-alerts spec: groups: - name: performance.rules rules: - alert: HighCPUUsage expr: sum(rate(container_cpu_usage_seconds_total{namespace="my-app"}[5m])) / sum(kube_pod_resource_requests_cpu{namespace="my-app"}) > 0.9 for: 5m labels: severity: warning annotations: summary: "High CPU usage detected" - alert: HighMemoryUsage expr: sum(container_memory_usage_bytes{namespace="my-app"}) / sum(kube_pod_resource_requests_memory{namespace="my-app"}) > 0.95 for: 5m labels: severity: critical annotations: summary: "High memory usage detected"

7.2 性能分析工具

kubectl top nodes kubectl top pods kubectl run -i --tty --rm debug --image=busybox --restart=Never -- sh curl -s http://prometheus:9090/api/v1/query \ --data-urlencode 'query=sum(rate(container_cpu_usage_seconds_total[5m]))' kubectl exec -it <pod-name> -- cat /proc/cpuinfo kubectl exec -it <pod-name> -- free -h

八、最佳实践总结

实践领域	关键要点
资源配置	合理设置requests和limits，使用Guaranteed QoS
调度优化	使用节点亲和性和Pod反亲和性
存储优化	根据需求选择合适的StorageClass
网络优化	配置Service和Ingress的性能参数
运行时优化	使用containerd替代Docker，优化镜像大小
应用优化	配置连接池和缓存策略
监控分析	持续监控性能指标，定期分析调优