K8s实战指南:构建高可用Redis Cluster(三主三从)与Proxy的自动化运维体系
1. Redis Cluster与Proxy架构解析
Redis Cluster是Redis官方提供的分布式解决方案,通过数据分片(Sharding)和主从复制(Replication)机制实现水平扩展和高可用性。一个典型的三主三从架构包含:
- 3个主节点:每个主节点负责5461个哈希槽(共16384个槽)
- 3个从节点:每个从节点自动复制对应主节点数据
- 智能路由:客户端通过MOVED/ASK重定向自动找到正确节点
这种架构的优势在于:
- 自动故障转移:当主节点不可用时,从节点会自动升级为新主节点
- 数据分片:数据均匀分布在多个节点,突破单机内存限制
- 线性扩展:只需增加节点,集群会自动重新分配哈希槽
但原生Redis Cluster存在两个显著痛点:
- 客户端需要实现集群协议,处理重定向逻辑
- 集群拓扑变更时需要客户端动态更新路由表
这正是Redis Cluster Proxy的价值所在。它作为中间层:
- 提供统一接入点,应用像访问单节点Redis一样使用集群
- 自动处理槽位映射和请求路由,对客户端透明
- 实时感知集群拓扑变化,自动更新路由策略
在K8s环境中,这套组合方案能完美适配有状态服务的部署需求:
- StatefulSet保证Pod身份和存储的稳定性
- Headless Service实现集群节点发现
- ConfigMap统一管理配置
- Job完成集群初始化等一次性任务
2. K8s环境准备与资源配置
2.1 创建专用命名空间
首先为Redis集群创建隔离环境:
# redis-cluster-namespace.yaml apiVersion: v1 kind: Namespace metadata: name: redis-cluster执行命令:
kubectl apply -f redis-cluster-namespace.yaml2.2 配置管理ConfigMap
这是集群的核心配置,需要特别注意以下参数:
# redis-cluster-config.yaml apiVersion: v1 kind: ConfigMap metadata: name: redis-config namespace: redis-cluster data: redis.conf: | port 6379 requirepass YourStrongPassword # 集群认证密码 masterauth YourStrongPassword # 主从认证密码 cluster-enabled yes # 启用集群模式 cluster-config-file nodes.conf # 自动生成的集群配置 cluster-node-timeout 5000 # 节点超时时间(ms) appendonly yes # 开启持久化 appendfsync everysec # 每秒同步关键配置说明:
cluster-node-timeout:影响故障判定速度,生产环境建议5-15秒requirepass和masterauth必须相同,否则主从同步会失败appendfsync平衡性能与可靠性,金融场景可设为always
2.3 服务暴露方案设计
需要两种Service配合工作:
Headless Service(无头服务):
apiVersion: v1 kind: Service metadata: name: redis-headless namespace: redis-cluster spec: clusterIP: None # 关键配置 selector: app: redis ports: - port: 6379特点:
- 直接暴露Pod DNS(redis-0.redis-headless.redis-cluster.svc)
- 用于集群内部节点发现和通信
NodePort Service(访问服务):
apiVersion: v1 kind: Service metadata: name: redis-access namespace: redis-cluster spec: type: NodePort selector: app: redis ports: - port: 6379 targetPort: 6379 nodePort: 30079 # 30000-32767范围注意:
- 生产环境建议使用Ingress或LoadBalancer
- 多节点部署时需要配置外部负载均衡
3. StatefulSet部署集群节点
3.1 有状态副本配置
# redis-cluster-statefulset.yaml apiVersion: apps/v1 kind: StatefulSet metadata: name: redis namespace: redis-cluster spec: serviceName: redis-headless replicas: 6 # 3主3从 selector: matchLabels: app: redis template: metadata: labels: app: redis spec: affinity: podAntiAffinity: # 反亲和性确保节点分散 requiredDuringSchedulingIgnoredDuringExecution: - labelSelector: matchExpressions: - key: app operator: In values: ["redis"] topologyKey: kubernetes.io/hostname containers: - name: redis image: redis:7.2-alpine command: ["redis-server", "/usr/local/etc/redis/redis.conf"] ports: - containerPort: 6379 volumeMounts: - name: data mountPath: /data - name: config mountPath: /usr/local/etc/redis/redis.conf subPath: redis.conf volumes: - name: config configMap: name: redis-config volumeClaimTemplates: # 持久化存储声明 - metadata: name: data spec: accessModes: [ "ReadWriteOnce" ] storageClassName: "standard" resources: requests: storage: 1Gi关键设计要点:
- 反亲和性:确保Pod分散在不同物理节点
- 持久化存储:PVC模板为每个Pod自动创建独立存储
- 配置注入:通过ConfigMap统一管理配置
- 固定网络标识:StatefulSet保证Pod名称有序且稳定
部署命令:
kubectl apply -f redis-cluster-statefulset.yaml3.2 集群初始化Job
当所有Pod就绪后,需要执行集群初始化:
# init-cluster-job.yaml apiVersion: batch/v1 kind: Job metadata: name: redis-init-cluster namespace: redis-cluster spec: template: spec: containers: - name: redis-init image: redis:7.2-alpine command: - sh - -c - | sleep 10 # 等待所有Pod就绪 redis-cli --cluster create \ redis-0.redis-headless.redis-cluster.svc:6379 \ redis-1.redis-headless.redis-cluster.svc:6379 \ redis-2.redis-headless.redis-cluster.svc:6379 \ redis-3.redis-headless.redis-cluster.svc:6379 \ redis-4.redis-headless.redis-cluster.svc:6379 \ redis-5.redis-headless.redis-cluster.svc:6379 \ --cluster-replicas 1 \ -a YourStrongPassword \ --cluster-yes restartPolicy: OnFailure关键参数说明:
--cluster-replicas 1:每个主节点配1个从节点-a:指定配置的认证密码--cluster-yes:自动确认集群配置
查看初始化日志:
kubectl logs -n redis-cluster -l job-name=redis-init-cluster4. Redis Proxy部署实践
4.1 Proxy部署配置
推荐使用官方redis-cluster-proxy:
# redis-cluster-proxy-deploy.yaml apiVersion: apps/v1 kind: Deployment metadata: name: redis-proxy namespace: redis-cluster spec: replicas: 2 # 建议至少2个实例 selector: matchLabels: app: redis-proxy template: metadata: labels: app: redis-proxy spec: containers: - name: proxy image: redis/redis-cluster-proxy:1.0 args: - "--auth" # 代理认证密码 - "ProxyPassword123" - "redis-0.redis-headless.redis-cluster.svc:6379" - "redis-1.redis-headless.redis-cluster.svc:6379" - "redis-2.redis-headless.redis-cluster.svc:6379" ports: - containerPort: 7777 readinessProbe: tcpSocket: port: 7777 initialDelaySeconds: 5 periodSeconds: 10 --- apiVersion: v1 kind: Service metadata: name: redis-proxy namespace: redis-cluster spec: type: LoadBalancer selector: app: redis-proxy ports: - port: 7777 targetPort: 77774.2 功能验证测试
- 通过Proxy写入数据:
kubectl exec -it -n redis-cluster redis-proxy-xxx -- redis-cli -p 7777 -a ProxyPassword123 127.0.0.1:7777> SET user:1001 "Alice" OK- 直接查询集群节点验证数据分布:
kubectl exec -it -n redis-cluster redis-0 -- redis-cli -a YourStrongPassword -c 127.0.0.1:6379> GET user:1001 -> Redirected to slot [14982] located at 10.244.2.15:6379 "Alice"5. 运维监控与自动恢复
5.1 健康检查配置
在StatefulSet中添加探针:
livenessProbe: exec: command: - redis-cli - -a - YourStrongPassword - ping initialDelaySeconds: 30 periodSeconds: 10 readinessProbe: exec: command: - redis-cli - -a - YourStrongPassword - ping initialDelaySeconds: 5 periodSeconds: 55.2 监控方案建议
- Prometheus监控:
annotations: prometheus.io/scrape: "true" prometheus.io/port: "9121" # redis_exporter端口- 关键监控指标:
- 集群状态:
redis_cluster_state - 内存使用:
redis_memory_used_bytes - 延迟统计:
redis_latency_percentiles_usec
5.3 自动故障恢复
当节点故障时,K8s会自动重启Pod,但需要注意:
- 主节点故障后,需要等待集群完成故障转移(约15秒)
- 从节点升级为新主节点后,需要确保新副本同步完成
- 网络分区时需要人工介入处理脑裂情况
建议配置HPA实现Proxy层自动扩缩容:
apiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: redis-proxy-hpa namespace: redis-cluster spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: redis-proxy minReplicas: 2 maxReplicas: 5 metrics: - type: Resource resource: name: cpu target: type: Utilization averageUtilization: 60