当前位置：首页 > news >正文

别再手动敲命令了！用RKE一键部署Kubernetes高可用集群（附完整YAML配置）

news 2026/6/25 22:29:49

告别手动部署：RKE自动化构建Kubernetes高可用集群实战指南

为什么选择RKE进行Kubernetes集群部署？

在云原生技术快速发展的今天，Kubernetes已经成为容器编排的事实标准。然而，传统的手动部署Kubernetes集群方式存在诸多痛点：

配置复杂：需要手动配置etcd、kube-apiserver、kube-controller-manager等多个组件
易出错：人工操作容易遗漏关键配置项，导致集群不稳定
维护困难：升级和扩展集群时需要重复大量手动操作
一致性差：不同环境部署的集群配置难以保持一致

RKE（Rancher Kubernetes Engine）作为一款轻量级的Kubernetes安装工具，通过声明式配置文件解决了这些问题。它能够：

快速部署生产级Kubernetes集群
确保集群配置的一致性和可重复性
简化集群的维护和升级流程
提供灵活的插件系统扩展集群功能

RKE核心架构解析

RKE工作原理

RKE采用"基础设施即代码"的理念，通过YAML配置文件定义整个Kubernetes集群的拓扑结构和组件配置。其核心工作流程包括：

节点发现与验证：通过SSH连接到目标节点，验证Docker环境
组件部署：根据配置部署Kubernetes各组件容器
证书生成：自动创建集群所需的TLS证书
网络配置：安装选择的CNI插件（默认Canal）
附加组件：按需部署Ingress Controller、Metrics Server等

关键配置文件解析

RKE的核心是cluster.yml配置文件，主要包含以下关键部分：

nodes: - address: 192.168.1.101 # 节点IP user: rke-user # SSH用户名 role: # 节点角色 - controlplane - etcd - worker services: etcd: snapshot: true # 启用etcd快照 retention: 7d # 快照保留7天 kube-api: service_cluster_ip_range: 10.43.0.0/16 kube-controller: cluster_cidr: 10.42.0.0/16 kubelet: fail_swap_on: false # 不强制禁用swap network: plugin: canal # 网络插件选择 options: canal_flannel_backend_type: "vxlan"

实战：使用RKE部署生产级Kubernetes集群

环境准备

硬件要求：

节点类型	CPU	内存	磁盘	数量
Control Plane	2核	4GB	50GB	3
Worker	4核	8GB	100GB	2+

软件要求：

操作系统：CentOS 7.7+/Ubuntu 18.04+
Docker：18.09.x/19.03.x/20.10.x
SSH访问：所有节点间SSH互通
时间同步：确保所有节点时间一致

基础环境配置

禁用Swap（所有节点执行）：

swapoff -a sed -i '/ swap / s/^\(.*\)$/#\1/g' /etc/fstab

内核参数调优：

cat > /etc/sysctl.d/k8s.conf <<EOF net.bridge.bridge-nf-call-ip6tables = 1 net.bridge.bridge-nf-call-iptables = 1 net.ipv4.ip_forward = 1 EOF sysctl --system

加载内核模块：

modprobe br_netfilter modprobe ip_vs modprobe ip_vs_rr modprobe ip_vs_wrr modprobe ip_vs_sh modprobe nf_conntrack_ipv4

RKE安装与配置

下载RKE二进制文件：

wget https://github.com/rancher/rke/releases/download/v1.3.2/rke_linux-amd64 chmod +x rke_linux-amd64 mv rke_linux-amd64 /usr/local/bin/rke

创建cluster.yml配置文件：

nodes: - address: 192.168.1.101 user: rke-user role: [controlplane, etcd, worker] ssh_key_path: ~/.ssh/id_rsa - address: 192.168.1.102 user: rke-user role: [controlplane, etcd, worker] - address: 192.168.1.103 user: rke-user role: [controlplane, etcd, worker] services: etcd: snapshot: true retention: 168h # 7天 creation: 24h # 每天创建快照 kube-api: service_cluster_ip_range: 10.43.0.0/16 extra_args: audit-log-path: /var/log/kube-audit/audit.log audit-log-maxage: "30" audit-log-maxbackup: "10" audit-log-maxsize: "100" kube-controller: cluster_cidr: 10.42.0.0/16 service_cluster_ip_range: 10.43.0.0/16 kubelet: fail_swap_on: false extra_args: max-pods: "250"

部署集群：
```
rke up --config cluster.yml
```
成功部署后会生成：
- kube_config_cluster.yml：kubectl配置文件
- cluster.rkestate：集群状态文件

集群验证

检查节点状态：

kubectl --kubeconfig kube_config_cluster.yml get nodes

预期输出：

NAME STATUS ROLES AGE VERSION 192.168.1.101 Ready controlplane,etcd 5m v1.20.6 192.168.1.102 Ready controlplane,etcd 5m v1.20.6 192.168.1.103 Ready controlplane,etcd 5m v1.20.6

检查系统Pod状态：
```
kubectl --kubeconfig kube_config_cluster.yml get pods -A
```
关键Pod应全部为Running状态：
- coredns
- canal/flannel
- ingress-nginx
- metrics-server

高级配置与优化

网络插件选择与调优

RKE支持多种CNI网络插件，默认使用Canal（Flannel + Calico策略）：

network: plugin: canal options: canal_flannel_backend_type: "vxlan" # 或 "host-gw" canal_iface: "eth1" # 指定网络接口 mtu: 1450 # 根据网络环境调整

不同后端类型比较：

类型	性能	跨子网	配置复杂度
VXLAN	中	支持	低
Host-GW	高	不支持	中
IPsec	低	支持	高

存储配置

配置本地存储类：

apiVersion: storage.k8s.io/v1 kind: StorageClass metadata: name: local-storage provisioner: kubernetes.io/no-provisioner volumeBindingMode: WaitForFirstConsumer

配置NFS存储类：

helm repo add nfs-subdir-external-provisioner https://kubernetes-sigs.github.io/nfs-subdir-external-provisioner/ helm install nfs-subdir-external-provisioner nfs-subdir-external-provisioner/nfs-subdir-external-provisioner \ --set nfs.server=192.168.1.200 \ --set nfs.path=/data/nfs

监控与日志

部署Prometheus Stack：

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts helm install kube-prometheus prometheus-community/kube-prometheus-stack

配置集群日志收集：

# fluent-bit配置示例 config: inputs: | [INPUT] Name tail Path /var/log/containers/*.log Parser docker Tag kube.* Mem_Buf_Limit 5MB Skip_Long_Lines On outputs: | [OUTPUT] Name es Match * Host elasticsearch Port 9200 Logstash_Format On Replace_Dots On Retry_Limit False

集群运维最佳实践

备份与恢复

定期备份etcd数据：

rke etcd snapshot-save --name pre-upgrade-snapshot \ --config cluster.yml

从快照恢复集群：

rke etcd snapshot-restore --name pre-upgrade-snapshot \ --config cluster.yml

升级策略

检查可升级版本：
```
rke config --list-version --all
```

执行滚动升级：

rke up --config cluster.yml \ --kubernetes-version v1.21.5

升级路径建议：

当前版本	可升级版本
v1.18.x	v1.19.x
v1.19.x	v1.20.x
v1.20.x	v1.21.x

节点管理

添加新节点：
- 编辑cluster.yml添加新节点配置
- 执行rke up更新集群

安全下线节点：

kubectl drain <node-name> --ignore-daemonsets --delete-emptydir-data

常见问题排查

部署失败排查

检查RKE日志：
```
tail -f /var/log/rke.log
```
常见错误及解决方案：

错误信息	可能原因	解决方案
Failed to connect to node	SSH配置错误	检查SSH密钥和防火墙设置
Port already in use	端口冲突	检查端口占用情况
Image pull failed	镜像拉取失败	配置镜像仓库或手动拉取镜像

性能优化建议

内核参数调优：

echo "vm.swappiness = 0" >> /etc/sysctl.conf echo "net.ipv4.tcp_tw_reuse = 1" >> /etc/sysctl.conf sysctl -p

Kubelet资源配置：

kubelet: extra_args: kube-reserved: "cpu=500m,memory=1Gi" system-reserved: "cpu=500m,memory=1Gi" eviction-hard: "memory.available<500Mi,nodefs.available<10%"

集成Rancher管理平台

Rancher安装准备

准备证书：

kubectl -n cattle-system create secret tls tls-rancher-ingress \ --cert=tls.crt \ --key=tls.key

添加Helm仓库：

helm repo add rancher-stable https://releases.rancher.com/server-charts/stable

安装Rancher

helm install rancher rancher-stable/rancher \ --namespace cattle-system \ --set hostname=rancher.example.com \ --set ingress.tls.source=secret \ --set replicas=3

Rancher高可用架构

推荐架构：

+-----------------+ | Load Balancer | +--------+--------+ | +----------------+----------------+ | | | +-----+------+ +-----+------+ +-----+------+ | Rancher | | Rancher | | Rancher | | Server 1 | | Server 2 | | Server 3 | +------------+ +------------+ +------------+

安全加固指南

集群安全配置

启用Pod安全策略：

services: kube-api: pod_security_policy: true secrets_encryption_config: enabled: true

配置网络策略：

apiVersion: networking.k8s.io/v1 kind: NetworkPolicy metadata: name: default-deny-all spec: podSelector: {} policyTypes: - Ingress - Egress

认证与授权

集成LDAP/AD：

apiVersion: v1 kind: ConfigMap metadata: name: rancher-config namespace: cattle-system data: AD_URL: "ldap://ad.example.com" AD_DOMAIN: "example.com"

配置RBAC：

apiVersion: rbac.authorization.k8s.io/v1 kind: ClusterRole metadata: name: dev-role rules: - apiGroups: [""] resources: ["pods", "pods/log"] verbs: ["get", "list", "watch"]

成本优化策略

资源利用率提升

配置HPA：

apiVersion: autoscaling/v2beta2 kind: HorizontalPodAutoscaler metadata: name: myapp-hpa spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: myapp minReplicas: 2 maxReplicas: 10 metrics: - type: Resource resource: name: cpu target: type: Utilization averageUtilization: 50

使用Spot实例：

apiVersion: apps/v1 kind: Deployment metadata: name: spot-worker spec: template: spec: affinity: nodeAffinity: requiredDuringSchedulingIgnoredDuringExecution: nodeSelectorTerms: - matchExpressions: - key: node-role.kubernetes.io/spot operator: Exists tolerations: - key: "spot" operator: "Exists" effect: "NoSchedule"

未来演进方向

混合云管理

graph TD A[Rancher中央管理平台] --> B[本地数据中心集群] A --> C[公有云集群] A --> D[边缘计算节点] A --> E[异构基础设施]

GitOps实践

Argo CD集成：

helm repo add argo https://argoproj.github.io/argo-helm helm install argocd argo/argo-cd \ --namespace argocd \ --set server.service.type=LoadBalancer

Flux CD配置：

apiVersion: source.toolkit.fluxcd.io/v1beta1 kind: GitRepository metadata: name: myapp namespace: flux-system spec: interval: 1m0s url: https://github.com/myorg/myapp ref: branch: main