当前位置: 首页 > news >正文

【云原生与DevOps】03-K8s生产环境部署Checklist:你踩过这18个坑吗

专栏:云原生 & DevOps
难度:进阶
标签:Kubernetes生产环境checklist踩坑最佳实践


前言

K8s 在测试环境跑得好好的,一到生产就出问题。本文总结了真实血泪经验中的18个坑,每一条都是真实事故凝练的经验。


坑1:没配资源 limits,被一个Pod打挂整个节点

resources:requests:cpu:"250m"memory:"256Mi"limits:cpu:"1000m"memory:"512Mi"

教训:requests用于调度,limits用于限制。不配 limits,一个内存泄漏的 Pod 会把节点内存耗尽,导致 OOMKill 雪崩。


坑2:镜像标签用 latest,滚动更新失效

# 错误image:myapp:latest# 正确image:myapp:1.2.3-abc1234# 包含git commit hash

教训:latest不是版本,imagePullPolicy: Always会导致每次都拉镜像,降低启动速度。


坑3:没配健康检查,流量打到未就绪的Pod

readinessProbe:httpGet:path:/health/readyport:8080initialDelaySeconds:10periodSeconds:5failureThreshold:3livenessProbe:httpGet:path:/health/liveport:8080initialDelaySeconds:30periodSeconds:10failureThreshold:3

教训:readinessProbe控制是否接收流量,livenessProbe控制是否重启容器,两者缺一不可。


坑4:PodDisruptionBudget 没配,滚动更新导致服务中断

apiVersion:policy/v1kind:PodDisruptionBudgetmetadata:name:myapp-pdbspec:minAvailable:2# 滚动时保持至少2个可用selector:matchLabels:app:myapp

坑5:没配 HPA,突发流量直接挂

apiVersion:autoscaling/v2kind:HorizontalPodAutoscalermetadata:name:myapp-hpaspec:scaleTargetRef:apiVersion:apps/v1kind:Deploymentname:myappminReplicas:2maxReplicas:20metrics:-type:Resourceresource:name:cputarget:type:UtilizationaverageUtilization:70

坑6:ConfigMap 热更新不生效

默认情况下 Pod 不会感知 ConfigMap 的变更。解决方案:

  1. 使用 Reloader(推荐):https://github.com/stakater/Reloader
  2. 将配置版本写入 Deployment annotation,触发滚动更新
# 方案2:在annotation中记录configmap版本spec:template:metadata:annotations:configmap-version:"v3"# 改这里触发滚动更新

坑7:Service 类型用 NodePort 暴露生产服务

生产环境应使用 LoadBalancer 或 Ingress,NodePort 端口范围有限且难以管理。


坑8:没配 Pod 反亲和性,所有副本跑在同一节点

affinity:podAntiAffinity:requiredDuringSchedulingIgnoredDuringExecution:-labelSelector:matchLabels:app:myapptopologyKey:"kubernetes.io/hostname"

坑9:Secret 明文写在 YAML 里推送到 Git

使用 Sealed Secrets 或 Vault:

# 安装 Sealed Secretshelm repoaddsealed-secrets https://bitnami-labs.github.io/sealed-secrets helminstallsealed-secrets sealed-secrets/sealed-secrets-nkube-system# 加密Secretkubeseal-oyaml<secret.yaml>sealed-secret.yaml

坑10:命名空间没做资源配额,Dev环境把生产资源耗尽

apiVersion:v1kind:ResourceQuotametadata:name:dev-quotanamespace:developmentspec:hard:requests.cpu:"4"requests.memory:8Gilimits.cpu:"8"limits.memory:16Gicount/pods:"20"

坑11:没配terminationGracePeriodSeconds,应用被强杀

spec:terminationGracePeriodSeconds:60# 给应用60秒优雅退出时间containers:-name:myapplifecycle:preStop:exec:command:["/bin/sh","-c","sleep 5"]# 等待LB摘除此Pod

坑12 - 坑18(核心原则速览)

坑号问题解决方案
12etcd 没备份配置 etcd 自动备份到 S3/OSS
13节点磁盘打满,Pod 被驱逐配置 evictionHard 阈值,及时清理镜像
14日志直接写容器内,重启丢失使用 DaemonSet 收集日志(Filebeat/Fluentd)
15RBAC 给了 cluster-admin,权限过大遵循最小权限原则
16镜像拉取无重试,冷启动失败配置 imagePullPolicy: IfNotPresent
17单 Master 高可用差生产至少3个 Master 节点
18升级 K8s 版本前未测试在独立集群先验证,看 Changelog

结语:这18个坑没有一个是"偶然"发生的,都有据可查。把这个 checklist 贴在你们团队的部署规范里,可以避免80%的生产事故。

http://www.jsqmd.com/news/1092826/

相关文章:

  • 秦兵马俑博物馆小程序-springboot+app
  • “线代”初探:数、方向与连续运算的陷阱
  • DICOM图像核心参数实战指南:从像素到诊断的精准度量
  • Python高级编程 + AI代码生成实战
  • AI不只会写脚本:如何让大模型帮你搭建高可用Python系统
  • 从矩阵运算到密码实践:深入理解Hill密码的加解密机制
  • Unity Mod Manager终极指南:5步轻松管理Unity游戏模组
  • iTrustee Client日志定制化:如何实现自定义日志输出与安全审计
  • .NET DES加密实战:从原理到安全实现的完整指南
  • Qwen3 Plus 接入 Cursor 配置教程:base_url 末尾斜杠 + model name 写法,填错直接静默 404
  • BiliTools终极指南:如何用跨平台工具箱高效管理B站资源
  • Python操控AutoCAD完全指南:5个实战技巧提升设计效率
  • Python自动化资产安全检测:GitLab与SpringBoot漏洞批量扫描实战
  • 60+免费Freeplane思维导图模板:提升工作效率的终极解决方案
  • ModuleNotFoundError: No module named ‘onnxruntime‘ 与 ‘onnx‘ 的快速诊断与修复指南
  • SAP FI 实战解析:会计凭证冲销与反记账的配置与报表影响
  • 【紧急预警】ChatGPT Plus个人账户额度正被动态收紧!3类高危使用行为触发自动降额(附2024Q2真实审计日志)
  • 【open harmony/harmonyos】ArkTS 打造高端沉浸式星图界面:悬浮导航栏、玻璃拟态与流光背景
  • Win11Debloat:3分钟免费优化Windows系统,让电脑重获新生
  • 办收据登报挂失多钱?收据登报挂失怎么办理?遗失声明怎么写
  • SQL注入核心原理与实战:数字型、字符型、搜索型注入深度解析
  • 从选型到实战:深入解析瓷片电容在电路设计中的核心应用
  • 全栈接口测试实战指南:从工具选型到自动化框架构建
  • Koalageddon:多平台DLC解锁技术的深度解析与架构演进
  • BCC脚本执行链路
  • 反思与自我改进:Agent自我批评、经验学习与技能库构建的闭环
  • SetDPI:3步掌握Windows命令行DPI调整的终极方案
  • 智能插件本地化:3步实现Obsidian全界面中文的终极方案
  • 深入解析MSP-GANG430量产编程器底层协议与DLL API开发指南
  • MTEX工具箱:材料科学家必备的晶体学纹理分析利器