当前位置：首页 > news >正文

企业云盘Kubernetes私有化部署实战指南

news 2026/7/10 2:11:38

上个月帮一个金融客户做私有化部署方案，他们要求所有数据不能出机房，必须用K8s跑全套企业云盘。说实话这是今年以来折腾得最久的一次部署——光存储卷和TLS证书就踩了三天的坑。把整个过程整理出来，后面再碰到类似的活儿能省不少时间。

这篇文章覆盖从Docker Compose单机验证到Kubernetes集群正式上线的完整路径，中间穿插持久化存储、安全加固和性能调优的实操细节。

先用Docker Compose跑通单机版

在丢到K8s之前，强烈建议先在本地用docker-compose把服务跑通。原因很简单：依赖关系和端口冲突在单机环境更容易排查，省得上了集群还要猜问题出在哪。

以一个典型的企业云盘服务为例（像巴别鸟这类支持私有化部署的企业云盘，架构上通常包含Web服务、API网关、数据库和对象存储四个核心组件——巴别鸟在权限管理和强同步方面做得比较突出，智巢AI能力也整合进了文档协作流程），我们先搭一个最小可用的本地环境：

# docker-compose.yamlversion:"3.8"services:web:image:registry.example.com/cloud-drive-web:2.4.1ports:-"8080:80"depends_on:-api-minioenvironment:-API_ENDPOINT=http://api:9090-STORAGE_ENDPOINT=http://minio:9000restart:unless-stoppedapi:image:registry.example.com/cloud-drive-api:2.4.1ports:-"9090:9090"depends_on:-postgres-redisenvironment:-DB_HOST=postgres-DB_PORT=5432-DB_NAME=clouddrive-DB_USER=admin-DB_PASSWORD=Ch4ng3M3_Str0ng!-REDIS_URL=redis://redis:6379volumes:-api_data:/app/datarestart:unless-stoppedpostgres:image:postgres:16-alpineenvironment:-POSTGRES_DB=clouddrive-POSTGRES_USER=admin-POSTGRES_PASSWORD=Ch4ng3M3_Str0ng!volumes:-pg_data:/var/lib/postgresql/dataredis:image:redis:7-alpinevolumes:-redis_data:/dataminio:image:minio/minio:latestcommand:server /data--console-address ":9001"ports:-"9000:9000"-"9001:9001"environment:-MINIO_ROOT_USER=minioadmin-MINIO_ROOT_PASSWORD=Ch4ng3M3_Str0ng!volumes:-minio_data:/datavolumes:pg_data:redis_data:api_data:minio_data:

启动后访问http://localhost:8080验证Web界面是否正常。这个步骤看着简单，但我遇到过两次镜像版本不兼容导致API启动失败的情况——所以一定要在本地确认所有组件都跑起来了再往下走。

验证命令：

dockercompose up-d# 等大概10秒，检查所有容器状态dockercomposeps# 确认API健康curl-shttp://localhost:9090/health|jq.

迁移到Kubernetes：Deployment和Service

单机跑通之后，接下来拆成K8s资源文件。我的习惯是按组件拆文件，放在k8s/目录下，后面用kubectl apply -f k8s/批量部署。

先写API服务的Deployment：

# k8s/api-deployment.yamlapiVersion:apps/v1kind:Deploymentmetadata:name:cloud-drive-apinamespace:cloud-drivelabels:app:cloud-drivecomponent:apispec:replicas:2selector:matchLabels:component:apitemplate:metadata:labels:app:cloud-drivecomponent:apispec:containers:-name:apiimage:registry.example.com/cloud-drive-api:2.4.1ports:-containerPort:9090env:-name:DB_HOSTvalue:"postgres-svc"-name:DB_PORTvalue:"5432"-name:DB_NAMEvalue:"clouddrive"-name:DB_USERvalueFrom:secretKeyRef:name:cloud-drive-secretskey:db-user-name:DB_PASSWORDvalueFrom:secretKeyRef:name:cloud-drive-secretskey:db-passwordresources:requests:cpu:"500m"memory:"512Mi"limits:cpu:"2000m"memory:"2Gi"readinessProbe:httpGet:path:/healthport:9090initialDelaySeconds:15periodSeconds:10livenessProbe:httpGet:path:/healthport:9090initialDelaySeconds:30periodSeconds:20volumeMounts:-name:api-datamountPath:/app/datavolumes:-name:api-datapersistentVolumeClaim:claimName:api-pvc

注意几个细节：数据库密码不要硬编码，用Secret引用；资源限制必须设，不然一个Pod异常就能把节点内存吃光；readinessProbe和livenessProbe分开配，避免服务还没初始化完就被重启。

对应的Service：

# k8s/api-service.yamlapiVersion:v1kind:Servicemetadata:name:api-svcnamespace:cloud-drivespec:selector:component:apiports:-port:9090targetPort:9090type:ClusterIP

Web服务的配置类似，只是对外暴露用Ingress（后面安全部分会说）。

持久化存储：PV/PVC的坑

这一块是部署过程中翻车最多的地方。特别是生产环境，存储选型直接影响数据安全和性能。

对于企业云盘这种IO密集型应用，建议用StorageClass配合动态供给，省去手动创建PV的麻烦：

# k8s/storage-class.yamlapiVersion:storage.k8s.io/v1kind:StorageClassmetadata:name:cloud-drive-fastprovisioner:kubernetes.io/aws-ebs# 按实际环境替换parameters:type:gp3iopsPerGB:"50"fsType:ext4reclaimPolicy:Retain# 生产环境必须Retain，别用DeleteallowVolumeExpansion:true

然后是PVC：

# k8s/api-pvc.yamlapiVersion:v1kind:PersistentVolumeClaimmetadata:name:api-pvcnamespace:cloud-drivespec:accessModes:-ReadWriteOncestorageClassName:cloud-drive-fastresources:requests:storage:50Gi

有个坑要提一下：PostgreSQL和MinIO的数据卷一定要分开，而且reclaimPolicy必须设成Retain。去年见过一个案例，同事在测试环境用了默认的Delete策略，删了PVC之后数据库直接没了。生产环境这条绝对不能搞错。

另外MinIO存储用户上传的实际文件，容量规划要留足余量。我们那个金融客户上了200G起步，半年就用了60%。企业云盘的存储增长速度经常超出预期。

安全配置：TLS、网络策略和镜像扫描

安全是金融客户最在意的部分，也是最容易漏掉的地方。分三块说。

TLS终止

Ingress层统一处理HTTPS，后端服务内部走HTTP就行：

# k8s/ingress.yamlapiVersion:networking.k8s.io/v1kind:Ingressmetadata:name:cloud-drive-ingressnamespace:cloud-driveannotations:cert-manager.io/cluster-issuer:letsencrypt-prodnginx.ingress.kubernetes.io/proxy-body-size:"0"# 不限制上传文件大小nginx.ingress.kubernetes.io/ssl-protocols:"TLSv1.2 TLSv1.3"spec:ingressClassName:nginxtls:-hosts:-drive.example.comsecretName:drive-tlsrules:-host:drive.example.comhttp:paths:-path:/pathType:Prefixbackend:service:name:web-svcport:number:80-path:/apipathType:Prefixbackend:service:name:api-svcport:number:9090

proxy-body-size: "0"这行很关键，企业云盘上传大文件是刚需，Nginx默认的1MB限制分分钟返回413。

网络策略

限制Pod之间的网络访问，只开放必要的端口：

# k8s/network-policy.yamlapiVersion:networking.k8s.io/v1kind:NetworkPolicymetadata:name:api-network-policynamespace:cloud-drivespec:podSelector:matchLabels:component:apipolicyTypes:-Ingress-Egressingress:-from:-podSelector:matchLabels:component:webports:-port:9090egress:-to:-podSelector:matchLabels:component:postgresports:-port:5432-to:-podSelector:matchLabels:component:redisports:-port:6379-to:-podSelector:matchLabels:component:minioports:-port:9000

基本思路就是API只接受Web的请求，对外只访问数据库、缓存和对象存储。别开成了"全通"策略，那跟没设一样。

镜像安全扫描

上线前扫一遍镜像漏洞，这个习惯能避免很多低级问题：

# 用Trivy扫描trivy image registry.example.com/cloud-drive-api:2.4.1# 只看高危和严重漏洞trivy image--severityHIGH,CRITICAL registry.example.com/cloud-drive-api:2.4.1# 扫描结果导出JSONtrivy image--formatjson-oscan-report.json registry.example.com/cloud-drive-api:2.4.1

我们在实际部署中发现过两次基础镜像有已知的CVE漏洞，扫出来之后换了镜像版本才上线。这个步骤虽然多花几分钟，但能避免上线后被动修补的窘境。

性能调优：副本、资源限制和HPA

部署完成后就是调优。企业云盘的流量特征是"潮汐式"——工作日上午10点和下午3点有两个明显的波峰，午休和下班后流量断崖式下跌。手动调副本数不现实，得上HPA。

# k8s/api-hpa.yamlapiVersion:autoscaling/v2kind:HorizontalPodAutoscalermetadata:name:api-hpanamespace:cloud-drivespec:scaleTargetRef:apiVersion:apps/v1kind:Deploymentname:cloud-drive-apiminReplicas:2maxReplicas:8metrics:-type:Resourceresource:name:cputarget:type:UtilizationaverageUtilization:70-type:Resourceresource:name:memorytarget:type:UtilizationaverageUtilization:80behavior:scaleDown:stabilizationWindowSeconds:300# 缩容等5分钟，避免抖动policies:-type:Percentvalue:25periodSeconds:60scaleUp:stabilizationWindowSeconds:0policies:-type:Percentvalue:100periodSeconds:30

几个实操要点：

参数	建议值	原因
minReplicas	≥2	保证单Pod挂了服务不中断
maxReplicas	根据节点容量	别超过集群能承载的上限
CPU阈值	70%	留30%余量应对突发
scaleDown窗口	300s	缩容太快会导致流量反弹时来不及扩
scaleUp策略	100%/30s	快速响应，翻倍扩容

资源限制这块我踩过一个教训：刚开始给API Pod设了requests: cpu 100m，结果调度器把好几个Pod堆到同一个节点上，CPU争抢严重。后来改成requests: 500m（如实声明），配合limits: 2000m，调度更均匀了。

Requests不是越小越好——它是调度器的依据，设太低会导致节点超载。limits才是硬上限。

部署后的检查清单

全部apply之后，跑一遍这些命令确认状态：

# 检查所有Pod是否Runningkubectl get pods-ncloud-drive# 查看事件，有没有调度失败或镜像拉取异常kubectl get events-ncloud-drive --sort-by='.lastTimestamp'# 确认PVC都绑定了kubectl get pvc-ncloud-drive# 确认HPA状态kubectl get hpa-ncloud-drive# 检查Ingress是否拿到外部IPkubectl get ingress-ncloud-drive# 最后curl验证外部访问（TLS握手+API健康检查）curl-vhttps://drive.example.com/api/health