当前位置: 首页 > news >正文

云底座 amp; 性能优化 90 天每日打卡计划

核心原则:工作日每天 1.5-2 小时,周末每天 3-4 小时,兼顾工作与学习,拒绝疲劳战

第一阶段(第 1-4 周):工具链精通 & 性能基线搭建

第 1 周:perf/ftrace 工具入门

日期
打卡任务(每日 1.5h)
验收标准

周一
学习 perf 基本命令(perf stat/top/record)
用 perf stat 分析 ls 命令耗时

周二
perf record + perf report 实战,分析 CPU 热点函数
定位 1 个简单程序的高耗函数

周三
ftrace 基本使用(trace-cmd),了解函数调用链
追踪内核 schedule 函数调用

周四
结合业务,用 perf 分析云底座 API 进程 CPU 占用
输出 CPU 占用 top5 函数清单

周五
整理本周命令笔记,总结 perf/ftrace 适用场景
形成 1 页工具使用速查表

周末
复现 1 个线上常见 CPU 高占用问题,用工具定位根因
撰写问题排查步骤文档

第 2 周:内核调度 & 内存优化

日期
打卡任务(每日 1.5h)
验收标准

周一
学习 CFS 调度器原理,了解 nice 值、cfs_period_us
调整进程 nice 值,观察 CPU 占比变化

周二
研究 NUMA 架构,掌握 numactl 工具使用
绑定进程到指定 NUMA 节点,测试性能

周三
透明大页 /hugepage 原理,配置开启 / 关闭
对比开启前后应用内存访问时延

周四
调整云服务器内核调度参数(sched_migration_cost)
单机负载均衡率提升 5%

周五
整理内核参数调优清单,标注适用场景
输出 10 个常用性能参数表

周末
搭建测试虚拟机,模拟高负载场景验证优化效果
记录优化前后性能对比数据

第 3 周:性能基线搭建

日期
打卡任务(每日 1.5h)
验收标准

周一
梳理核心业务:云底座 API、VM 启停、存储 IO
列出 3 类核心业务的关键指标

周二
学习性能基线定义方法,确定指标阈值(时延 / 吞吐量)
为 API 响应时延设定合理基线

周三
编写脚本,周期性采集业务指标数据
实现每 5 分钟自动采集 1 次数据

周四
分析采集数据,绘制指标趋势图
生成 1 周的 API 时延趋势折线图

周五
输出核心业务性能基线文档,明确告警阈值
文档包含指标定义、基线值、告警规则

周末
针对基线异常值,分析原因并标注
完成基线文档修订

第 4 周:可观测监控落地

日期
打卡任务(每日 1.5h)
验收标准

周一
部署 Prometheus + Grafana 基础环境
实现 Prometheus 监控本机 CPU / 内存

周二
学习 exporter 开发,编写简单的业务指标 exporter
自定义 API 时延指标接入 Prometheus

周三
部署 eBPF_exporter,采集内核态指标
监控进程 syscall 调用次数

周四
在 Grafana 配置核心业务仪表盘
仪表盘包含 3 类业务的实时指标

周五
配置告警规则,测试告警触发与通知
模拟指标超标,接收告警邮件

周末
优化仪表盘展示,添加指标联动与钻取
实现 1 次点击查看指标详情

第二阶段(第 5-8 周):云原生资源管理 & 性能优化实践

第 5 周:K8s 调度扩展

日期
打卡任务(每日 1.5h)
验收标准

周一
复习 K8s 调度原理,了解默认调度器流程
能画出 K8s 调度器核心流程图

周二
学习 Node 亲和性、Pod 亲和性配置
部署 Pod 并验证亲和性规则生效

周三
研究 Custom Scheduler 开发基础
编写简单的自定义调度器 demo

周四
基于负载的调度策略设计,修改调度器配置
实现 Pod 优先调度到低负载节点

周五
整理 K8s 调度调优案例
输出 5 个调度优化场景方案

周末
在测试集群部署自定义调度策略,验证资源利用率
集群资源利用率提升 10%

第 6-8 周 核心任务框架(可参考第 5 周细化)

周数
核心目标
每日核心动作
周末验收

第 6 周
containerd 优化
学习镜像分层 / 运行时配置,调整镜像拉取策略
容器启动时间缩短 15%

第 7 周
KVM 虚拟化调优
配置 virtio 网卡 / 磁盘,vCPU 绑定,内存气球技术
虚拟机网络时延降低 20%

第 8 周
在线 / 离线业务混部
学习干扰检测算法,部署混部调度策略
集群资源利用率达 60%+

第三阶段(第 9-12 周):异构算力适配 & 技术沉淀

周数
核心目标
每日核心动作
周末验收

第 9 周
GPU/NPU 集群接入
学习 NVIDIA GPU Operator 部署,配置 K8s GPU 调度
完成 1 台 GPU 服务器接入集群

第 10 周
大模型推理优化
学习 vLLM 部署,调整内存池化参数
大模型推理时延降低 10%

第 11 周
自动化工具开发
用 Python 编写大页配置 / 性能采集脚本
脚本批量应用于 10 台服务器

第 12 周
技术沉淀输出
整理优化案例,撰写技术博客
输出 2 篇可对外分享的文档

打卡小贴士
  1. 每天结束后记录学习时长和遇到的问题,周末集中解决
  2. 优先在测试环境操作,避免影响生产
  3. 遇到技术卡点可查阅之前整理的资源清单,或在社区提问
http://www.jsqmd.com/news/120062/

相关文章:

  • linux centos7.9 中文乱码
  • Tableau入门指南:大数据可视化从零到精通
  • springcloud springboot nacos版本对应 - 指南
  • 智能AI图像识别之建筑物立面缺陷识别 小区违规搭建识别 小区垃圾堆积识别 违规停车识别 建筑物墙面缺陷识别yolo数据集10314期
  • 云底座 amp; 性能优化 90 天提升 工具与学习资源清单
  • java计算机毕业设计网络流行语资源库建设及实现 网络热词共享与语义标注平台 互联网流行语知识图谱与检索系统
  • NPM2100 可控的gpio
  • .NET 文件操作中常见的内存泄漏场景梳理
  • NPM2100 LDO
  • Qt 信号槽机制的一些实现细节
  • 智慧城市与智慧校园之安防暴力检测 校园打架斗殴检测 街边暴力躁动识别 危险物品识别 智能安防 安防领域智能化 数据集第10319期 (1)
  • python题库 No.30 今日何日兮
  • AI Agent的概念形成:模拟LLM的抽象思维过程
  • AI Agent的概念形成:模拟LLM的抽象思维过程
  • 【读书笔记】《中国文化要义》
  • 04 Linux用户和权限管理
  • 云底座 amp; 性能优化 90 天技术提升落地清单
  • 【读书笔记】《苏格拉底的申辩》
  • YOLOv11改进 - C3k2融合 | C3k2融合CBSA 收缩 - 广播自注意力:轻量级设计实现高效特征压缩,优化处理效率 | NeurIPS 2025
  • 鸿蒙破晓:一场技术与人才突围的生态远征
  • 2025年度苏州十大建站企业综合实力排行榜出炉,引领官网建设新标准 - 五色鹿五色鹿
  • 高中语法练习解析100篇-001 - new
  • 智慧铁路之受电弓接触点识别 铁路输电线路鸟巢识别 铁路异物入侵巡检识别 铁路风筝识别 列车绝缘子检测 轨道交通场景下异物识别 户外线缆及附属部件的智能监测 10325期
  • 【全球AI伦理治理】
  • 探索单相MMC:从整流到均衡控制的技术之旅
  • springboot购物推荐网站的设计与实现(11541)
  • 链动2+1模式AI智能名片S2B2C商城小程序中电商直播的应用机制与价值创新研究
  • 4.常用数据结构和单线程模型理解
  • AI原生开发范式
  • 别慌!AI淘汰的不是人,是不会用AI的人