计算机系统运维核心技术栈
🌳一个写全栈技术、偏底层基建、爱研究 bug 的程序员博客。技术界的一名小工匠⊥⊤,每天进步一点点。
计算机系统运维核心技术栈
一、硬件与服务器运维基础
1.服务器硬件
-X86 机架 / 刀片 / 塔式服务器、小型机(IBM Power、HP-UX)架构
-CPU、内存、RAID 阵列(RAID0/1/5/6/10)、硬盘、HBA 卡、电源冗余
-机房设备:机柜、PDU、UPS 精密空调、温湿度、消防、接地
-存储设备:NAS、SAN、磁盘阵列、LUN 划分、快照、存储扩容
2.网络硬件运维
-交换机(二层 VLAN、Trunk、STP、ACL)、路由器静态 / OSPF/BGP
-防火墙策略、负载均衡 LVS/Nginx/F5、WAF、堡垒机
-IP 规划、子网划分、DHCP、DNS 解析、链路聚合、专线、VPN(IPsec/SSL)
二、操作系统运维(核心)
1.Linux(运维主流)
系统基础
-发行版:CentOS/RHEL、Ubuntu、Debian、Rocky、Alpine
-账户权限:useradd/sudo/uid/gid、SELinux、sudoers 权限管控
-文件系统:ext4、xfs、tmpfs、swap 分区、mount/umount、fstab
-磁盘管理:fdisk、parted、lvm(pv/vg/lv 扩容缩容)
系统命令与进程
-进程管理:ps、top、htop、systemctl、crontab 定时任务
-日志:/var/log、rsyslog、journalctl、日志轮转 logrotate
-网络工具:ip、ss、netstat、tcpdump、wget/curl、route
服务与内核
-系统启动流程:BIOS→GRUB→systemd 运行级别
-内核调优:sysctl(TCP 连接数、内存参数、文件句柄)
-软件管理:yum/dnf、apt、源码编译、rpm/deb 包管理
2.Windows Server
-AD 域控、组策略 GPO、DNS、DHCP 服务器
-IIS 网站、共享文件夹、NTFS 权限、磁盘配额
-任务计划程序、性能监视器、事件查看器、远程桌面 RDP
-故障转移集群、WSUS 补丁分发、PowerShell 自动化脚本
3.小型机 Unix
-AIX、HP-UX、Solaris,LVM、裸设备、Oracle 小型机环境维护
三、虚拟化与云平台运维
1.本地虚拟化
-VMware vSphere:ESXi、vCenter、虚拟机克隆 / 快照 / 迁移、资源池
-KVM/QEMU、Libvirt、OpenStack 私有云计算节点
-Hyper-V 虚拟机、P2V 物理机迁移
2.公有云运维(阿里云 / 腾讯云 / AWS)
-云服务器 ECS、镜像、快照、弹性伸缩 AS
-对象存储 OSS、块存储云盘、数据库 RDS、负载均衡 SLB
-安全组、云防火墙、RAM 权限、监控告警、CDN、OSS 权限策略
3.容器与云原生(现代运维必备)
Docker
-镜像、容器、Dockerfile、仓库 Registry、数据卷、网络模式 bridge/host
Kubernetes(K8s)
-Pod、Deployment、Service、Ingress、ConfigMap/Secret
-PV/PVC 存储、Namespace、资源配额、HPA 弹性扩缩容
-集群部署、kubeadm、kubectl 命令、集群故障排查
配套组件:Harbor 镜像仓库、Prometheus+Grafana 监控、ELK 日志、Jenkins CI/CD
四、数据库运维 DBA 基础(运维必备)
1.关系型数据库
-MySQL/MariaDB:主从复制、分库分表、慢查询、索引优化、备份 mysqldump、binlog
-Oracle:表空间、RMAN 备份、监听、PL/SQL、RAC 集群
-SQL Server:备份恢复、事务日志、索引、故障转移
2.NoSQL 数据库
-Redis:持久化 RDB/AOF、主从、哨兵、集群、缓存淘汰策略
-MongoDB 副本集、分片集群
3.通用操作:数据库备份恢复、权限管理、慢日志、连接池、性能调优
五、中间件与业务服务运维
Web 服务
-Nginx:反向代理、负载均衡、限流、缓存、SSL 证书、rewrite 规则
-Apache、Tomcat、Jetty、JBoss(Java 应用容器)
消息队列
-RabbitMQ、Kafka:消息堆积、分区、持久化、集群运维
其他中间件
-Nacos 注册中心、Elasticsearch 搜索引擎、Memcached 缓存
六、自动化运维(高级核心能力)
1.脚本开发
-Shell/Bash 脚本:批量巡检、日志清理、备份脚本
-Python 运维:paramiko 远程执行、psutil 监控、接口调用
-PowerShell、Go 简易运维工具
2.自动化工具
-Ansible:Inventory 清单、Playbook、模块批量管理服务器
-SaltStack、Puppet 配置管理
3.CI/CD 流水线
-Jenkins、GitLab CI、代码发布、灰度发布、回滚方案
七、监控、告警与日志体系
1.监控工具
-Zabbix、Prometheus+Grafana、SkyWalking 链路监控
-监控指标:CPU、内存、磁盘 IO、网络流量、端口存活、服务响应时间
2.日志管理
-ELK(Elasticsearch+Logstash+Kibana)、Fluentd、日志采集、检索、告警
3.告警机制
-邮件、钉钉 / 企业微信短信告警、阈值配置、故障分级
八、信息安全运维
1.服务器安全加固
-关闭无用端口、最小权限、禁用 root 远程登录、SSH 密钥登录、防火墙策略
-系统漏洞修复、定时补丁更新、病毒查杀 ClamAV
2.等保安全体系
-账号三权分立、操作审计、堡垒机运维审计、日志留存 6 个月
3.攻防基础
-Web漏洞(SQL 注入、XSS)、暴力破解防护、CC攻击拦截、主机入侵检测 HIDS
九、容灾备份与故障处理
1.备份体系
-全量备份、增量 / 差异备份、定时备份、异地备份、备份校验恢复演练
-数据库备份、文件备份、虚拟机快照备份
2.容灾架构
-本地高可用 HA、同城双活、异地灾备、RTO 恢复时间、RPO 数据丢失指标
3.故障排错核心场景
-服务器宕机、磁盘坏道、内存溢出、端口占用、网络不通、数据库卡死
-服务启动失败、磁盘满、CPU 打满、内存泄漏、连接数耗尽
十、项目流程与运维规范(软技术)
1.标准化:服务器命名规范、IP规划、配置文档、变更工单
2.变更管理:上线审批、灰度发布、回滚预案、变更后验证
3.巡检体系:日 / 周 / 月度巡检报告、资产台账管理
4.应急预案:宕机、勒索病毒、数据库故障、机房断电应急方案
5.IT资产管理:服务器、存储、网络设备生命周期管理
十一、进阶运维技术栈(大厂 / 云运维加分项)
1.可观测性:Prometheus 自定义指标、Loki 日志、Jaeger 链路追踪
2.云原生安全:OPA、容器镜像扫描、网络策略 NetworkPolicy
3.基础设施即代码 IaC:Terraform 云资源编排、Ansible
4.性能调优:Linux 内核 TCP 调优、JVM 调优、MySQL 慢 SQL 优化
5.成本优化:云资源闲置清理、弹性伸缩、存储分层降本
如上11个技术栈,是运维岗最基本要掌握的。
