当前位置: 首页 > news >正文

监控运维面试题.运维工程师面试题

一、基础概念题(8 题)

  1. 监控的核心目标是什么?运维监控的 “黄金指标” 有哪些?
    参考答案:
    核心目标:提前预警故障、快速定位根因、保障业务连续性、优化资源利用率。
    黄金指标(参考 Google SRE 标准):
    可用性(Availability):服务正常运行时间占比(如 99.99%);
    延迟(Latency):用户请求从发起至响应的耗时(P50/P95/P99 分位数);
    吞吐量(Throughput):单位时间内处理的请求数(如 QPS/TPS);
    错误率(Error Rate):失败请求占总请求的比例(如 HTTP 5xx/4xx 占比);
    饱和度(Saturation):资源(CPU / 内存 / 磁盘)的使用率,预测资源瓶颈。

  2. 什么是白盒监控和黑盒监控?两者的区别与适用场景是什么?
    参考答案:
    白盒监控:基于系统内部指标(如 CPU、内存、数据库连接数、代码日志)的监控,需了解系统内部结构;
    适用场景:服务器、数据库、中间件等组件的性能监控,故障根因定位;
    黑盒监控:基于外部行为(如用户访问、接口调用)的监控,不关心系统内部实现;
    适用场景:业务可用性监控(如网站是否可访问、接口是否正常响应)、用户体验监控;
    区别:白盒侧重 “组件健康度”,黑盒侧重 “业务可用性”,运维中需两者结合(如 Zabbix 白盒监控 + Nagios 黑盒监控)。

  3. 监控告警的 “分级” 和 “降噪” 有什么意义?如何实现告警降噪?
    参考答案:
    意义:
    分级:避免所有告警同等对待,让运维人员优先处理核心故障(如 P0 级故障影响千万用户,P3 级仅影响单个非核心功能);
    降噪:减少 “告警风暴”(如某 OLT 宕机触发旗下所有 ONU 离线告警),避免运维人员疲劳。
    降噪实现方式:
    告警抑制:父故障触发后,抑制子故障告警(如服务器宕机后,抑制该服务器上所有应用的离线告警);
    告警合并:相同类型、同一节点的告警在一定时间内合并为一条(如 1 分钟内同一接口的 5 次超时告警合并);
    告警过滤:过滤已知非故障告警(如测试环境的临时告警);
    阈值优化:避免阈值过严导致的高频无效告警(如 CPU 使用率短期超 80% 不告警,连续 5 分钟超 80% 才告警)。

  4. 什么是 “监控闭环”?完整的监控闭环包含哪些环节?
    参考答案:
    监控闭环:从 “指标采集→告警触发→故障处理→复盘优化” 的完整流程,确保故障全生命周期可追溯、可优化。
    环节:
    数据采集:通过 Agent、SNMP、日志等方式采集指标;
    指标分析:对比阈值、趋势,判断是否触发告警;
    告警推送:通过多渠道(短信、电话、钉钉)推送告警;
    故障处理:运维人员响应并修复故障;
    复盘优化:记录故障原因、处理过程,优化监控规则(如调整阈值、增加关联指标)。

  5. 监控数据的 “时效性” 和 “准确性” 哪个更重要?为什么?
    参考答案:
    分场景判断:
    核心业务故障监控(如支付接口、发电站设备):时效性更重要,需毫秒级告警,避免故障扩大;
    资源容量规

http://www.jsqmd.com/news/93960/

相关文章:

  • 【vue2form表单中的动态表单校验】
  • 好写作AI:你的论文“电子榨菜”,专治表达“高血压”!
  • LobeChat能否集成GitLab CI/CD?自动化发布流程设计
  • 细胞与基因治疗(CGT)核心干货科普
  • 使用Miniconda定制专属AI镜像,提升GPU算力利用率
  • Plotly高级可视化库的使用方法(二)
  • 好写作AI:论文格式“救星”,一键告别“调参”噩梦
  • 2025年12月江苏徐州民办高中/民办学校精选推荐 - 2025年品牌推荐榜
  • 使用vLLM镜像在模力方舟平台部署Qwen的完整指南
  • 算子封装 以不同颜色显示多个obj
  • 好写作AI:研究者的“第二大脑”,专治思维卡壳和灵感“便秘”!
  • halcon3d 求角平分面
  • 颈椎枕专利量化分析:3 大痛点频次与 2 条技术路线落地性测试
  • Navicat 技术指引 | 如果查询运行失败并返回错误,你可以请求 AI 调试查询并提供修复方案
  • 全网最全的Cobalt Strike使用教程-内网渗透之域控攻击篇!黑客技术零基础入门到精通教程建议收藏!
  • Miniconda轻量化设计理念对AI工程化的启示
  • IDEA+mybatis实现学生信息查询系统
  • 腾讯云国际站代理商 ACE有什么优势呢?
  • Th17 细胞的分化调控、功能特征
  • 文献管理Mendeley格式用中文GB/T 7714-2015
  • Ubuntu安装SSH服务以便远程访问PyTorch开发机
  • Plotly高级可视化库的使用方法(一)
  • 好写作AI:给写作来一次“版本大更新”!论传统写作与智能辅助的范式融合
  • OpenSpec定义AI模型接口标准助力Qwen3-VL-30B集成
  • PyTorch安装失败常见原因及vLLM环境适配建议
  • 【Java毕设源码分享】基于springboot+vue的人人享美食平台的设计与实现(程序+文档+代码讲解+一条龙定制)
  • LobeChat在金融行业的潜在应用场景设想
  • 【Linux内核设计与实现读书笔记】(三)进程管理
  • GitHub Gist分享Qwen3-VL-30B调试代码片段
  • ENSP下载官网之外的技术延伸:网络仿真中集成AI决策模型