当前位置：首页 > news >正文

AIOps 自动修复边界：能自动做，不代表该自动做

news 2026/7/6 5:51:55

AIOps 自动修复边界：能自动做，不代表该自动做

一、自动修复最怕过度自信

AIOps 不只会发现异常，还可能自动执行修复：重启 Pod、扩容副本、切流量、清理磁盘、回滚发布。自动修复能缩短故障时间，但也可能造成二次事故。问题不在自动化本身，而在边界是否清楚。

能自动做，不代表该自动做。先定义哪些动作允许自动执行，哪些必须人工确认。

二、先给动作分级

flowchart TD A[修复动作] --> B[低风险] A --> C[中风险] A --> D[高风险] B --> E[自动执行] C --> F[自动建议 + 人工确认] D --> G[只生成 Runbook]

低风险动作比如重启无状态副本、清理临时文件，可以自动执行；中风险动作比如扩容、切流量，需要确认；高风险动作比如删数据、改安全策略，只能给建议。

auto_remediation_policy: restart_stateless_pod: auto scale_deployment: require_confirm delete_data: forbidden

策略要写在系统里，不要靠值班人员临场判断。

三、自动动作要有前置条件

restart_pod_conditions: pod_crash_loop: true deployment_replicas_above: 2 no_recent_restart_within_minutes: 10

同样是重启 Pod，也要看副本数、最近是否重启过、是否影响核心流量。如果只有一个副本，自动重启可能造成更长不可用。

自动修复还要有频率限制。系统如果不断重启同一个服务，说明根因没有解决，应停止自动修复并升级人工处理。

四、修复后要验证

自动执行动作后，必须验证指标是否恢复。只执行不验证，系统不知道自己有没有帮忙。

post_fix_validation: check_error_rate: true check_latency: true check_pod_ready: true rollback_if_worse: true

如果修复后指标变差，要能停止继续动作，必要时回滚。自动化不应该一条路走到黑。

还要记录审计。谁触发、为什么触发、执行了什么、结果如何，都要能查。自动修复也要承担责任链。

最后，自动修复要从建议模式开始。先让系统生成建议，由人确认并反馈；当某类建议长期稳定有效，再逐步放开自动执行。这样更符合生产系统的成熟路径。

自动修复还要有熔断。如果同一类修复在短时间内连续失败，系统应该停止继续执行，转为人工处理。否则自动化会把错误动作重复很多次。

remediation_circuit_breaker: max_failures_per_hour: 3 disable_action_minutes: 60 notify_oncall: true

还要设置影响面限制。自动扩容最多扩到多少，自动重启最多重启多少 Pod，自动切流量最多切多少比例，都要有上限。没有上限的自动修复，本身就是高风险操作。

最后，所有自动修复策略都应该定期复盘。业务变了、架构变了、容量变了，旧策略可能不再安全。AIOps 不是写一次规则，而是持续运营。

自动修复还要区分环境。开发、预发可以大胆尝试自动动作，生产必须更保守。策略从预发验证到生产启用，也应该走发布流程，而不是直接改规则。

remediation_env_policy: staging: auto_for_medium_risk production: auto_only_low_risk require_policy_review: true

还要把用户影响纳入判断。某个 Pod 异常但没有用户流量，自动重启可以慢一点；核心链路错误率上升，则需要更快动作。AIOps 不能只看资源状态，也要看业务指标。

最后，自动修复系统本身也要可观测。策略命中次数、执行成功率、误修复率、人工接管次数，都是评估它是否可靠的指标。

五、总结

AIOps 自动修复要按风险分级，设置前置条件、频率限制、执行审计和修复后验证。

自动化不是越多越好。边界清楚，自动修复才是救火工具；边界不清，它会变成新的火源。

查看全文

http://www.jsqmd.com/news/1132890/

如何做仿真？

061、自定义数据集训练：如何将自己的图像和视频数据用于超分模型

5分钟解锁Wand高级功能：开源增强工具完整指南

Spek频谱分析器终极指南：5分钟掌握音频可视化分析完整教程

人体骨骼时序动态感知模型头肢活跃度量化+实时情绪推演核心算法专项解析

3分钟免费解锁B站缓存视频：m4s-converter终极完整指南

130、共享卷积 Head：分类和回归分支共享前三层卷积的参数共享策略与效果

基于3D整数小波与超混沌系统的彩色图像加密算法详解与Matlab实现

机械专业不想干纯设计，可以转什么方向？2026年热门转型指南

本地化代码生成AI部署指南：从环境配置到API集成实践

使用 Oracle EBS 的中国企业Oracle EBS在中国金融、电信、能源等行业有大量深度用户，尤其在银行和保险行业占据主导地位。金融行业（银行）这是Oracle EBS在中国最集中的用户

RIP实验需求配置

ALVR无线VR串流：释放你的PC VR游戏，体验无拘无束的虚拟现实

Windows 下Maven安装配置(本地仓库配置)

E-Ink Launcher：为电子阅读器打造的极致省电Android启动器

暑假40天极速学Python！大学生零基础保姆级上岸路线（从入门到可做项目）

SMUDebugTool：锐龙处理器性能调试的终极指南，轻松实现超频优化与系统监控

Cangaroo：当袋鼠跳跃在CAN总线上的开源奇迹

真原生，非外挂：Agentic CRM 时代，什么才是真正的 AI 原生CRM

中国企业里用 Oracle EBS 和 SAP 的都是各自领域的头部大户，但两边的“基本盘“不太一样——Oracle EBS 在电信/金融/航空/钢铁偏强，SAP 在制造业/汽车/能源/央企更占主

C++之libCurl实现HTTP请求

Palworld存档转换工具：三步实现游戏数据自由编辑

Linux应急响应实战指南：从入侵检测到系统加固的完整流程

YOLO目标检测从入门到精通：核心原理、版本演进与实战部署指南

bert-ancient-chinese 模型部署与实战：在《左传》分词任务上实现 96.32% F1 分数

3大挑战+5步实战：Windows风扇控制终极指南

AI 数据问答权限：自然语言不能绕过指标边界

英雄联盟终极辅助工具：League-Toolkit 完整使用指南

VisualCppRedist AIO：Windows运行库问题的终极一站式解决方案

3步让经典Direct3D 8游戏在Windows 10/11完美运行：免费兼容性解决方案终极指南