背景
CI&T 为全球 IoT 企业构建了基于 AWS IoT Core 的多区域部署架构。随着规模扩大,传统运维面临三个瓶颈:跨区域数据分散、专家经验难以规模化、手动巡检滞后。
架构设计
Multi-Agent 层级
Supervisor Agent 作为调度中心,负责任务拆分、子 Agent 调度和结果汇总。五个领域 Agent 各负其责:
| Agent | 领域 | 核心能力 |
|---|---|---|
| FinOps | 成本 | 趋势分析、异常检测、优化建议 |
| Platform Ops | 平台 | 日志深挖、服务健康评估 |
| Security Ops | 安全 | IAM 审计、凭证检查、风险识别 |
| Connectivity Ops | 网络 | 延迟监控、流量分析、SSL 证书 |
| BizOps | 业务 | 行为趋势、业务指标分析 |
单 Agent vs 多 Agent 的选型依据:每个运维领域需要不同的领域知识和 API 调用模式。单 Agent 的 system prompt 无法承载全栈运维知识,且领域间可能互相干扰。多 Agent 方案的代价是调度复杂度增加,但 Supervisor 模式有效管控了这一点。
Skills 层:能力标准化
Agent 不直接调用 AWS CLI/API,而是通过标准化 Skill 执行任务。这一设计解决了三个问题:
- 封装复杂逻辑:Cost Explorer + Pricing API 的多步调用封装为单个 Skill
- 解耦底层依赖:API 变更只影响 Skill,不影响 Agent 逻辑
- 能力沉淀:运维经验从人脑转化为系统资产
这与 Kiro Skills、agentskills.io 标准的设计哲学一致——确定性操作封装为可复用模块。
自动巡检体系
定期触发(Supervisor) → 并行分析(5 Agents) → 智能汇总(统一报告)
核心价值:从"被动响应"转为"主动发现"。不是替代 Dashboard,而是补充了 Dashboard 缺乏的持续执行和跨领域关联分析能力。
企业级部署:AgentCore
开发验证在 OpenClaw 上完成后,生产环境部署到 Amazon Bedrock AgentCore:
- Serverless 按需付费:定时巡检"运行几分钟闲 23 小时"的模式,比常驻实例省成本
- 安全隔离:每用户独立沙箱
- 企业治理:预设规则防越权
- 可观测性:内置监控
工程取舍
适合:
- 跨区域多服务运维
- 需要多维度(成本+安全+性能)综合分析
- 有定期巡检需求的团队
不适合:
- 运维范围单一(单服务单区域),单 Agent 即可
- 需要实时响应(< 1 秒)的场景,Multi-Agent 调度有开销
与 CloudWatch/DataDog 的关系:互补而非替代。监控工具提供数据采集和可视化,Agent 提供智能分析和主动发现。
参考资料
- CI&T 智能运维最佳实践(官博)
- Amazon Bedrock AgentCore
- AWS IoT Core
