当前位置：首页 > news >正文

云原生监控一体化实践：从零部署mco实现指标、日志、追踪统一管理

news 2026/5/13 2:13:37

1. 项目概述：一个面向现代容器化应用的开源监控解决方案

最近在梳理团队的技术栈，发现随着微服务和Kubernetes的普及，传统的监控体系越来越力不从心。我们需要的不仅仅是对主机和进程的监控，更需要能深入理解容器、Pod、Service以及应用自身业务指标的全栈可观测性。正是在这个背景下，我深入研究了mco-org/mco这个项目，它不是一个简单的工具，而是一套旨在重新定义云原生监控的开源解决方案。如果你也在为复杂的容器环境下的监控告警、指标收集和链路追踪而头疼，那么接下来的内容或许能给你带来一些新的思路和可以直接落地的方案。

简单来说，mco是一个云原生时代的监控与可观测性平台。它的目标很明确：将指标（Metrics）、日志（Logs）、追踪（Traces）这三大可观测性支柱整合到一个统一、高效、易于扩展的系统中。与 Prometheus、Grafana Loki、Jaeger 等独立组件需要复杂集成的模式不同，mco试图提供一种“开箱即用”的一体化体验，同时保持与云原生生态的高度兼容。它特别适合运行在 Kubernetes 环境中的开发者和运维团队，旨在降低可观测性系统的部署、维护和理解成本。

2. 核心架构与设计哲学解析

2.1 为什么需要另一个监控系统？

在深入mco的细节之前，我们必须先回答一个根本问题：市面上已经有 Prometheus（指标）、Loki（日志）、Jaeger（追踪）等成熟且优秀的开源方案，为什么还需要mco？根据我的实践和项目设计文档的解读，其核心驱动力在于“整合复杂度”和“数据关联性”。

在典型的云原生监控栈中，我们通常需要部署和维护多个独立的组件：Prometheus Server 抓取和存储指标，可能需要 Thanos 或 Cortex 来实现长期存储和高可用；Grafana 用于可视化；Loki 收集日志；Jaeger 处理分布式追踪。每个组件都有自己的配置、存储后端、查询语言和运维方式。当出现一个线上问题时，运维人员可能需要在 Grafana 里查指标，在 Kibana 或 Loki 的界面里搜日志，再到 Jaeger UI 里看调用链，这个过程是割裂的。

mco的设计哲学是“统一采集、统一存储、统一查询”。它通过一个单一的 Agent（采集器）来收集指标、日志和追踪数据，写入一个统一设计的存储引擎，并通过统一的查询接口或界面进行数据探查。这样做的好处显而易见：部署更简单，学习成本更低，更重要的是，在排查问题时，可以非常自然地在同一个上下文里关联查看一个服务的性能指标、错误日志和完整的调用链路，极大提升了排障效率。

2.2 mco 的核心组件与数据流

mco的架构清晰地区分了数据面和控制面，遵循云原生应用的设计模式。

1. mco-agent（数据采集器）这是部署在每个目标节点（或作为 Kubernetes DaemonSet）上的轻量级组件。它的职责是“采集一切”。通过插件化架构，它可以：

采集指标：支持 Prometheus 的 Pull 模式抓取，也支持通过 StatsD、OpenMetrics 等协议接收 Push 过来的指标。同时，它内置了对容器（Docker）、容器编排平台（Kubernetes API）、主机（Node Exporter 功能）以及主流中间件（如 MySQL, Redis, Nginx）的指标采集能力。
采集日志：类似于 Fluent Bit 或 Filebeat，它可以跟踪指定路径的日志文件，通过高效的解析规则（如正则、json、grok）提取结构化字段，并与指标和追踪数据共享相同的元数据标签（如pod=“app-abc-123”,namespace=“production”）。
采集追踪：支持 OpenTelemetry 和 Jaeger 等多种追踪协议，可以接收应用 SDK 发送的 Span 数据。

注意：mco-agent在设计上强调低资源消耗和高性能。它会对采集到的数据进行预处理（如过滤、聚合、采样）和压缩，然后再批量发送到后端，这能显著减少网络带宽和存储压力。在实际部署时，你需要根据数据量和节点性能仔细调整批处理大小和发送间隔这两个参数。

2. mco-server（存储与查询引擎）这是mco的大脑和存储中心。它接收来自所有 Agent 的数据流，并进行处理：

统一存储：mco没有直接复用 Prometheus 的 TSDB 或 Elasticsearch，而是设计了自己的时序数据存储引擎，旨在高效处理高维度的、带有丰富标签的指标、日志和追踪数据。其底层存储格式考虑了列式存储和压缩算法，以应对海量数据。
关联与索引：这是mco的杀手锏。所有进入系统的数据都会被自动打上统一的、标准化的资源标签（如k8s_cluster,k8s_namespace,k8s_pod,k8s_container,service,host等）。通过这套统一的标签体系，指标、日志和追踪数据在底层就被关联在一起。例如，你可以通过一个 Pod 的名称，直接查询到这个 Pod 在过去一小时内所有的 CPU 指标、打印的错误日志以及它发起或接收的所有分布式调用。
查询网关：它暴露了兼容 PromQL 的查询接口（用于指标），以及扩展的查询语言用于日志和追踪的检索。这意味着现有的 Grafana 仪表盘（如果使用 PromQL）可以相对平滑地迁移过来。

3. mco-ui（可视化与控制台）一个现代化的 Web 控制台，提供了数据探索、仪表盘、告警管理和系统配置的功能。它不仅仅是 Grafana 的替代品，其深度集成了mco的数据关联能力。比如，在查看一个异常指标图表时，可以一键下钻查看对应时间点和资源标签下的详细日志和调用链。

4. mco-alertmanager（告警管理）一个独立的告警模块，负责接收来自mco-server的告警规则评估结果，进行分组、去重、静默，并通过多种渠道（如钉钉、企业微信、Slack、Webhook）发送通知。它借鉴了 Prometheus Alertmanager 的设计，但集成了更丰富的上下文信息，比如在告警信息中可以直接附带相关的错误日志片段。

2.3 与 Kubernetes 的深度集成

mco生来就是为了 Kubernetes。它的 Agent 可以通过 DaemonSet 自动部署到每个节点，并自动发现集群内的 Service、Pod、Deployment 等资源。这种自动发现机制意味着，当你部署一个新的微服务时，mco几乎可以立即开始监控它，无需手动修改配置。这种“零配置”监控体验，对于动态性极强的 K8s 环境至关重要。

此外，mco的很多概念与 Kubernetes 原生资源对齐。例如，其告警规则可以基于 K8s 标签选择器来定义监控目标，使得监控策略能够跟随应用部署的声明式配置一起管理，实现 GitOps。

3. 从零开始部署与配置实战

纸上得来终觉浅，绝知此事要躬行。下面我将以一个标准的 Kubernetes 集群（版本 1.24+）为例，带你一步步部署和配置mco，并分享其中关键的实操细节和避坑点。

3.1 前置条件与准备工作

在开始之前，确保你的环境满足以下条件：

一个可用的 Kubernetes 集群，并配置好kubectl命令行工具。
集群中需要有存储类（StorageClass），用于为mco-server提供持久化存储。如果没有，需要提前部署，例如使用local-path或nfs-client。
为mco组件规划独立的命名空间，例如monitoring。
（可选但推荐）准备一个 Ingress Controller（如 Nginx Ingress）和域名，以便外部访问mco-ui。

3.2 使用 Helm 进行一键部署

mco社区提供了官方的 Helm Chart，这是最推荐的部署方式，能极大简化管理。

# 1. 添加 mco 的 Helm 仓库 helm repo add mco-org https://mco-org.github.io/helm-charts helm repo update # 2. 创建命名空间 kubectl create namespace monitoring # 3. 准备自定义 values 配置文件 (mco-custom-values.yaml) # 这是最关键的一步，直接使用默认值很可能无法满足生产需求。

下面是一个需要重点关注的mco-custom-values.yaml配置示例：

# mco-custom-values.yaml global: storageClass: "fast-ssd" # 指定你的存储类名称 mco-agent: enabled: true daemonset: # 资源限制：根据节点负载调整，默认可能偏小 resources: limits: memory: 512Mi cpu: 500m requests: memory: 256Mi cpu: 200m config: # 采集配置：启用K8s自动发现 kubernetes: enabled: true # 日志采集：配置需要采集的容器日志路径和解析规则 logs: enabled: true inputs: - type: file paths: - /var/log/containers/*.log parsers: - type: cri # 使用CRI（容器运行时接口）日志格式解析器 # 降低采集频率以减轻负载，生产环境酌情调整 scrapeInterval: 60s mco-server: enabled: true replicaCount: 2 # 建议至少2个副本以实现高可用 persistence: enabled: true size: 200Gi # 根据数据保留周期预估存储大小 resources: limits: memory: 8Gi # Server是内存消耗大户，务必给足 cpu: 4 requests: memory: 4Gi cpu: 2 config: # 配置数据保留时间 retention: metrics: 30d # 指标保留30天 logs: 7d # 日志保留7天（日志量通常更大） traces: 3d # 追踪保留3天 mco-ui: enabled: true ingress: enabled: true hosts: - host: mco.yourcompany.com # 你的域名 paths: - path: / pathType: Prefix tls: [] # 如需HTTPS，在此配置TLS mco-alertmanager: enabled: true config: # 配置告警接收器，例如Webhook到钉钉/企业微信 receivers: - name: 'webhook-dingtalk' webhook_configs: - url: 'https://oapi.dingtalk.com/robot/send?access_token=YOUR_TOKEN' send_resolved: true

实操心得：在首次部署时，不要直接在生产环境使用这个配置。建议先在测试环境，使用较小的资源请求和存储空间进行部署，验证基本功能。特别是mco-server的内存需求，与你的数据摄取量和查询负载强相关，需要根据实际监控规模进行压测和调整。

# 4. 使用 Helm 安装 helm install mco mco-org/mco -n monitoring -f mco-custom-values.yaml # 5. 查看部署状态 kubectl get pods -n monitoring -w

等待所有 Pod 状态变为Running，部署即告完成。

3.3 核心配置详解：数据采集与标签管理

部署完成后，mco已经开始采集基础的节点和容器指标。但要让它真正发挥威力，我们需要理解并配置两个核心：采集目标和标签重写。

1. 自动发现与采集配置mco-agent通过kubernetes_sd_configs自动发现集群内的资源。默认配置已经能够发现 Nodes、Pods、Services、Endpoints 等。你可以在mco-agent的 ConfigMap 中看到这些配置。通常，我们不需要修改发现规则，但需要关注relabel_configs，它用于在采集前对目标进行过滤和打标签。

例如，如果你只想监控带有特定注解monitoring: “true”的 Pod，可以添加如下重写规则：

# 在 mco-agent 的 scrape config 中 scrape_configs: - job_name: 'kubernetes-pods' kubernetes_sd_configs: - role: pod relabel_configs: # 只采集含有 annotation `monitoring=true` 的 Pod - source_labels: [__meta_kubernetes_pod_annotation_monitoring] regex: "true" action: keep # 将 Pod 的标签 `app` 作为指标标签 - source_labels: [__meta_kubernetes_pod_label_app] target_label: app

2. 统一标签体系这是mco实现关联查询的基石。mco-agent会自动为所有数据附加一套标准标签，如cluster,namespace,pod,container,node。在mco-server的配置中，可以定义全局的标签重写规则，确保来自不同 Job、不同采集方式的数据，其相同语义的标签拥有相同的键名。

例如，确保所有数据的集群名称标签都叫cluster：

# 在 mco-server 配置中 global: external_labels: cluster: 'my-k8s-cluster-prod'

3.4 应用接入：如何让业务数据上报

对于你自己的业务应用，需要将数据上报给mco。主要有三种方式：

1. 指标上报

Prometheus SDK：如果你的应用已经使用了 Prometheus 的客户端库（如 Go 的prometheus/client_golang），那么无需任何修改。mco-agent会自动发现并抓取应用暴露的/metrics端点。
OpenTelemetry SDK：更推荐的方式。使用 OpenTelemetry SDK 来生成指标，并通过 OTLP（OpenTelemetry Protocol）协议，将指标推送到mco-agent暴露的 OTLP 接收端口（默认 4317）。这种方式更现代，且与追踪数据天然同源。

2. 日志上报

标准输出：最简单的方式。将应用日志打印到标准输出（stdout）和标准错误（stderr）。Kubernetes 的容器运行时会收集这些日志，mco-agent的日志采集器（配置了 CRI 解析器）会自动从节点上的日志文件抓取。确保你的日志是结构化的（如 JSON 格式），这样便于后续的解析和字段过滤。
直接推送：对于无法使用标准输出的场景，应用可以通过mco-agent提供的 HTTP 或 gRPC 接口，直接将结构化日志推送到指定的端点。

3. 分布式追踪上报

使用OpenTelemetry SDK或Jaeger SDK在代码中埋点。
配置 SDK，将生成的 Trace 数据发送到mco-agent的追踪接收端口（例如 Jaeger thrift compact 端口默认为 6831，OTLP gRPC 端口为 4317）。

注意事项：在微服务架构中，确保所有服务使用相同的、稳定的标签（如service.name,deployment.environment）来标记它们的遥测数据。这能保证在mco-ui中能够准确地进行服务维度的聚合和跨数据类型的关联。

4. 数据查询、可视化与告警实战

系统跑起来，数据收上来，接下来就是如何用了。mco提供了强大的查询能力和可视化界面。

4.1 统一查询体验

通过mco-ui的“探索”页面，你可以进行即席查询。

指标查询：支持完整的 PromQL。例如，查询生产环境order-service所有 Pod 近5分钟的每秒请求率：
```
sum(rate(http_requests_total{service="order-service", env="production"}[5m])) by (pod)
```
日志查询：使用类 Lucene 的查询语法。例如，查找包含“Timeout”错误，且来自namespace=payment的日志：
```
namespace:"payment" AND message:"*Timeout*" AND level:"ERROR"
```
查询结果会高亮显示，并且可以直接点击日志条目旁边的“关联追踪”按钮，查看产生这条日志的请求的完整调用链。
追踪查询：可以根据服务名、操作名、标签或特定的 Trace ID 进行搜索。点击一个 Trace，可以看到完整的火焰图，以及每个 Span 关联的日志和当时的关键指标（如该 Span 执行时所在 Pod 的 CPU 使用率）。

4.2 构建仪表盘

mco-ui内置了仪表盘功能。你可以像在 Grafana 中一样，添加各种图表（折线图、柱状图、表格等）。其数据源就是mco-server自身。

一个实操技巧：充分利用变量（Variables）。你可以创建基于 Kubernetes 标签的变量，如$namespace，其查询语句为label_values(k8s_namespace)。然后在面板的查询中，使用{namespace=~“$namespace”}这样的表达式。这样，你就能创建一个仪表盘，通过一个下拉菜单动态切换查看不同命名空间下的所有监控视图，实现“一盘多用”。

4.3 配置告警规则

告警规则在mco-server中定义，语法与 Prometheus 的告警规则高度相似。

# 示例：定义一个针对高错误率的告警规则 groups: - name: service-alerts rules: - alert: HighErrorRate expr: | sum(rate(http_requests_total{status_code=~"5.."}[5m])) by (service, namespace) / sum(rate(http_requests_total[5m])) by (service, namespace) > 0.05 # 错误率超过5% for: 2m # 持续2分钟 labels: severity: critical component: "{{ $labels.service }}" annotations: summary: "高错误率告警 - {{ $labels.service }}" description: | 服务 {{ $labels.service }} 在命名空间 {{ $labels.namespace }} 中的错误率超过5%，当前值为 {{ $value | humanizePercentage }}。 关联日志查询：`namespace:"{{ $labels.namespace }}" AND service:"{{ $labels.service }}" AND level:"ERROR"` # 关键：这里可以直接嵌入一个快速查看日志的链接 dashboard: "https://mco-ui/explore/logs?query=namespace:%22{{ $labels.namespace }}%22%20AND%20service:%22{{ $labels.service }}%22%20AND%20level:%22ERROR%22&start={{ $startsAt }}&end={{ $endsAt }}"

这个告警规则的精髓在于annotations部分。它不仅描述了问题，还直接提供了一个预置好查询条件的日志链接。当运维人员收到告警通知时，点击这个链接就能直达问题现场的相关错误日志，实现了从告警到排障的“一键直达”。

4.4 告警路由与通知

mco-alertmanager负责处理告警路由。你可以根据标签（如severity,namespace,team）将告警路由到不同的接收器（Receiver）。例如，将所有severity: critical的告警发送到值班电话（通过PagerDuty Webhook），而将severity: warning的告警发送到团队 Slack 频道。

配置静默（Silence）和抑制（Inhibition）规则也是生产环境必备的。例如，可以设置当整个集群的节点发生网络分区（一个大的alert: K8sNodeNotReady）时，抑制由此引发的所有应用级告警，避免告警风暴。

5. 生产环境运维与深度调优

将mco用于生产环境，除了基本的部署，更需要关注稳定性、性能和成本。

5.1 高可用与数据持久化

mco-server：务必部署至少2个副本，并确保它们使用同一个持久化存储卷（PVC）或共享存储（如 NFS、Ceph RBD）。mco-server的存储层自身处理数据副本和一致性。在 Helm 配置中，设置mco-server.replicaCount: 2或更多，并确保persistence.enabled: true。
mco-agent：作为 DaemonSet 部署，天然在每个节点上有一个实例，不存在单点问题。但要确保其配置（ConfigMap）能够动态加载，以便在修改采集规则后无需重启所有 Agent。
存储规划：这是最大的挑战。mco的数据量可能非常庞大，尤其是日志和追踪数据。你需要：
1. 估算容量：根据采集频率、数据点大小、标签数量、保留周期来估算。一个简单的公式：每日数据量 ≈ (指标数量 * 采集频率 * 24h) + (日志平均大小 * 日志条数/日) + (追踪Span数量 * 平均大小)。务必预留 30%-50% 的缓冲空间。
2. 选择存储类：对于时序数据，高 IOPS 的 SSD 存储能极大提升查询性能。可以考虑使用云厂商提供的 SSD 块存储或本地 SSD 盘。
3. 生命周期管理：合理配置retention策略。对于指标，业务关键的核心指标可以保留数月，而细粒度的详细指标可能只需保留几天。对于日志和追踪，考虑按日志级别或服务重要性设置不同的保留策略。

5.2 性能调优指南

Agent 侧调优：
- 控制采集频率：非关键指标可以降低scrape_interval到 120s 甚至 300s。
- 日志采样：对于 DEBUG/INFO 级别的海量日志，可以在mco-agent的日志采集配置中启用采样率，只采集一定比例的数据。
- 追踪采样：分布式追踪数据量巨大，必须采样。在mco-agent或应用 SDK 中配置采样策略（如每秒最多采集 N 条 Trace）。
- 资源限制：为mco-agentDaemonSet 设置合理的 CPU 和内存限制，防止其异常时拖垮节点。
Server 侧调优：
- 内存是王道：mco-server非常吃内存，尤其是进行复杂查询或高并发查询时。密切监控其内存使用量，并设置足够大的requests.memory和limits.memory。如果频繁发生 OOM，需要横向扩容（增加副本数）或纵向扩容（增加单个 Pod 的资源限制）。
- 索引优化：mco的查询速度依赖于标签索引。避免使用基数过高的标签（如user_id,request_id）作为常规查询维度。这些高基数标签会急剧膨胀索引大小，降低查询速度并占用大量内存。应将它们作为日志或追踪的字段（field），而非标签（label）。
- 查询优化：教育使用者编写高效的查询语句。避免使用label_values()这类可能扫描大量数据的函数作为仪表盘变量的默认查询。在 PromQL 中，尽量先使用高选择性的标签进行过滤。

5.3 监控 mco 自身

一个监控系统必须能够监控自己。mco暴露了丰富的自身指标，端点通常是mco-server:9090/metrics。你需要用另一套独立的监控系统（或者另一个mco实例）来监控它，形成“元监控”。关键指标包括：

mco_agent_scrapes_total：采集次数，失败率。
mco_server_ingested_samples_total：数据摄取速率。
mco_server_memory_usage_bytes：Server 内存使用量。
mco_server_query_duration_seconds：查询延迟。
up{job="mco-server"}：Server 实例是否存活。

为这些指标设置告警，例如当数据摄取速率异常下降或查询延迟过高时发出告警。

5.4 备份与灾难恢复

任何有状态服务都需要备份计划。

配置备份：使用 Git 管理你的 Helm values 文件、告警规则文件、仪表盘 JSON 定义。这是最核心的资产。
数据备份：mco的持久化数据存储在 PVC 中。你需要定期对 PVC 进行快照备份。具体方法取决于你的存储提供商（如 AWS EBS Snapshot, Azure Disk Snapshot, Velero 等）。
恢复演练：定期在测试环境演练恢复流程：从快照恢复 PVC，使用 Helm 和备份的配置重新部署mco，验证数据可查询。

6. 常见问题与故障排查实录

在实际使用中，你肯定会遇到各种问题。下面是我和团队踩过的一些坑以及解决方法。

6.1 数据采集类问题

问题1：mco-agent日志中大量出现 “connection refused” 或 “context deadline exceeded”。

可能原因：Agent 无法连接到目标的 metrics 端点，或者目标响应超慢。
排查步骤：
1. 登录到 Agent 所在节点，使用curl -v http://<pod-ip>:<port>/metrics手动测试目标端点是否可达、返回是否正常。
2. 检查目标 Pod 的readinessProbe和livenessProbe是否配置正确，确保应用在就绪后才开始提供服务。
3. 检查网络策略（NetworkPolicy）是否阻止了 Agent Pod 到目标 Pod 的通信。
4. 如果目标是应用自暴露的端点，检查应用是否正常启动，指标端口是否被正确监听。

问题2：日志或追踪数据没有出现在mco-ui中。

可能原因：采集配置错误、数据格式不匹配、或 Server 端写入失败。
排查步骤：
1. 检查mco-agentPod 的日志，看是否有关于日志/追踪输入的报错。
2. 确认mco-agent配置中对应 inputs 的enabled: true。
3. 对于日志，检查容器运行时日志格式。如果非标准 CRI 格式，需要自定义parsers。
4. 使用kubectl port-forward将mco-server的调试端口（如 9091）转发到本地，查看其/metrics端点中关于数据摄取的指标（如mco_server_ingested_samples_total）是否有增长。

6.2 查询与性能类问题

问题3：在mco-ui中执行查询非常慢，甚至超时。

可能原因：查询语句过于宽泛、涉及高基数标签、或 Server 负载过高。
排查步骤：
1. 优化查询：在 PromQL 中，始终先使用最具选择性的标签进行过滤。避免{__name__=~".*"}这样的全量查询。对于时间范围，不要一次性查询数周的数据，尝试缩短[time_range]。
2. 检查标签基数：通过count({__name__=~".*"}) by (label_name)这类查询，找出哪些标签的基数异常高，考虑将其从标签改为普通字段。
3. 检查资源：查看mco-serverPod 的 CPU 和内存使用率。如果持续高位，考虑扩容。
4. 查看慢查询日志：mco-server可能提供了慢查询日志，分析这些日志找到问题查询。

问题4：mco-serverPod 频繁重启，报错 “OOMKilled”。

可能原因：内存不足。可能是数据量增长过快、查询负载过重、或存在内存泄漏。
解决方案：
1. 立即增加 Pod 的内存limits。
2. 分析内存使用趋势。如果随着时间稳定增长，可能是数据保留时间太长或数据摄取量过大，需要调整retention或优化采集策略。
3. 检查是否有异常查询消耗了大量内存（如涉及全表扫描的查询）。

6.3 告警类问题

问题5：告警没有触发，或者触发后没有发送通知。

排查步骤：
1. 在mco-ui的“警报”页面，查看对应告警规则的状态。检查 “Last Evaluation” 时间是否更新，以及 “State” 是否为FIRING。
2. 如果状态是INACTIVE，检查告警规则表达式expr是否正确，阈值设置是否合理。
3. 如果状态是FIRING但没收到通知，检查mco-alertmanager的日志。常见原因是接收器配置错误（如 Webhook URL 不对）、网络不通，或者告警被静默（Silence）规则匹配了。
4. 验证 Alertmanager 配置：mco-alertmanager通常有/-/reload端点来热加载配置，但最稳妥的方式是检查其对应的 ConfigMap 是否正确，并重启 Pod。

经过一段时间的深度使用和调优，mco确实在很大程度上兑现了其“统一可观测性”的承诺。它最大的价值在于打破了指标、日志、追踪之间的数据孤岛，让问题排查从“四处翻找”变成了“顺藤摸瓜”。对于中小规模的 Kubernetes 集群和团队来说，它极大地简化了监控栈的复杂度。当然，它作为一个较新的项目，在极端性能调优、与某些特定生态工具的集成深度上，可能还不及 Prometheus + Loki + Jaeger 这样的“明星组合”成熟。但在“开箱即用”和“关联分析”这两个痛点上，它提供了一个非常吸引人的选择。我的建议是，如果你的团队正受困于多套监控系统的维护和切换成本，不妨拿出一个测试集群，亲自部署体验一下mco，感受一下这种一体化的数据关联能力是否能真正提升你们的运维效率。

查看全文

http://www.jsqmd.com/news/805913/