当前位置：首页 > news >正文

别再只盯着告警了：从Pikachu靶场搭建看SRE可观测性的实战落地（含日志与调用链配置）

news 2026/6/27 14:43:09

从Pikachu靶场搭建看SRE可观测性的实战落地

当我们在本地搭建一个Web漏洞练习平台时，往往只关注漏洞利用本身，却忽略了服务运行时的状态感知。最近在配置Pikachu靶场时，我尝试将SRE的可观测性理念应用到这个微型PHP服务中，意外发现即使是这样简单的单体架构，合理的监控配置也能极大提升调试效率。本文将分享如何用最简方案为靶场服务构建完整的可观测性体系。

1. 靶场环境的基础监控配置

Pikachu靶场典型的LAMP架构（Linux+Apache+MySQL+PHP）虽然简单，但每个组件都有值得关注的运行指标。我们先从基础资源监控开始：

系统级指标采集方案：

# 使用node_exporter采集主机指标 wget https://github.com/prometheus/node_exporter/releases/download/v1.3.1/node_exporter-1.3.1.linux-amd64.tar.gz tar xvfz node_exporter-*.tar.gz cd node_exporter-*/ ./node_exporter &

对于Apache服务，启用mod_status模块后可以获取关键性能数据：

# /etc/apache2/mods-available/status.conf <Location "/server-status"> SetHandler server-status Require local ExtendedStatus On </Location>

MySQL监控则需要配置基础账户权限：

CREATE USER 'exporter'@'localhost' IDENTIFIED BY 'password' WITH MAX_USER_CONNECTIONS 3; GRANT PROCESS, REPLICATION CLIENT, SELECT ON *.* TO 'exporter'@'localhost';

注意：生产环境需要更严格的权限控制，此处仅作演示用途

将这些指标统一接入Prometheus后，我们就能在Grafana中看到这样的关键仪表盘：

指标类型	采集频率	告警阈值建议
CPU使用率	15s	>80%持续5分钟
内存占用	15s	>90%
Apache工作线程	30s	空闲线程<5
MySQL连接数	30s	活跃连接>最大连接80%

2. 应用日志的智能化处理

单纯的Nginx访问日志价值有限，我们需要通过日志管道提取结构化数据：

# 使用Grok解析Nginx日志格式 filter { grok { match => { "message" => "%{COMBINEDAPACHELOG}" } } date { match => [ "timestamp", "dd/MMM/yyyy:HH:mm:ss Z" ] } }

对于PHP错误日志，建议增加上下文关联：

# 修改php.ini配置 log_errors = On error_log = /var/log/php_errors.log log_error_hierarchy = 1

通过Elasticsearch的异常检测功能，可以自动发现以下类型的异常模式：

突发流量模式：短时间内相同URI的大量请求
攻击特征序列：连续出现的SQL注入尝试日志
错误聚集：同一源IP触发的重复错误

3. 简易调用链的实现方案

在单体架构中实现调用链追踪，可以使用轻量级的OpenTelemetry方案：

// 在PHP入口文件添加追踪代码 require_once 'vendor/autoload.php'; $tracerProvider = new OpenTelemetry\SDK\Trace\TracerProvider( new OpenTelemetry\SDK\Trace\SpanExporter\ConsoleSpanExporter() ); $tracer = $tracerProvider->getTracer('pikachu-tracer');

关键调用关系可以通过如下方式可视化：

请求 -> [Apache处理] -> [PHP执行] -> [MySQL查询] | | v v [静态资源响应] [业务逻辑处理]

提示：在开发环境可以使用Jaeger的all-in-one镜像快速搭建追踪系统：docker run -d --name jaeger -p 16686:16686 jaegertracing/all-in-one

4. 可观测性数据的实战应用

有了这些数据后，我们可以实现传统靶场环境中难以做到的几种场景：

漏洞训练效果分析：

-- 统计各漏洞类型的触发频率 SELECT SUBSTRING(uri, 9) AS vuln_type, COUNT(*) AS attempts, AVG(response_time) AS avg_time FROM nginx_logs WHERE uri LIKE '/vuln/%' GROUP BY vuln_type;

异常行为检测规则示例：

# Sigma规则示例 detection: selection: c-uri: - '/vuln/sqli/*' - '/vuln/xss/*' status: '500' timeframe: 5m condition: selection | count() > 10

典型问题排查流程：

收到MySQL连接数告警
检查关联的PHP进程状态
分析对应时间点的请求日志
定位到特定漏洞页面的低效查询
优化SQL语句或添加缓存

5. 可观测性体系的演进路径

当靶场服务从单机发展为分布式架构时，监控体系可以按以下阶段演进：

阶段	架构特征	监控重点	工具建议
单体	单进程	系统资源、服务状态	Prometheus+ELK
集群	多实例负载均衡	流量分布、服务发现	Consul+OpenTelemetry
微服务	功能拆分	跨服务调用、事务追踪	Jaeger+Kafka
云原生	容器化动态调度	弹性指标、成本效率	eBPF+OpenCost