063篇:日志分析:从日志中定位问题
1. 前言
当监控系统发出“机器人执行失败”告警时,第一件事就是查看日志。日志是故障排查的“黑匣子”,记录了脚本运行的每一个步骤。
然而,如果日志杂乱无序,几千行中找一行错误信息如同大海捞针。本文将从如何记日志到如何分析日志,系统讲解日志分析与问题定位的方法。
2. 记录有价值的日志
2.1 结构化日志
推荐使用结构化格式,便于机器解析:
[2026-04-23 10:30:15.123] [INFO] [订单处理] 开始处理订单 order_id=12345 [2026-04-23 10:30:16.456] [ERROR] [订单处理] 调用支付接口失败 error=timeout要素:时间戳、级别、模块、关键变量值、错误信息。
2.2 关键步骤必须记录
- 流程开始/结束
- 外部调用(API、数据库)的开始与结果
- 异常捕获(Catch块中记录完整错误堆栈)
- 重要变量值的变化(如订单号、金额)
2.3 避免记录冗余信息
- 循环中不要每行都记日志(可每100行记一次进度)
- 不要记录敏感信息(如密码、身份证号),可打码
