当前位置：首页 > news >正文

16.正则表达式入门：从日志里找到你要的东西

news 2026/6/26 18:59:34

一、问题背景：100万行日志，找到那行"ERROR"要多久？

FAB每台设备每天产生海量日志，格式如下：

2026-01-15 08:23:45 [INFO] Lot FAB-ETCH-001 started

2026-01-15 08:25:12 [WARN] Pressure spike detected: 52.3 mTorr

2026-01-15 08:30:00 [ERROR] Temperature exceeded 85.5°C limit

2026-01-15 08:35:22 [INFO] Lot FAB-ETCH-001 completed

**工艺工程师要从中找出所有异常事件**。之前怎么做？

- 用Notepad++打开，Ctrl+F搜"ERROR"

- 找到后复制出来，手动统计

- 然后在Excel里做透视表看趋势

**问题**：一天100万行，只说"找到ERROR"不难，但要**把日志里的时间、设备、参数都提取出来做成表格**，手动做2-3小时起步。

用正则（Regular Expression，简称regex）的话：**3秒出活**。

**学完这一篇，你能做到：**

1. 用正则从文本中提取关键信息（时间、编号、数值）

2. 把日志里的数据自动整理成结构化表格

3. 写完一次，以后相同格式的日志直接复用

────────────────────────────────────────

二、技术原理：先搞懂6个符号

很多人觉得正则难，是因为一开始背了50个符号。**其实FAB场景下经常用到的就6个**。

2.1 最常用的6个元字符

| 符号 | 匹配什么 | FAB举例 |

|------|---------|---------|

| `\d` | 数字 (0-9) | `\d{4}` 匹配年份 2026 |

| `\w` | 字母数字下划线 | `\w+` 匹配 FAB_ETCH |

| `.` | 任意字符（换行符除外） | `.*` 匹配整行内容 |

| `*` | 出现0次或多次 | `\d*` 匹配 "数字不出现或出现多次" |

| `+` | 出现1次或多次 | `\d+` 匹配"至少一个数字" |

| `()` | 分组（提取你需要的部分） | `FAB-(\w+)` 只提取ETCH部分 |

2.2 看代码理解

import re

# 最基础的用法：re.search(模式, 文本)

# 在文本中找到第一个匹配

text = "Lot FAB-ETCH-001 started"

# 找数字

result = re.search(r'\d+', text)

print(result.group()) # 001

# 找FAB后面的工艺名

result = re.search(r'FAB-(\w+)', text)

print(result.group(1)) # ETCH（只输出分组中的内容）

# 找Lot ID整体

result = re.search(r'(FAB-\w+-\d+)', text)

print(result.group(1)) # FAB-ETCH-001

**r'' 前面的 r 什么意思？** "raw string"——告诉Python字符串里的 `\d` 是正则表达式符号，不是转义字符。不加 `r` 的话，`\d` 会被Python解释成"删除字符"。写正则时**永远加 `r`**。

2.3 三个最重要的函数

Python的 `re` 模块中，新手只需要记住这3个：

text = "ERROR: Temperature=85.5°C, Pressure=52.3mTorr"

# 1. search() — 找第一个匹配

m = re.search(r'\d+\.?\d*', text) # 找数字（含小数点）

print(m.group()) # 85.5

# 2. findall() — 找所有匹配，返回列表

all_nums = re.findall(r'\d+\.?\d*', text)

print(all_nums) # ['85.5', '52.3']

# 3. finditer() — 找所有匹配，返回迭代器（可遍历）

for m in re.finditer(r'(\w+)=(\d+\.?\d*)', text):

print(f"参数: {m.group(1)}, 值: {m.group(2)}")

# 输出: 参数: Temperature, 值: 85.5

# 参数: Pressure, 值: 52.3

**为什么这样写？** `\d+\.?\d*` 的意思是：至少一个数字，然后可能有小数点，小数点后可能还有数字。这个pattern能匹配85.5也能匹配120，是提取数值最通用的写法。

────────────────────────────────────────

三、实战案例：一步步写日志解析

3.1 第一版：提取基本信息

import re

log = "2026-01-15 08:30:00 [ERROR] Temperature exceeded 85.5°C limit"

# 解析：时间 + 级别 + 消息

pattern = r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}) \[(\w+)\] (.+)'

m = re.search(pattern, log)

if m:

time = m.group(1) # 2026-01-15 08:30:00

level = m.group(2) # ERROR

msg = m.group(3) # Temperature exceeded 85.5°C limit

print(f"{time} | {level} | {msg}")

**正则解析**：`(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2})` 匹配"年-月-日时:分:秒"并用括号分组。`\[(\w+)\]` 匹配方括号里的级别名。`(.+)` 匹配剩下的消息文本。

3.2 第二版：批量处理

# 模拟真实的日志数据

logs = """2026-01-15 08:23:45 [INFO] Lot FAB-ETCH-001 started on chamber_3

2026-01-15 08:25:12 [WARN] Pressure spike detected: 52.3 mTorr

2026-01-15 08:30:00 [ERROR] Temperature exceeded 85.5°C limit

2026-01-15 08:35:22 [INFO] Lot FAB-ETCH-001 completed

2026-01-15 09:15:30 [ERROR] Alignment failed: 28.0 nm offset"""

pattern = r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}) \[(\w+)\] (.+)'

results = []

for line in logs.strip().split('\n'):

m = re.search(pattern, line)

if m:

results.append({

'time': m.group(1),

'level': m.group(2),

'message': m.group(3)

})

# 统计日志级别

levels = {}

for r in results:

lv = r['level']

levels[lv] = levels.get(lv, 0) + 1

# 找出ERROR日志

errors = [r for r in results if r['level'] == 'ERROR']

print(f"共 {len(results)} 条日志")

print(f"级别分布: {levels}")

print(f"错误日志: {len(errors)} 条")

for e in errors:

print(f" ⚠ {e['time']} - {e['message'][:40]}")

3.3 第三版：提取数值参数

# 从日志中提取所有"参数=数值"对

line = "Temperature=85.5°C, Pressure=52.3mTorr, Time=120s"

# 提取全部参数名和值

pairs = re.findall(r'(\w+)=(\d+\.?\d*)', line)

for name, val in pairs:

print(f"{name}: {val}")

# 输出：

# Temperature: 85.5

# Pressure: 52.3

# Time: 120

# 提取带单位的数值

values = re.findall(r'(\d+\.?\d*)(°C|mTorr|s|nm)', line)

for val, unit in values:

print(f"值={val}, 单位={unit}")

# 输出：

# 值=85.5, 单位=°C

# 值=52.3, 单位=mTorr

# 值=120, 单位=s

**为什么这样写？** `findall` 返回的是所有匹配结果的列表，每个结果是一个元组 `(分组1, 分组2)`。利用这个特性，一步就能把"参数名和值"成对提取出来，不用写循环以外的复杂逻辑。

3.4 封装成函数

def parse_log_to_table(text):

"""

把原始日志解析成结构化数据

参数:

text: 多行日志文本

list[dict]: 每行日志的解析结果

"""

pattern = r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}) \[(\w+)\] (.+)'

rows = []

for line in text.strip().split('\n'):

m = re.search(pattern, line)

if not m:

continue

rows.append({

'timestamp': m.group(1),

'level': m.group(2),

'message': m.group(3),

# 顺便提取消息中的数值

'numbers': re.findall(r'\d+\.?\d*', m.group(3))

})

return rows

# 使用

parsed = parse_log_to_table(logs)

print(f"解析出 {len(parsed)} 行日志")

────────────────────────────────────────

四、效果对比

|---------|--------------------------|---------|------|

| 提取100条日志的时间 | 30分钟（人工复制粘贴） | 0.5秒 | **+3600倍** |

────────────────────────────────────────

五、自己动手

# 练习题：解析设备运行日志

import re

# 一段真实FAB设备日志

device_log = """2026-01-20 14:00:00 [INFO] CVD-03 warmup started

2026-01-20 14:05:30 [INFO] CVD-03 temperature=350.0°C pressure=2.5Torr

2026-01-20 14:10:15 [INFO] Wafer FAB-CVD-024-W12 loaded to chamber_A

2026-01-20 14:15:00 [INFO] Process step1=deposition completed in 120s

2026-01-20 14:15:30 [WARN] Thickness=1252.3Å spec=1250±5Å

2026-01-20 14:20:00 [ERROR] CVD-03 pressure out of range: 3.8Torr

2026-01-20 14:25:00 [INFO] Process aborted, 24 wafers affected"""

# 练习1：找出所有ERROR和WARN行（用findall）

# 练习2：提取每次运行的时间点和温度值

# 练习3：统计每台设备(CVD-03)发生了多少次事件

# ✏️ 下面写你的代码

**思考题**：

1. 正则匹配的"贪婪"和"非贪婪"是什么意思？试试 `.*` 和 `.*?` 的区别

2. 如果日志中有繁体中文，正则还能匹配吗？试试 `[\u4e00-\u9fff]` 匹配中文

3. 如果日志格式变了（比如时间戳变成秒级时间戳），你的pattern要改哪里？

────────────────────────────────────────

六、常见误区

新手最容易踩的坑

| 错误写法 | 问题 | 正确写法 |

|---------|------|---------|

| `\d{2}-\d{2}-\d{4}` | 日期格式不对 | `\d{4}-\d{2}-\d{2}` |

| `[INFO]` | 方括号在正则里是特殊字符 | `\[INFO\]` |

| `.*` | 贪婪匹配，可能匹配太多 | `.*?` 非贪婪 |

| `\d+.?\d*` | 点号会匹配任意字符 | `\d+\.?\d*` 加反斜杠转义 |

| 不用r字符串 | `\d`被解释成ASCII转义 | 加 `r` 前缀 |

**调试技巧**：用 [regex101.com](https://regex101.com) 在线测试正则表达式。左边写pattern右边写测试文本，实时高亮匹配结果，比手动猜快10倍。

────────────────────────────────────────

> �� **你们FAB的设备日志是什么格式？有没有什么特别的pattern需要匹配？评论区聊聊**

> �� **收藏+点赞，下一篇讲Excel报表自动化用得上** ��

查看全文

http://www.jsqmd.com/news/1083094/

终极免费桌面伴侣指南：Mate Engine打造你的二次元虚拟伙伴

Beyond Compare 5 激活指南：3分钟搞定许可生成与注册

日式极简服饰复购率分析程序，对比简约无Logo服饰与印花潮款长期留存数据。

Snowflake Cortex AI：SQL原生RAG与无服务器向量检索实战

三维空间平铺软化算法：从刚性网格到光滑曲面的生成式设计实践

医疗系统国密算法改造实战：90天合规迁移指南

ESP8266复刻SD小电视：从硬件设计到嵌入式开发实践

餐饮老板血泪教训：点餐系统选错，三年白干！2026避坑指南来了

拼多多商品监控系统：如何用Scrapy爬虫获取电商数据洞察

编码效率拉满！Orca 窗口实现多个 AI Agent 并行协作写代码

3分钟搞定：抖音无水印下载器，让精彩内容真正属于你

终极文档下载神器：30+平台一键免费保存，告别付费墙限制

构建完善智算服务体系，移动云为千行百业数智化深度赋能！

BetterNCM安装器：3分钟彻底改造你的网易云音乐体验

SAI拆分APK安装器：终极Android应用安装解决方案

道义逻辑悖论解析：从义务爆炸到Carmo-Jones分类模型

AI 时代，印度恐成最大输家？

来看看我用Codex两周时间vibe coding的这款轻量级的剪贴板管理应用，win/mac系统均可用

BetterNCM Installer：Rust技术栈下的网易云插件管理架构深度解析

科创天骄团队招新：硬件设计与竞赛项目孵化指南

Swift图像背景移除终极指南：如何在iOS应用中快速实现智能抠图

TQVaultAE：泰坦之旅周年版的终极物品管理解决方案

SMUDebugTool深度剖析：逆向工程视角下的AMD Ryzen处理器底层调试技术

终极免费窗口强制调整工具：如何解决Windows顽固窗口尺寸问题

广凌智慧教室建设方案：全场景智慧服务，打造现代化课堂新体验

JVS-Rules规则引擎系列篇（三）：用JVS-Rules创建第一个可执行决策流

解锁AI翻唱魔法：用AICoverGen打造专属音乐作品

5 个自学网安宝藏网站，全是硬核干货

全栈开发必备！一站式编程工具聚合页，告别到处搜在线工具

3D打印展|2027上海3D打印、增材制造展览会【官方网站】

一、问题背景：100万行日志，找到那行"ERROR"要多久？

二、技术原理：先搞懂6个符号

2.1 最常用的6个元字符

2.2 看代码理解

2.3 三个最重要的函数

三、实战案例：一步步写日志解析

3.1 第一版：提取基本信息

3.2 第二版：批量处理

3.3 第三版：提取数值参数

3.4 封装成函数

四、效果对比

五、自己动手

六、常见误区

新手最容易踩的坑

相关文章：