当前位置：首页 > news >正文

SecGPT-14B模型微调记录：适配OpenClaw的工控安全场景

news 2026/4/9 21:44:41

SecGPT-14B模型微调记录：适配OpenClaw的工控安全场景

1. 项目背景与动机

去年在为一个电力系统客户做自动化巡检方案时，我首次接触到工业控制系统的脆弱性。当时客户反映他们的PLC设备经常出现配置错误，但传统规则引擎无法覆盖所有异常模式。这让我开始思考：能否用大语言模型来理解工业协议特有的数据结构？

SecGPT-14B作为专注网络安全领域的模型，其预训练数据已包含部分工控协议知识。但要让它在OpenClaw框架下准确执行PLC配置检查任务，还需要针对Modbus/TCP等协议进行定向增强。这就是本次微调实验的出发点。

2. 数据准备阶段

2.1 原始数据收集

我从三个渠道获取初始训练数据：

公开的工控流量数据集（如ICS-PCAPs）
实验室模拟的Modbus/TCP通信日志
真实PLC设备的配置备份文件

关键挑战在于数据格式的统一。工业协议报文通常包含：

功能码（如03读保持寄存器）
地址范围（如40001-40005）
数据值的特殊编码（如IEEE754浮点）

# 示例：解析Modbus/TCP报文中的关键字段 def parse_modbus(packet): transaction_id = packet[0:2] protocol_id = packet[2:4] length = packet[4:6] unit_id = packet[6] function_code = packet[7] # 后续根据功能码解析数据区...

2.2 数据标注规范

为确保模型理解工业场景的特殊语义，我设计了分层标注方案：

协议层标注：标记报文中的功能码、地址等结构化字段
语义层标注：说明寄存器地址对应的实际含义（如"温度传感器1"）
异常检测标注：标注典型配置错误模式（如地址越界、非法功能码组合）

标注过程中发现，工业设备厂商的私有协议扩展是最难处理的部分。为此我建立了厂商白名单机制，对未知厂商协议给出保守判断。

3. 模型微调实施

3.1 训练集设计策略

采用"协议知识+任务演示"的混合数据格式：

{ "instruction": "检查以下Modbus配置是否存在风险", "input": "功能码:06, 地址:40500, 值:0x3F800000", "output": "危险 - 该地址对应急停按钮状态，不应通过写单寄存器修改" }

特别增加了以下数据增强：

寄存器地址随机偏移（模拟配置错误）
功能码合法组合的负样本（如读+写混合操作）
字节序混淆案例（大端/小端转换问题）

3.2 微调参数配置

使用vllm部署的SecGPT-14B镜像，关键参数如下：

deepspeed --num_gpus=2 finetune.py \ --model_name_or_path SecGPT-14B \ --train_file modbus_train.jsonl \ --output_dir ./checkpoints \ --per_device_train_batch_size 4 \ --learning_rate 2e-5 \ --num_train_epochs 3 \ --bf16 True \ --logging_steps 50 \ --save_steps 1000

在训练过程中观察到，模型对数值范围的敏感性提升最快，但对协议状态机的理解需要更多序列样本。

4. OpenClaw集成验证

4.1 技能模块开发

为OpenClaw创建plc-audit技能包，主要功能包括：

解析PLC配置文件（.xml/.cfg）
提取Modbus通信参数
调用微调后的SecGPT进行风险分析

配置文件示例：

<PLCConfig> <Modbus> <SlaveID>1</SlaveID> <Register address="40001" type="float" desc="锅炉温度"/> <Function code="03" interval="5s"/> </Modbus> </PLCConfig>