当前位置：首页 > news >正文

CLeVeR：用多模态对比学习把“漏洞语义”从代码里挖出来

news 2026/6/25 14:05:24

“现有自动化漏洞检测模型往往学习的是「整体功函数语义」，这会带入与漏洞无关的噪声，影响检测效果。CLeVeR提出用对比学习（contrastive learning）在代码与漏洞描述之间建立语义对齐，并通过Adapter、Representation Refinement与 Description Simulator三个模块解决模态差异、语义不平衡与训练/推理阶段输入不一致的问题，从而生成更“聚焦漏洞”的代码表示。”

论文：CLeVeR: Multi-modal Contrastive Learning for Vulnerability Code Representation
作者：Jiayuan Li, Lei Cui*,等
单位：中国科学院信息工程研究所、北京邮电大学等
会议信息：Findings of ACL 2025（ACL 2025）
开源代码：https://github.com/yoimiya-nlp/CLeVeR

01 —

方法介绍

CLeVeR的设计策略分为两阶段：预训练（pre-training）与微调/下游（fine-tuning / downstream）。预训练阶段，模型使用 CodeBERT/CPG 提取代码表示，使用 RoBERTa 提取漏洞描述表示；随后通过 Adapter 将两模态投射到公共空间，再用 Cross-attention（Representation Refinement）生成对漏洞敏感的「脆弱性代码表示（vulnerability code representation）」。对齐目标由 InfoNCE（对比损失）驱动。

为了解决测试时没有描述这一问题，作者提出 Description Simulator：在预训练中学习从代码直接预测“被 refine 后”的表示，使模型在推理时仍能生成高质量的漏洞表示。

CLeVeR 模型整体架构示意

小结：CLeVeR 通过“描述——代码”的语义对齐，把漏洞描述中的判别特征映射到代码表示，得到更具辨识度的漏洞向量。

02 —

关键机制

机制	实现要点	核心作用
Adapter	对 code（CodeBERT+CPG）与 description（RoBERTa）各自输出做轻量投射，使两模态落到同一维度/空间。	缓解模态语义差异，便于后续对齐。
Representation Refinement	以描述向量作为 Query，对 code 表示做 cross-attention，提取与漏洞描述相关的 code 子表示。	从整体代码语义中抽取“漏洞相关”部分，提升判别能力。
Description Simulator	预训练阶段学习从原始 code 表示预测 refined 表示；在微调/测试时用以代替真实描述。	解决训练/推理阶段描述缺失的不一致问题，使模型可在仅有代码时推理。
Contrastive Loss (InfoNCE)	在批内将正确的（code, description）对作为正样本，其它对作为负样本，优化相似性。	将描述语义的判别信息注入 code 表示空间，提升检出/分类效果。

小结：三类模块协同：Adapter对齐空间，Refinement抽取漏洞语义，Simulator保证无描述时仍能生成高质量表示，最终由对比学习把描述信息注入表示空间。

03 —

实验结果

作者构建了 VCLData（基于 SARD）用于预训练：共280,034个 C/C++ 函数（覆盖 146 个 CWE），并按 80%/20% 分为预训练/微调集合。为全面评估，作者在三类数据上测试下游检测性能：VCLData-ft（微调集）、SynData（半合成基准）、RealData（FFmpeg+Qemu 合并真实集）。

检测任务对比结果如下，数值为平均值：

方法	VCLData-ft (A / P / R / F1)
	A	P	R	F1
CLeVeR	96.53	92.92	98.41	95.58
CasualVul	90.67	90.30	84.67	87.39
UnixCoder	89.30	87.95	83.43	85.63
CodeT5	88.25	86.04	82.68	84.32
	SynData (A / P / R / F1)
CLeVeR	98.19	96.14	100.00	98.03
CasualVul	93.11	91.59	93.08	92.33
UnixCoder	91.81	92.71	88.55	90.58
CodeT5	88.71	90.37	83.52	86.81
	RealData (A / P / R / F1)
CLeVeR	79.13	86.25	63.01	72.82
CasualVul	72.78	66.15	56.54	60.97
UnixCoder	71.09	64.41	51.67	57.34
CodeT5	69.78	61.40	52.84	56.80

小结：CLeVeR 在三类数据集上均取得显著提升：在 VCLData-ft 与 SynData 上 F1 分别达 95.58% 与 98.03%，在 RealData（真实工程代码）上也达到 72.82%，相比主流方法实现了明显增益；同时作者报告了在零样本/零-shot 场景下也具备较好迁移能力。

📌 总结
CLeVeR用“描述监督+对比学习”的方法，直接把漏洞描述的判别性特征注入代码表示，解决了“整体语义掩盖漏洞语义”的问题。Adapter、Refinement、Simulator 三模块共同解决了跨模态对齐、语义不平衡与训练/推理不一致的问题，使得模型在检测、分类与0-shot任务上均表现出色，为基于语义的漏洞表示学习提供了新范式。