当前位置：首页 > news >正文

LLM代码验证新方法：基于内部计算结构的属性图分析

news 2026/6/16 15:10:18

1. 项目概述：从内部计算结构验证LLM生成代码的正确性

在当今软件开发领域，大型语言模型(LLM)已成为代码生成的重要工具。然而，如何有效验证这些AI生成代码的正确性一直是个棘手问题。传统方法主要依赖两种途径：一是通过执行单元测试进行验证，这种方法需要人工编写大量测试用例，成本高昂且难以覆盖所有边界情况；二是使用另一个LLM作为评判员，但这种方法受限于评判模型自身的能力，且存在递归依赖问题。

CodeCircuit项目提出了一种革命性的解决方案——通过分析LLM生成代码时的内部计算结构来验证其正确性。这种方法的核心洞见是：代码的正确性实际上编码在模型的神经动力学中，可以通过解码这些内部信号来进行验证，而无需依赖外部执行或评估。

关键创新点：将代码验证问题转化为对LLM内部计算结构的机制诊断，通过属性图(Attribution Graphs)技术揭示模型推理过程中的结构特征与代码正确性之间的关联。

2. 技术原理与架构设计

2.1 属性图(Attribution Graphs)基础

属性图是一种将Transformer模型的计算过程可视化为有向无环图的技术。图中节点代表模型内部的各种计算单元，边则表示信息流动的路径和强度。CodeCircuit通过以下步骤构建属性图：

局部替换模型：用每层转码器(Per-Layer Transcoders, PLT)替代标准的多层感知机(MLP)。PLT通过稀疏编码将残差流(residual stream)投影到可解释的特征空间：
```
# PLT的数学表示 f(l) = σ(W_enc(l)x(l) + b_enc(l)) # 编码器部分 m̂(l) = W_dec(l)f(l) + b_dec(l) # 解码器部分
```
误差节点引入：捕获PLT无法解释的计算部分：
```
e(l) = m(l) - m̂(l) # 真实MLP输出与PLT重建的差值
```
图构建与剪枝：基于节点对最终输出的贡献度进行剪枝，保留关键路径，形成稀疏、可解释的计算电路。

2.2 CodeCircuit的核心组件

CodeCircuit框架包含三个关键模块：

算法轨迹追踪模块：
- 将代码生成过程分解为离散的逻辑步骤(如代码行)
- 为每个步骤构建独立的属性图
- 通过转码器将高维神经激活映射到可解释基空间
结构特征提取模块：
- 计算图的拓扑特征(密度、连通分量数、聚类系数)
- 分析节点中心性(介数中心性、度中心性)
- 量化误差节点影响力与特征节点影响力的比率：
```
η = Σ|w_uv| (u∈V_err) / Σ|w_uv| (u∈V_feat)
```
诊断分类器：
- 使用梯度提升决策树(GBDT)模型
- 输入是提取的结构特征向量
- 输出是代码步骤正确性的概率预测

3. 实现细节与关键技术

3.1 行级属性图的构建

CodeCircuit的创新之处在于将代码验证问题分解到行级别。对于生成的每行代码，系统会：

记录模型生成该行时的完整激活轨迹
通过PLT将高维激活投影到可解释特征空间
构建该行代码对应的属性图Gi = (Vi, Ei)

关键技术挑战在于如何高效处理大规模属性图。CodeCircuit采用以下优化：

使用稀疏矩阵存储邻接关系
基于影响力的剪枝策略(阈值τ=0.8)
分批处理(Jacobian计算的mini-batch size=64)

3.2 结构特征工程

CodeCircuit提取的特征可分为三类：

全局图统计量：
- 节点/边数量
- 图密度ρ = |E|/(|V|(|V|-1))
- 连通分量数
拓扑特征：
- 平均聚类系数：
```
C = (1/|V|) Σ [2·|edges in N(v)|/(k_v(k_v-1))]
```
- 介数中心性分布(均值、标准差、最大值)
节点级特征：
- 激活值统计(均值、最大值、标准差)
- 层源分布(特征节点来自哪个Transformer层)
- 误差节点总影响力

3.3 诊断模型的训练

CodeCircuit使用GBDT模型进行诊断预测，其优势在于：

能处理异构的表格型特征数据
提供特征重要性解释
对类别不平衡具有鲁棒性

训练过程采用交叉熵损失：

L(φ) = -Σ[y_i log(ŷ_i) + (1-y_i)log(1-ŷ_i)]

4. 实验验证与结果分析

4.1 实验设置

CodeCircuit在Python、Java和C++三种语言上进行评估，使用MBPP数据集作为基准。关键实验配置：

基础模型：Gemma-2-2B-IT
对比基线：
- 黑箱方法：MaxProb、Temperature Scaling等
- 灰箱方法：Chain-of-Embedding变体
评估指标：AUROC、AUPR、FPR@95

4.2 主要实验结果

有效性验证(RQ1)：
- Python上AUROC达到79.89，显著优于最佳基线(51.42)
- 在所有语言上FPR@95均低于80，而基线方法普遍高于90
跨语言泛化(RQ2)：
- Python训练的探测器在Java上AUROC达62.15(比Java-specific基线高5.86%)
- 结构特征展现出跨语言一致性
复杂度扩展性(RQ3)：
- 随着代码行数增加(10→30行)，CodeCircuit的AUROC从80提升到92
- 基线方法性能保持平稳