当前位置：首页 > news >正文

GeoRA：几何感知低秩适配器在RLVR微调中的实践

news 2026/4/30 16:47:06

1. 项目概述

在大型语言模型（LLM）的微调领域，参数高效微调（PEFT）技术因其显著降低计算成本的优势而备受关注。其中，低秩适配（LoRA）作为代表性方法，通过冻结预训练模型的大部分参数，仅更新低秩矩阵来减少计算开销。然而，当应用于强化学习与可验证奖励（RLVR）场景时，传统LoRA方法面临几何结构失配和优化不稳定的挑战。

RLVR作为一种新兴范式，通过确定性验证器（如数学或编码验证）替代传统奖励模型，激励模型产生可验证的推理行为。与监督微调（SFT）不同，RLVR本质上是一个约束优化过程，其更新模式更倾向于修改非主成分以保护主要特征。这种独特的优化动力学使得传统PEFT方法（如PiSSA和MiLoRA）直接应用时会出现谱崩溃和训练不稳定问题。

2. 核心问题分析

2.1 RLVR的独特优化特性

RLVR的优化过程表现出三个关键特征：

非各向同性更新子空间：RLVR更新倾向于发生在低幅度、与预训练特征正交的方向上，这与SFT主要修改主权重方向形成鲜明对比。这种特性源于RLVR通过奖励诱导的采样偏差放大潜在推理行为，而非直接注入新能力。
几何敏感性：RLVR对预训练表示几何与优化约束（如KL正则化）之间的交互极为敏感。过于激进的更新可能导致行为崩溃或通用能力退化，这种现象被称为"推理边界悖论"。
低秩结构：有效的RL更新往往集中在小型子网络上，表现出可压缩的低秩结构。这一发现为设计参数高效方法提供了理论基础。

2.2 现有方法的局限性

当前PEFT方法在RLVR场景下面临两大主要挑战：

几何失配问题：
- PiSSA强制在主成分上更新，直接违反RLVR偏好非主成分更新的特性
- MiLoRA虽然尝试初始化次要组件，但由于初始化幅度较弱，导致优化崩溃
计算效率瓶颈：
- 利用RL更新模式的稀疏微调方法因缺乏现代硬件对非结构化稀疏的支持，无法将理论稀疏性转化为实际加速
- 额外开销往往加剧而非缓解计算负担

3. GeoRA方法设计

3.1 几何感知低秩结构

GeoRA的核心创新在于构建了一个几何感知的低秩参数化方案。与传统LoRA随机初始化适配器不同，GeoRA从几何约束矩阵WGeo中提取结构化初始化：

奇异值分解：对WGeo进行SVD分解：
```
WGeo = UGeoΣGeoV^⊤
```
适配器初始化：提取前r个奇异分量初始化低秩适配器：
```
AGeo = Σ^{1/2}[:r,:r]V^⊤[:,:r] BGeo = U[:,:r]Σ^{1/2}[:r,:r]
```
残差矩阵计算：保持模型初始输出不变：
```
Wres = W - α/r BGeoAGeo
```

这种设计确保模型在初始化时功能保持不变，同时通过冻结Wres作为稳定性锚，防止预训练表示的侵蚀。

3.2 几何先验构建

GeoRA通过双掩码策略构建几何约束矩阵WGeo：

谱先验(MSpec)：选择rank-r近似Ŵr中幅度最小的ρ比例项：
```
(MSpec)i,j = I(|(Ŵr)i,j| ≤ τSpec(ρ))
```
欧几里得先验(MEuc)：选择原始权重中幅度最小的ρ比例权重：
```
(MEuc)i,j = I(|Wi,j| ≤ τEuc(ρ))
```
最终约束矩阵：通过掩码并集组合稳定子空间：
```
WGeo = W⊙(MSpec ∪ MEuc)
```

这种设计既保留了小参数的灵活性，又尊重了预训练模型的谱约束。

4. 实现细节与优化

4.1 训练配置

在Qwen3-8B和Llama-3.1-8B模型上的实验采用以下配置：

数据集：DeepMath-103K（数学推理）
优化算法：GRPO
固定秩：r=16
稀疏比：ρ=0.2
学习率：5e-5（激进条件测试）
批量大小：32

4.2 计算效率优化

GeoRA通过三个关键设计实现高效计算：

密集算子兼容性：完全避免非结构化稀疏计算，充分利用GPU的矩阵计算能力
内存优化：仅需存储低秩适配器(AGeo,BGeo)和冻结残差矩阵Wres
并行计算：将前向传播分解为可并行计算的两部分：
```
h = Wresx + (α/r)BGeoAGeox
```

实验表明，相比全参数微调，GeoRA减少99.5%可训练参数和28.5%的VRAM使用，同时提升训练速度19.9%。

5. 实验结果分析

5.1 数学推理性能

在DeepMath-103K微调后，GeoRA在多个数学基准测试中表现：

方法	AIME24	AIME25	MATH500	OlymMATH	平均
FullFT	23.33	22.08	78.40	11.25	33.77
SparseFT	22.92	21.25	76.80	11.50	33.12
LoRA	19.58	19.58	75.60	10.75	31.38
PiSSA	22.50	20.42	74.40	11.75	32.27
MiLoRA	20.42	19.58	76.20	11.50	31.93
GeoRA	23.75	21.67	78.00	12.75	34.04