当前位置：首页 > news >正文

深度强化学习在低光环境自动白平衡中的应用

news 2026/6/26 5:07:41

1. 项目背景与核心挑战

夜间低光环境下的自动白平衡（AWB）一直是计算机视觉领域的硬骨头。传统算法在光照不足时容易产生严重的色偏问题，导致图像出现不自然的黄色或蓝色色调。这个问题在监控安防、自动驾驶和移动摄影等场景中尤为突出——想象一下深夜行车时摄像头把路灯照成诡异的青绿色，或者手机拍出的夜景全是失真的橙红色块。

我们团队在开发智能监控系统时，发现市面上的白平衡算法在lux值低于50的环境下，色温估计误差普遍超过500K。这促使我们尝试将深度强化学习（DRL）引入这个传统领域。RL-AWB的核心创新在于构建了一个能够自主探索色温调整策略的智能体，它不需要依赖人工标注的"完美白平衡"样本，而是通过与环境交互来自主学习校正策略。

2. 技术架构设计解析

2.1 状态空间建模

不同于常规的端到端方案，我们将RAW图像分解为三个关键特征：

色温直方图：统计R/G、B/G通道比值分布
亮度梯度：计算5x5局部区域的亮度变化率
色彩一致性：通过CIE Lab空间的a-b分量离散度评估

这种设计使智能体能够感知到：

当前图像的整体色偏趋势（如偏蓝/偏黄）
光照条件的空间分布特性
可能存在的中性色参考区域

实际测试发现，加入亮度梯度特征后，在极端低光场景（<10lux）下的色温估计稳定性提升37%

2.2 动作空间设计

采用连续动作空间输出三个控制参数：

色温补偿值（2000-10000K）
色调补偿系数（-0.3~+0.3）
饱和度增益因子（0.8-1.2）

这种多维度的精细控制比传统的离散动作空间（如预设的几种色温模式）更适应复杂的光照混合场景。在停车场环境测试中，我们的方案成功处理了同时存在钠灯（2200K）和LED广告屏（6500K）的挑战场景。

2.3 奖励函数工程

设计了一个多目标奖励函数：

def reward_fn(corrected_image): # 色彩自然度 skin_score = calculate_skin_tone_prob(corrected_image) # 细节保留度 edge_ratio = sobel_edge_ratio(original, corrected) # 噪声抑制 noise_level = estimate_noise(corrected) return 0.6*skin_score + 0.3*edge_ratio - 0.1*noise_level

这个函数引导智能体在三个关键维度上取得平衡：

人眼感知的自然色彩（特别是肤色还原）
图像细节的保留程度
避免过度放大噪声

3. 训练策略与优化技巧

3.1 分层训练方案

我们采用三阶段训练策略：

基础训练：使用MIT-Adobe FiveK数据集，模拟各种光照条件
对抗训练：引入生成对抗样本，如极端色偏（±1500K偏移）
领域适应：在目标设备（如特定型号监控摄像头）上微调

这种方案使模型在保持泛化能力的同时，也能适配特定硬件特性。在某安防摄像头上的测试显示，经过领域适应后，主观评分提升28%。

3.2 关键超参数配置

参数	值	作用说明
折扣因子γ	0.95	平衡即时与长期收益
探索率ε初始值	0.3	控制探索-利用权衡
经验回放容量	50,000	打破样本相关性
目标网络更新频率	每100步	稳定训练过程