当前位置：首页 > news >正文

VALSE 2026 Tutorial分享｜视觉基础模型：从单任务到通用模型

news 2026/8/1 19:36:19

2026年视觉与学习青年学者研讨会（VALSE 2026）于5月8日到10日在武汉国际会议中心举行。本公众号全方位地对会议的热点进行了总结，方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述，可能与报告人的原意有所不同，敬请读者理解；如报告人认为文章与自己报告的内容差别较大，可以联系公众号删除。

本文基于左旺孟教授的VALSE 2026年度进展评述报告《底层视觉基础模型：从单任务到通用模型》进行整理得到。本报告回顾了视觉底层模型的发展，详细介绍了底层视觉的研究背景、相关研究现状以及发展方向。

本推文的作者为黄忠祥，审核为龚裕涛与王一鸣。

一、报告人介绍

左旺孟，哈尔滨工业大学计算学部教授。主要从事底层视觉、视觉生成、视觉理解和多模态学习等方面的研究。在CVPR/ICCV/ECCV/NeurIPS/ICLR等顶级会议和IEEE T-PAMI、IJCV及IEEE Trans.等期刊上发表论文多篇。曾任ICCV、CVPR、ECCV等会议领域主席，现任IEEE TPAMI、TIP、中国科学信息科学等期刊编委。

报告的目录

二、底层视觉模型介绍

底层视觉模型与我们熟悉的基础视觉模型有所不同。它的核心区别在于，底层视觉不关注图像中是什么物体、包含什么语义，而只专注于画质修复、画质改造、像素级变换等任务，处理的是像素、纹理、清晰度、噪声、光影这类最基础的视觉信息。与之相对的是高层视觉，如猫/狗识别、人体检测、物体分割、图像分类和语义理解。

三、底层视觉任务分类

多种底层视觉任务示例

底层视觉的任务主要分为以下四大类。

(1)图像复原

包括图像去噪（去除照片中的颗粒噪点）、图像去模糊（消除因手抖或运动导致的模糊）、超分辨率（将小图放大为高清大图且不模糊）、去雾/去霾（让雾天灰蒙蒙的照片变通透）、去雨/去雪（去除画面中的雨滴、雪花）、去反光/倒影（消除玻璃反光、水面倒影）、图像划痕修复（修复老照片的破损与划痕）、压缩伪影去除（修复微信压缩、JPG等导致的模糊块）等。

(2)图像增强

包括低光图像增强（提亮暗光照片并降噪、还原细节）、亮度/对比度增强（自动调整灰暗画面，使其更加通透）、色彩校正/白平衡（纠正照片偏黄、偏蓝等色偏，还原真实色彩）、高光阴影修复（恢复过曝亮部与欠曝暗部的细节）、锐化增强（强化发虚画面的边缘与纹理）等。

(3)图像风格化与画质重塑

包括人像美颜、滤镜风格转换（写实转油画、动漫、二次元等）、纹理增强、皮肤质感优化、黑白照片上色（为老黑白照片自动赋予色彩）等。

(4)底层几何/物理特征估计

包括深度估计（从单张图推算每个像素到镜头的距离）、法线估计（估计物体表面的凹凸朝向）、边缘检测、纹理提取、显著性检测（标出画面中最吸引人的区域）。

四、从单任务走向通用模型的动因

在单任务范式下，每个任务都需单独设计模型和训练，去噪用DnCNN/Real-ESRGAN，超分用SRCNN/RCAN，去雾用AOD-Net，低光增强用Retinex系列，处理流程极为复杂。这种模式带来了四大痛点。

模型极度碎片化，每个任务都需要一套独立的网络结构和训练策略，研究者不得不做重复工作，工程上也要维护几十个模型；数据利用率极低，各任务的数据只能独立使用，跨任务无法共享，尤其对去反光、去雨滴等小众任务而言，数据匮乏导致效果不佳；泛化能力弱，只学习单一的退化类型，一旦换一种噪声或模糊模式就容易失效，在真实复杂场景下鲁棒性差；无法统一推理与部署，手机、端侧、云端需部署多套底层视觉模型，显存和计算资源占用极高。

正因为这些瓶颈，底层视觉的发展必须向一个模型处理所有底层视觉任务的方向发展，即构建底层视觉基础模型

五、底层视觉模型研究现状

当前底层视觉模型正从单任务例如CNN专用模型，快速转向多任务统一基础模型（主要是以Transformer为主），核心进展是提示驱动、大规模多任务训练、模型缩放，并开始融合语言交互与轻量化部署，但语义对齐、真实泛化、效率成本仍是核心瓶颈。近年来底层视觉模型的研究现状总结如下。

（1）传统单任务范式（2015–2020）

以CNN为主（U-Net/ResNet/RCAN等），采用单任务专用设计。典型应用包括去噪（DnCNN）、超分（SRCNN）、去雾（AOD-Net）、低光（RetinexNet）。其缺点是模型碎片化、数据不共享、泛化弱、部署成本高。

（2）多任务统一范式（2021–2024）

大体架构为共享骨干+任务分支/适配器，覆盖3–5类任务。典型代表是DASR、AirNet、ProRes、PromptIR等；可处理超分、去模糊、去噪等复原类任务，但主要局限于此，难以扩展至增强、风格化及特征提取。

（3）通用底层视觉范式（2024–至今）

采用核心框架VPIP (Visual Prompt Image Processing)将多样的底层视觉任务统一建模为图像到图像的翻译问题，通过提示对（源图+目标图）替代传统任务分支，使单一模型能够处理数十种（后续已扩展至上百种）底层任务，覆盖复原、增强、风格化与特征提取。

代表模型与技术路线分化主要有以下几种。VPIP路线，GenLV系列是直接基于VPIP框架训练出的通用模型实例。该系列以X‑Restormer（U‑Net+双轴注意力）为通用骨干，设有Base、Large、Huge等多规模版本，并已验证了模型越大、任务越多，性能越强的规模化规律；生成式先验路线，SUPIR利用预训练的文本到图像扩散模型（如Stable Diffusion）所蕴含的视觉知识，通过文本提示指导图像复原；HYPIR则在此基础上结合GAN实现单步前馈推理，大幅提升速度。