VALSE 2026 Tutorial分享|视觉基础模型:从单任务到通用模型
2026年视觉与学习青年学者研讨会(VALSE 2026)于5月8日到10日在武汉国际会议中心举行。本公众号全方位地对会议的热点进行了总结,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。
本文基于左旺孟教授的VALSE 2026年度进展评述报告《底层视觉基础模型:从单任务到通用模型》进行整理得到。本报告回顾了视觉底层模型的发展,详细介绍了底层视觉的研究背景、相关研究现状以及发展方向。
本推文的作者为黄忠祥,审核为龚裕涛与王一鸣。
一、报告人介绍
左旺孟,哈尔滨工业大学计算学部教授。主要从事底层视觉、视觉生成、视觉理解和多模态学习等方面的研究。在CVPR/ICCV/ECCV/NeurIPS/ICLR等顶级会议和IEEE T-PAMI、IJCV及IEEE Trans.等期刊上发表论文多篇。曾任ICCV、CVPR、ECCV等会议领域主席,现任IEEE TPAMI、TIP、中国科学信息科学等期刊编委。
报告的目录
二、底层视觉模型介绍
底层视觉模型与我们熟悉的基础视觉模型有所不同。它的核心区别在于,底层视觉不关注图像中是什么物体、包含什么语义,而只专注于画质修复、画质改造、像素级变换等任务,处理的是像素、纹理、清晰度、噪声、光影这类最基础的视觉信息。与之相对的是高层视觉,如猫/狗识别、人体检测、物体分割、图像分类和语义理解。
三、底层视觉任务分类
多种底层视觉任务示例
底层视觉的任务主要分为以下四大类。
(1)图像复原
包括图像去噪(去除照片中的颗粒噪点)、图像去模糊(消除因手抖或运动导致的模糊)、超分辨率(将小图放大为高清大图且不模糊)、去雾/去霾(让雾天灰蒙蒙的照片变通透)、去雨/去雪(去除画面中的雨滴、雪花)、去反光/倒影(消除玻璃反光、水面倒影)、图像划痕修复(修复老照片的破损与划痕)、压缩伪影去除(修复微信压缩、JPG等导致的模糊块)等。
(2)图像增强
包括低光图像增强(提亮暗光照片并降噪、还原细节)、亮度/对比度增强(自动调整灰暗画面,使其更加通透)、色彩校正/白平衡(纠正照片偏黄、偏蓝等色偏,还原真实色彩)、高光阴影修复(恢复过曝亮部与欠曝暗部的细节)、锐化增强(强化发虚画面的边缘与纹理)等。
(3)图像风格化与画质重塑
包括人像美颜、滤镜风格转换(写实转油画、动漫、二次元等)、纹理增强、皮肤质感优化、黑白照片上色(为老黑白照片自动赋予色彩)等。
(4)底层几何/物理特征估计
包括深度估计(从单张图推算每个像素到镜头的距离)、法线估计(估计物体表面的凹凸朝向)、边缘检测、纹理提取、显著性检测(标出画面中最吸引人的区域)。
四、从单任务走向通用模型的动因
在单任务范式下,每个任务都需单独设计模型和训练,去噪用DnCNN/Real-ESRGAN,超分用SRCNN/RCAN,去雾用AOD-Net,低光增强用Retinex系列,处理流程极为复杂。这种模式带来了四大痛点。
模型极度碎片化,每个任务都需要一套独立的网络结构和训练策略,研究者不得不做重复工作,工程上也要维护几十个模型;数据利用率极低,各任务的数据只能独立使用,跨任务无法共享,尤其对去反光、去雨滴等小众任务而言,数据匮乏导致效果不佳;泛化能力弱,只学习单一的退化类型,一旦换一种噪声或模糊模式就容易失效,在真实复杂场景下鲁棒性差;无法统一推理与部署,手机、端侧、云端需部署多套底层视觉模型,显存和计算资源占用极高。
正因为这些瓶颈,底层视觉的发展必须向一个模型处理所有底层视觉任务的方向发展,即构建底层视觉基础模型
五、底层视觉模型研究现状
当前底层视觉模型正从单任务例如CNN专用模型,快速转向多任务统一基础模型(主要是以Transformer为主),核心进展是提示驱动、大规模多任务训练、模型缩放,并开始融合语言交互与轻量化部署,但语义对齐、真实泛化、效率成本仍是核心瓶颈。近年来底层视觉模型的研究现状总结如下。
(1)传统单任务范式(2015–2020)
以CNN为主(U-Net/ResNet/RCAN等),采用单任务专用设计。典型应用包括去噪(DnCNN)、超分(SRCNN)、去雾(AOD-Net)、低光(RetinexNet)。其缺点是模型碎片化、数据不共享、泛化弱、部署成本高。
(2)多任务统一范式(2021–2024)
大体架构为共享骨干+任务分支/适配器,覆盖3–5类任务。典型代表是DASR、AirNet、ProRes、PromptIR等;可处理超分、去模糊、去噪等复原类任务,但主要局限于此,难以扩展至增强、风格化及特征提取。
(3)通用底层视觉范式(2024–至今)
采用核心框架VPIP (Visual Prompt Image Processing)将多样的底层视觉任务统一建模为图像到图像的翻译问题,通过提示对(源图+目标图)替代传统任务分支,使单一模型能够处理数十种(后续已扩展至上百种)底层任务,覆盖复原、增强、风格化与特征提取。
代表模型与技术路线分化主要有以下几种。VPIP路线,GenLV系列是直接基于VPIP框架训练出的通用模型实例。该系列以X‑Restormer(U‑Net+双轴注意力)为通用骨干,设有Base、Large、Huge等多规模版本,并已验证了模型越大、任务越多,性能越强的规模化规律;生成式先验路线,SUPIR利用预训练的文本到图像扩散模型(如Stable Diffusion)所蕴含的视觉知识,通过文本提示指导图像复原;HYPIR则在此基础上结合GAN实现单步前馈推理,大幅提升速度。
六、底层视觉模型未来展望
左旺孟教授指出,未来的底层视觉模型需要与其他模态深度协同。视觉作为人类和许多动物赖以生存的基础能力,不仅在多模态理解和具身智能中扮演着不可或缺的角色,其自身同样具备向基础模型发展的必要性和重要性。其中,与AI结合形成AI Agent,被视作最具发展潜力的方向之一。
