毕设:基于融合注意力机制的单目深度估计算法(纯小白钻研历程记录)-Day1 介绍基本情况
一.基本概念
融合注意力:注意力机制是让模型在处理信息时自动分配权重,对关键内容赋予更高关注度、忽略无关信息,通过计算查询(Q)、键(K)的相似度得到注意力权重,再对值(V)加权融合,实现高效聚焦重要信息、长距离关联,是 Transformer 与大模型的核心基础。而融合注意力机制则是叠加两层以上的权重赋能,设计一套流程,把两个注意力机制融合起来,采用串行的方法,先A,后B,进一步提升细节捕捉等能力。
单目深度估计:单目深度估计是指仅利用一张普通 RGB 图像,在没有双目视差、激光雷达等额外信息的情况下,通过深度学习或视觉算法预测图像中每个像素到相机的距离(深度值),从而恢复场景三维空间结构的技术。其中深度值就是图片的 “第三维信息”,没有它就是平面照片,有它就能知道远近、还原 3D、重建空间、编辑场景。
二.论文出发点及实际意义
融合注意力机制对单目深度估计的核心意义,就是让模型精准聚焦对深度最有用的局部细节、捕捉全局空间 / 几何依赖、消除单目固有的深度歧义,最终输出更清晰、更准、几何更一致的深度图。
单目深度天生缺绝对尺度、易混淆纹理相似但远近不同的区域、CNN 只能抓局部邻域、长距离关系(比如远处地平线、物体遮挡)建模弱;加入空间 / 通道 / 自注意力后,模型能自适应给每个像素 / 通道 / 区域分配权重,重点强化物体边界、纹理、遮挡处的深度特征,弱化纯色 / 无意义背景,同时建立像素间长距离关联、对齐多尺度深浅层特征、保持深度在边缘 / 平面 / 时序上的一致性,大幅减少深度模糊、跳变、几何失真,提升精度与鲁棒性。
