当前位置：首页 > news >正文

毕设：基于融合注意力机制的单目深度估计算法（纯小白钻研历程记录）-Day1 介绍基本情况

news 2026/6/6 7:21:04

一.基本概念

融合注意力：注意力机制是让模型在处理信息时自动分配权重，对关键内容赋予更高关注度、忽略无关信息，通过计算查询（Q）、键（K）的相似度得到注意力权重，再对值（V）加权融合，实现高效聚焦重要信息、长距离关联，是 Transformer 与大模型的核心基础。而融合注意力机制则是叠加两层以上的权重赋能，设计一套流程，把两个注意力机制融合起来，采用串行的方法，先A，后B，进一步提升细节捕捉等能力。

单目深度估计：单目深度估计是指仅利用一张普通 RGB 图像，在没有双目视差、激光雷达等额外信息的情况下，通过深度学习或视觉算法预测图像中每个像素到相机的距离（深度值），从而恢复场景三维空间结构的技术。其中深度值就是图片的 “第三维信息”，没有它就是平面照片，有它就能知道远近、还原 3D、重建空间、编辑场景。

二.论文出发点及实际意义

融合注意力机制对单目深度估计的核心意义，就是让模型精准聚焦对深度最有用的局部细节、捕捉全局空间 / 几何依赖、消除单目固有的深度歧义，最终输出更清晰、更准、几何更一致的深度图。

单目深度天生缺绝对尺度、易混淆纹理相似但远近不同的区域、CNN 只能抓局部邻域、长距离关系（比如远处地平线、物体遮挡）建模弱；加入空间 / 通道 / 自注意力后，模型能自适应给每个像素 / 通道 / 区域分配权重，重点强化物体边界、纹理、遮挡处的深度特征，弱化纯色 / 无意义背景，同时建立像素间长距离关联、对齐多尺度深浅层特征、保持深度在边缘 / 平面 / 时序上的一致性，大幅减少深度模糊、跳变、几何失真，提升精度与鲁棒性。