当前位置: 首页 > news >正文

语音中的Encoder-Decoder学习——跳跃连接UNET

由医学图像处理发源的UNET,相关的介绍已经很多,无需多言。我想从一个知之甚少的外行的角度来看这个图。

IMG_256
图1 UNET

图中,从最左侧,一个灰度图像作为输入。也就是单通道的图,其像素是572×572。

然后经过与3×3的卷积核进行卷积,得到570×570,64通道的特征,然后再经过3×3的卷积核,得到568×568,64通道的特征。

看到这里,首先有个基础知识:

  当我们用一个大小为 b × b 的卷积核对一个大小为 N × N 的图像进行卷积(并且不使用填充padding,步长stride=1的情况),输出特征图的尺寸可以由以下公式得出:

  输出大小=(N−b+1)×(N−b+1)

所以,为甚能得到568×568,这就不言而喻了。

  在卷积层上方有小小的数字64,这说明卷积核一共64个通道,这样可以产生64通道的特征,再通过下面64通道的3×3的卷积核。但是这为什么要这样做?

GPT给了我一个形象的比喻,放64个不同的滤镜,每个滤镜都能生成一张特征图。所以通道数是为了加不同的滤镜,得到丰富的输出。我作为一个对原理知之甚少的人,我就会产生疑问。为什么64个特征提取器不会学成一样?

  答案是:前向传播的信息可能一样,而反向传播就会不一样。

  GPT又给了我好的回复,哦不是DS。

  1. 场景:初始权重完全相同 + 对称的损失函数

如果损失函数对n个通道输出是完全对称的(比如,只关心12个输出的总和,不关心个体),并且初始权重完全相同:那么理论上,梯度会完全一样、权重会保持相同、输出也会保持相同

但这毫无用处,因为12个通道都在做一模一样的事情,相当于只有一个通道的12次复制

     2. 场景:初始权重完全相同 + 无激活函数 + 无偏置

这是最理想化的情况。假设故意将12个输出神经元的权重初始化成完全相同的矩阵。

前向传播:n个输出通道完全一样

反向传播:损失函数可能对不同输出有不同的依赖关系。

如果损失函数是 MSE,且目标值对不同输出通道有不同要求,那么梯度就会不同!

权重更新:由于 ∂L/∂y_k 不同,∂L/∂W_k 也不同 → 权重更新不同 → 第一次更新后权重就分化了。

也就是说loss如果只考虑总体误差,那通道的设定会没有意义。但如果loss考虑不同通道的误差并给出不同的法则,那n个通道就会更新出不同的卷积核参数,从而体现64个不同的滤镜,每个滤镜都能生成一张特征图。

 

IMG_256
图1 UNET
 

好的,下面我们再回到这个unet。

  经过最大池化,586×568变成284×284,进一步经过两次卷积(当然每次是通过128个通道。这样做一方面为了让信息不会损失,一方面要进一步细化滤镜)。

64—>128—>256—>512—>1024是图像处理中常用的参数。

  把两层卷积视为一块,则encoder部分分为5个模块,每经过一个模块,特征图都会变得尺寸更小,但通道数更大。

这样,就来到了decoder的部分。

看到这,我虽然懂了,但是挺疑惑的。

忽略encoder与decoder中间的跳跃连接,这样先层层提取局部特征,再层层恢复的过程,不是多此一举吗?亦或者,已知训练过程是在找寻让loss最优的卷积核参数,那网络的输出应当是什么?是重构的图片吗?这是属于生成式方法吗?

  • 下面请GPT一条一条解决我的疑惑。

%%% 娘勒,不知道我的帖子会不会有读者,小白真的是太不容易了,谁懂,看了unet,gpt告诉我它与RESnet本质不同,而我不懂RESnet这种痛!没关系,抽丝剥茧,总能弄得明白!

  1. 首先,明确无论啥net,它是用来干嘛的?

答: U-Net 是用来“看懂一张图里,每一个地方是什么”的。不只告诉你“这是一只猫”,而是告诉你“猫的头在这里”“耳朵在这里”“背景在这里”每一个像素,它都要给个说法。

普通识图(比如分类)对图像来说,这种方法是“粗看一眼”。但很多图像问题不允许“粗看”,比如医生要知道 病灶具体在哪,工业检测要知道 裂纹在哪个像素。这就需要既要看懂整张图,又要把每个位置标清楚。

这个问题恰好涉及初学者易犯的错误:

机器是如何“看图”的。

举个例子:

① 所有布偶猫照片都在室内
② 所有短毛猫都在室外

机器如何区分猫咪?不是看毛的长短,这种在人类脑袋里有意义的话。而是通过光线不同使时频图中的能量有所区分,分辨的是室内室外。

人眼分辨事物,例如区分立耳猫和折耳猫,只用一眼就能分辨,也就是部件 → 特征 → 类别。这是一个有意义的、可解释的流程,

而机器是无法理解的,机器最终学习的目标是标签

  • 那什么是标签?

标签是人类语义在机器中的数值化表示,是训练时用来“告诉模型什么是对的”的参考答案。

  1. 分类任务的标签: 0、1;0、1、2;[1,0,0][0,1,0][0,0,1]
  2. 分割任务的标签:ground truth,也就是图中每个像素点都赋予一个数值,最简单的就是噪声与纯净信号的区分,最终会组成一个超大的矩阵。

好,那么说到这里,其实对这个UNET已经大致理解了百分之80,但还有20,就存在于图像当中的灰色长箭头——跳跃连接。

图像中灰色长箭头把每一块卷积操作都与decoder的每个相对应的块连接了起来,这箭头指的是什么?

    其实就是把encoder的层信息与对应decoder的拼接,这样能够较好补充上采样信息。

好啦。上面就是我的学习整体思路的记录,对应代码跳转帖子:略略略还没写

http://www.jsqmd.com/news/112346/

相关文章:

  • 上海申光阿贝折射仪全系列产品介绍 - 品牌推荐大师1
  • 2025年国内十大酒店家具头部品牌推荐:五星级酒店家具推荐厂家有哪些? - 工业品牌热点
  • 2025年汉庭酒店家具供应商排行榜,新测评精选酒店家具品牌厂家推荐 - 工业推荐榜
  • 2025年12月重庆渝北区配眼镜标杆店铺最新推荐:雷曼森眼镜,青少年配眼镜。儿童配眼镜、老年人配眼镜、小孩配眼镜、娃儿配眼镜、北碚区配眼镜、视力健康管理新标准 - 海棠依旧大
  • 2025年度保温耐火材料行业口碑排名:安泰恒信行业口碑排名如何 - myqiye
  • 2025年银川评价高的电视台广告公司联系电话,地铁广告/公交广告/户外led大屏广告/电视台广告/广播电台广告电视台广告厂商推荐排行榜 - 品牌推荐师
  • 异构协同・全域洞察:军用异构机群侦察无人机蜂群系统供应商推荐 - 品牌2025
  • 易获客tiktok运营满意度怎么样、口碑及规模深度解析 - 工业品牌热点
  • 2025年北京口碑不错的整装局改专业公司排行榜,售后完善的整装局改品牌企业推荐 - mypinpai
  • 2025年GEO优化公司排名推荐:GEO优化服务哪家专业? - 工业推荐榜
  • Hydration Mismatch 原理详解:SSR 项目中最容易踩的坑
  • Ventoy:多系统USB启动盘制作 报错
  • 从单点勘测到集群协同:无人机集群开启复杂地形测绘新纪元 - 品牌2025
  • 2025年律师适合用的AI法律智能合约工具台TOP5排行榜,律师常用ai有哪些 - myqiye
  • 2025 年 12 月北京老房改造装修公司排名推荐top10:儿童房改造优选亿丰方圆 - 品牌智鉴榜
  • 串行数据流输出其中的数据位-HDLbits
  • 2025年抖音运营公司推荐:抖音运营公司选择哪家好、哪家便宜? - myqiye
  • 《lvgl基础学习 —— flex和grid》
  • ​避坑指南:2025六大胶原蛋白肽品牌全维度分析,数据解码仙次元抗老密码,靠效果说话! - 博客万
  • 2025年度数控旋风铣智能生产厂推荐,数控旋风铣供应商与生产商全解析 - mypinpai
  • 10 个 CSS 奇技淫巧
  • 2025年年终成都四川工作服厂家推荐:专家结合企业采购案例与服务体系对比的5家实力厂家选购指南 - 品牌推荐
  • 目的地婚礼【2025】排名:各大策划团队PK,TOP1会花落谁家! - 提酒换清欢
  • 2025年竹篱笆生产厂家权威推荐榜单:仿竹护栏/仿竹篱笆/河道护栏源头厂家精选 - 品牌推荐官
  • spring-boot HttpServletResponse response.sendRedirect是会跳转到 http而不是https
  • sucai
  • 2025年珠三角可靠的短视频推广公司排名,短视频推广渠道推荐及权威服务测评 - myqiye
  • 2025三位一体培训机构哪家靠谱TOP5推荐:甄选优质机构助力升学规划 - mypinpai
  • [SDR] USRP 双通道与 MIMO 技术:手搓 1 发 2 收 AOA 阵列定位系统
  • 拆解6个顶流案例,我总结出B端后台管理系统首页设计的3个公式