当前位置：首页 > news >正文

语音中的Encoder-Decoder学习——跳跃连接UNET

news 2026/7/8 16:37:21

由医学图像处理发源的UNET，相关的介绍已经很多，无需多言。我想从一个知之甚少的外行的角度来看这个图。

图1 UNET

图中，从最左侧，一个灰度图像作为输入。也就是单通道的图，其像素是572×572。

然后经过与3×3的卷积核进行卷积，得到570×570，64通道的特征，然后再经过3×3的卷积核，得到568×568，64通道的特征。

看到这里，首先有个基础知识：

当我们用一个大小为 b × b 的卷积核对一个大小为 N × N 的图像进行卷积（并且不使用填充padding，步长stride=1的情况），输出特征图的尺寸可以由以下公式得出：

输出大小=(N−b+1)×(N−b+1)

所以，为甚能得到568×568，这就不言而喻了。

在卷积层上方有小小的数字64，这说明卷积核一共64个通道，这样可以产生64通道的特征，再通过下面64通道的3×3的卷积核。但是这为什么要这样做？

GPT给了我一个形象的比喻，放64个不同的滤镜，每个滤镜都能生成一张特征图。所以通道数是为了加不同的滤镜，得到丰富的输出。我作为一个对原理知之甚少的人，我就会产生疑问。为什么64个特征提取器不会学成一样？

答案是：前向传播的信息可能一样，而反向传播就会不一样。

GPT又给了我好的回复，哦不是DS。

场景：初始权重完全相同 + 对称的损失函数

如果损失函数对n个通道输出是完全对称的（比如，只关心12个输出的总和，不关心个体），并且初始权重完全相同：那么理论上，梯度会完全一样、权重会保持相同、输出也会保持相同

但这毫无用处，因为12个通道都在做一模一样的事情，相当于只有一个通道的12次复制

2. 场景：初始权重完全相同 + 无激活函数 + 无偏置

这是最理想化的情况。假设故意将12个输出神经元的权重初始化成完全相同的矩阵。

前向传播：n个输出通道完全一样

反向传播：损失函数可能对不同输出有不同的依赖关系。

如果损失函数是 MSE，且目标值对不同输出通道有不同要求，那么梯度就会不同！

权重更新：由于 ∂L/∂y_k 不同，∂L/∂W_k 也不同 → 权重更新不同 → 第一次更新后权重就分化了。

也就是说loss如果只考虑总体误差，那通道的设定会没有意义。但如果loss考虑不同通道的误差并给出不同的法则，那n个通道就会更新出不同的卷积核参数，从而体现64个不同的滤镜，每个滤镜都能生成一张特征图。

图1 UNET

好的，下面我们再回到这个unet。

经过最大池化，586×568变成284×284，进一步经过两次卷积（当然每次是通过128个通道。这样做一方面为了让信息不会损失，一方面要进一步细化滤镜）。

而64—>128—>256—>512—>1024是图像处理中常用的参数。

把两层卷积视为一块，则encoder部分分为5个模块，每经过一个模块，特征图都会变得尺寸更小，但通道数更大。

这样，就来到了decoder的部分。

看到这，我虽然懂了，但是挺疑惑的。

忽略encoder与decoder中间的跳跃连接，这样先层层提取局部特征，再层层恢复的过程，不是多此一举吗？亦或者，已知训练过程是在找寻让loss最优的卷积核参数，那网络的输出应当是什么？是重构的图片吗？这是属于生成式方法吗？

下面请GPT一条一条解决我的疑惑。

%%% 娘勒，不知道我的帖子会不会有读者，小白真的是太不容易了，谁懂，看了unet，gpt告诉我它与RESnet本质不同，而我不懂RESnet这种痛！没关系，抽丝剥茧，总能弄得明白！

首先，明确无论啥net，它是用来干嘛的？

答： U-Net 是用来“看懂一张图里，每一个地方是什么”的。不只告诉你“这是一只猫”，而是告诉你“猫的头在这里”“耳朵在这里”“背景在这里”每一个像素，它都要给个说法。

普通识图（比如分类）对图像来说，这种方法是“粗看一眼”。但很多图像问题不允许“粗看”，比如医生要知道病灶具体在哪，工业检测要知道裂纹在哪个像素。这就需要既要看懂整张图，又要把每个位置标清楚。

这个问题恰好涉及初学者易犯的错误：

机器是如何“看图”的。

举个例子：

①　所有布偶猫照片都在室内

②　所有短毛猫都在室外

机器如何区分猫咪？不是看毛的长短，这种在人类脑袋里有意义的话。而是通过光线不同使时频图中的能量有所区分，分辨的是室内室外。

人眼分辨事物，例如区分立耳猫和折耳猫，只用一眼就能分辨，也就是部件 → 特征 → 类别。这是一个有意义的、可解释的流程，

而机器是无法理解的，机器最终学习的目标是标签。

那什么是标签？

标签是人类语义在机器中的数值化表示，是训练时用来“告诉模型什么是对的”的参考答案。

分类任务的标签: 0、1；0、1、2；[1,0,0][0,1,0][0,0,1]
分割任务的标签：ground truth，也就是图中每个像素点都赋予一个数值，最简单的就是噪声与纯净信号的区分，最终会组成一个超大的矩阵。

好，那么说到这里，其实对这个UNET已经大致理解了百分之80，但还有20，就存在于图像当中的灰色长箭头——跳跃连接。

图像中灰色长箭头把每一块卷积操作都与decoder的每个相对应的块连接了起来，这箭头指的是什么？

其实就是把encoder的层信息与对应decoder的拼接，这样能够较好补充上采样信息。

好啦。上面就是我的学习整体思路的记录，对应代码跳转帖子：略略略还没写

查看全文

http://www.jsqmd.com/news/112346/

上海申光阿贝折射仪全系列产品介绍 - 品牌推荐大师1

2025年12月重庆渝北区配眼镜标杆店铺最新推荐：雷曼森眼镜，青少年配眼镜。儿童配眼镜、老年人配眼镜、小孩配眼镜、娃儿配眼镜、北碚区配眼镜、视力健康管理新标准 - 海棠依旧大

2025年度保温耐火材料行业口碑排名：安泰恒信行业口碑排名如何 - myqiye

2025年银川评价高的电视台广告公司联系电话，地铁广告/公交广告/户外led大屏广告/电视台广告/广播电台广告电视台广告厂商推荐排行榜 - 品牌推荐师

异构协同・全域洞察：军用异构机群侦察无人机蜂群系统供应商推荐 - 品牌2025

易获客tiktok运营满意度怎么样、口碑及规模深度解析 - 工业品牌热点

2025年北京口碑不错的整装局改专业公司排行榜，售后完善的整装局改品牌企业推荐 - mypinpai

2025年GEO优化公司排名推荐：GEO优化服务哪家专业？ - 工业推荐榜

Hydration Mismatch 原理详解：SSR 项目中最容易踩的坑

Ventoy:多系统USB启动盘制作报错

从单点勘测到集群协同：无人机集群开启复杂地形测绘新纪元 - 品牌2025

2025年律师适合用的AI法律智能合约工具台TOP5排行榜，律师常用ai有哪些 - myqiye

2025 年 12 月北京老房改造装修公司排名推荐top10：儿童房改造优选亿丰方圆 - 品牌智鉴榜

串行数据流输出其中的数据位-HDLbits

《lvgl基础学习 —— flex和grid》

避坑指南：2025六大胶原蛋白肽品牌全维度分析，数据解码仙次元抗老密码，靠效果说话！ - 博客万

10 个 CSS 奇技淫巧

目的地婚礼【2025】排名：各大策划团队PK，TOP1会花落谁家！ - 提酒换清欢

spring-boot HttpServletResponse response.sendRedirect是会跳转到 http而不是https

sucai

2025年珠三角可靠的短视频推广公司排名，短视频推广渠道推荐及权威服务测评 - myqiye

2025三位一体培训机构哪家靠谱TOP5推荐：甄选优质机构助力升学规划 - mypinpai

[SDR] USRP 双通道与 MIMO 技术：手搓 1 发 2 收 AOA 阵列定位系统

拆解6个顶流案例，我总结出B端后台管理系统首页设计的3个公式

相关文章：