当前位置：首页 > news >正文

卷积层里的多输入多输出通道

news 2026/3/26 20:47:37

问题
探索卷积层里的多输入多输出通道
方法
通过网络搜索，加以学习，以此来解决问题
1. 多个输入通道
  通常来说，我们会用到彩色图片，彩色图像一般是由RGB三个通道组成的。彩色图片一般会有更加丰富的信息。
  但是转换为灰度会丢失信息，所以在图片的表示中通道数应该是3。我们之前都是只用了一个通道，简单图片对于单通道来说还是ok的，但是对于复杂图像就不行了。
  
  假设图片的大小为200x200，那么图像的张量表示应该是200x200x3，不仅仅是一个简单的矩阵了。
  当输入有了多个通道之后，假设有2个通道，Input中，前面的是通道0，后面是通道1。那么每个通道就会需要一个卷积核，比如针对通道0的卷积核对通道0做卷积，针对通道1的卷积核对通道1做卷积。再按元素相加，得到我们最终的结果。
  ① 核的通道数与输入的通道数一样。如果有多个通道，每一个通道都有一个卷积核，结果是所有通道卷积结果的和。
  
  我们假设：
  
  卷积核也会对应的变成三维的矩阵，但是输出是一个单通道，因为不管输入是多少通道，输出是把结果相加之后产生的。也就是说对每一个通道，把它对应的输入和对应的核做卷积，再按元素相加起来，得到输出
2. 多个输出通道
  无论有多少通道的输入，到目前为止不论有多少输入通道，我们只会得到单输出通道。
  如果我们希望输出是多维的，得到多输出通道该怎么办呢？
  做法是对每一个输出都有一个自己的三维的卷积核，总共设置多个三维的卷积核，每一个卷积核计算出来的结果作为一个通道，把每一个通道一一做运算，再把它们concat起来得到我们的输出。
  相比于之前单输出通道多了一个参数Co。输出通道数，即卷积核的个数是卷积层的另一个超参数。
  
  输出里面的第i个通道，其实就是完整的输入X与对应第i个核，做多输入的卷积，然后对所有的i做遍历。
  
  这样就得到了多输出通道的结果。
  那为什么要这么做呢？
  我们可以认为每一个通道识别出来的都是一些特殊的模式，这是输出通道干的事情。
  
  多输入通道干什么呢？假设我把这6个通道丢给下一层，下一层要把这每个模式识别出来并组合起来，得到一个组合的模式序列。
  当然，每一层有多个输出通道时至关重要的。在最流行的神经网络架构中，随着神经网络层数的加深，我们常会增加输出通道的维数，通过减少空间分别率以获得更大的通道深度。
  比如说，我们可以先识别猫的胡须，耳朵，再往上走的话，把这些纹理组合起来，在上层的一些卷积层可能就是识别的猫头。
  直观地说，我们可以将每个通道看作是对不同特征的响应。而现实可能更为复杂一些，因为每个通道不是独立学习的，而是为了共同使用而优化的。
  因此，多输出通道并不仅是学习多个单通道的检测器。
3. 1*1卷积核
  (1,1)的卷积核是一个常用的卷积核，它并不能识别空间信息，它的作用是融合通道。
  因为1x1卷积层每次只识别一个像素，而不查看该像素与周围像素的关系，所以它并不识别空间信息。
  
  等价于把整个NhxNw的输入拉成一个长为NhNw的向量，也就是说空间信息没有了，然后通道数拉成特征数Ci。将卷积核重新写成CoxCi，等价于输入为NhxNwxCi，权重为CoxCi的全连接层。
4. 二维卷积层
  
  模型储存小，计算量不一定小。
总结