当前位置：首页 > news >正文

Transformer彻底剖析(11)：多层感知机MLP

news 2026/5/11 22:05:24

1 3blue1brown的MLP视频：图解Transformer之MLP机制解读

2 李沐的MLP视频

2.1 感知机

2.1.1 感知机存在的问题

2.2 多层感知机

2.3 问题

3 为什么transformer中要引入MLP

3.1 Transformer 的结构回顾

3.2 Transformer 中 MLP（FFN）的作用

3.3 个人理解

4 注意力机制参数和MLP参数含量

参考文献：

abstract:

一般提到感知机默认是指单层的最简单的感知机，一般提到多层感知机默认是指包含了激活函数的多层感知机。

单层感知机只能解决线性可分问题，而异或属于线性不可分问题。

多层感知机就是使用隐藏层和激活函数得到非线性模型

transformer中为什么要加入MLP：注意力机制是线性关系，MLP是非线性理解

网络中，注意力机制参数大约占1/3, MLP参数大约占用2/3

1 3blue1brown的MLP视频：图解Transformer之MLP机制解读

从这张图看，MLP就是线性层和激活函数。

2 李沐的MLP视频

2.1 感知机

这里最开始的感知机输出神经元只有一个，感知机其实就是个二分类问题，

跟线性回归的区别：线性回归输出的是实数，感知机的输出是离散的类

跟softmax回归的区别：softmax如果有n个类，就会输出n个元素，是个多酚类的问题。

2.1.1 感知机存在的问题

其实就是理解单层感知机就是只能拟合二分类问题，那么也就是线性拟合，没法拟合异或问题。

2.2 多层感知机

为什么需要非线性的激活函数：因为如果激活函数是线性的，那么输出跟输入的关系就还是线性的，那么最终结果就相当于是一个单层的感知机，还是解决不了异或问题。

2.3 问题

一般来说一层是包含了激活函数的

通常来说一层是包含了权重以及激活函数的，就是这些计算是怎么做的，上图就可以说是两层，在这里输入层不算一层，

对于输入来说，有两种选择，

一种就是一个隐藏层，然后这个隐藏层包含了很多神经元，

还有一种是多个隐藏层，但是每个隐藏层的神经元稍微少一点，

他们两个的模型复杂度是差不多的，但是第二种更好训练，第一种特别容易过拟合，第一种相当于一口吃个胖子，第二种相当于循序渐进的去学习，比如把一个猫的图片和狗的图片，进行训练和学习，第二种相当于第一层学个耳朵，第二层学个尾巴，最后学会整个图像。

其实都差不多，区别不大。

3 为什么transformer中要引入MLP

3.1 Transformer 的结构回顾

一个标准的 Transformer Encoder Layer 主要包含两部分：

多头自注意力（Multi-Head Self-Attention, MHSA）
前馈全连接网络（Feed-Forward Network, FFN）

其中 FFN本质上就是多层感知机（MLP），通常形式是：

FFN(x)=GeLU(xW1+b1)W2+b2\text{FFN}(x) = \text{GeLU}(x W_1 + b_1) W_2 + b_2FFN(x)=GeLU(xW1+b1)W2+b2

两层线性 + 非线性激活（GeLU / ReLU）
对每个位置的 token 独立应用

3.2 Transformer 中 MLP（FFN）的作用

增加非线性表达能力

注意力层本身是线性的（注意力是加权和）
如果没有 MLP，Transformer只能做线性组合
MLP 让每个 token 的表示可以经过非线性变换 → 更强的表示能力

提供特征混合和高维映射

FFN 通常内部维度远大于输入维度（比如 512 → 2048 → 512）
升维 → 非线性 → 降维
作用类似于 “局部特征组合 / 投影到高维空间再压缩”，增强模型拟合复杂模式的能力

保持位置独立性（Token-wise）

每个 token 独立经过 MLP，不同于注意力会跨 token 交互
这样做可以在每个 token 内部增加复杂的非线性变换，同时注意力负责 token 间依赖

总结一句话（本质）

Transformer 的 MLP（FFN）就是多层感知机，负责每个 token 的非线性变换和高维特征组合，使模型具备更强的表达能力，弥补注意力层的线性限制。

3.3 个人理解

transformer中为什么要加入MLP：注意力机制是线性关系，MLP是非线性理解

注意力机制只是处理了句子之间不同token的关联关系，他只是线性的，只有MLP引入非线性才能更好的理解复杂句子的含义。

4 注意力机制参数和MLP参数含量

不管是GPT，还是deepseek，还是通义，是不是mlp的参数反而是占大多数的对吗，是不是注意力参数大约1/3，MLP大约2/3

模型系列	注意力机制参数占比	MLP参数占比	典型配置
GPT-3	~33%	~67%	175B模型中，116B参数在MLP层
LLaMA-2	32-34%	66-68%	70B版本中MLP占46.2B参数
通义千问(Qwen)	~33%	~67%	Qwen-Max每层FFN维度=4×隐藏维度
DeepSeek	~33%	~67%	遵循标准Transformer设计原则