当前位置: 首页 > news >正文

Transformer彻底剖析(11):多层感知机MLP

目录

1 3blue1brown的MLP视频:图解Transformer之MLP机制解读

2 李沐的MLP视频

2.1 感知机

2.1.1 感知机存在的问题

2.2 多层感知机

2.3 问题

3 为什么transformer中要引入MLP

3.1 Transformer 的结构回顾

3.2 Transformer 中 MLP(FFN)的作用

3.3 个人理解

4 注意力机制参数和MLP参数含量

参考文献:


abstract:

一般提到感知机默认是指单层的最简单的感知机,一般提到多层感知机默认是指包含了激活函数的多层感知机。

单层感知机只能解决线性可分问题,而异或属于线性不可分问题。

多层感知机就是使用隐藏层和激活函数得到非线性模型

transformer中为什么要加入MLP:注意力机制是线性关系,MLP是非线性理解

网络中,注意力机制参数大约占1/3, MLP参数大约占用2/3

1 3blue1brown的MLP视频:图解Transformer之MLP机制解读

从这张图看,MLP就是线性层和激活函数。

2 李沐的MLP视频

2.1 感知机

这里最开始的感知机输出神经元只有一个,感知机其实就是个二分类问题,

跟线性回归的区别:线性回归输出的是实数,感知机的输出是离散的类

跟softmax回归的区别:softmax如果有n个类,就会输出n个元素,是个多酚类的问题。

2.1.1 感知机存在的问题

其实就是理解单层感知机就是只能拟合二分类问题,那么也就是线性拟合,没法拟合异或问题。

2.2 多层感知机

为什么需要非线性的激活函数:因为如果激活函数是线性的,那么输出跟输入的关系就还是线性的,那么最终结果就相当于是 一个单层的感知机,还是解决不了异或问题。

2.3 问题

一般来说一层是包含了激活函数的

通常来说一层是包含了权重以及激活函数的,就是这些计算是怎么做的,上图就可以说是两层,在这里输入层不算一层,

对于输入来说,有两种选择,

一种就是一个隐藏层,然后这个隐藏层包含了很多神经元,

还有一种是多个隐藏层,但是每个隐藏层的神经元稍微少一点,

他们两个的模型复杂度是差不多的,但是第二种更好训练,第一种特别容易过拟合,第一种相当于一口吃个胖子,第二种相当于循序渐进的去学习,比如把一个猫的图片和狗的图片,进行训练和学习,第二种相当于第一层学个耳朵,第二层学个尾巴,最后学会整个图像。

其实都差不多,区别不大。

3 为什么transformer中要引入MLP

3.1 Transformer 的结构回顾

一个标准的 Transformer Encoder Layer 主要包含两部分:

  1. 多头自注意力(Multi-Head Self-Attention, MHSA)

  2. 前馈全连接网络(Feed-Forward Network, FFN)

其中 FFN本质上就是多层感知机(MLP),通常形式是:

FFN(x)=GeLU(xW1+b1)W2+b2\text{FFN}(x) = \text{GeLU}(x W_1 + b_1) W_2 + b_2FFN(x)=GeLU(xW1​+b1​)W2​+b2​

  • 两层线性 + 非线性激活(GeLU / ReLU)

  • 对每个位置的 token 独立应用


3.2 Transformer 中 MLP(FFN)的作用

增加非线性表达能力

  • 注意力层本身是线性的(注意力是加权和)

  • 如果没有 MLP,Transformer只能做线性组合

  • MLP 让每个 token 的表示可以经过非线性变换 → 更强的表示能力


提供特征混合和高维映射

  • FFN 通常内部维度远大于输入维度(比如 512 → 2048 → 512)

  • 升维 → 非线性 → 降维

  • 作用类似于 “局部特征组合 / 投影到高维空间再压缩”,增强模型拟合复杂模式的能力


保持位置独立性(Token-wise)

  • 每个 token 独立经过 MLP,不同于注意力会跨 token 交互

  • 这样做可以在每个 token 内部增加复杂的非线性变换,同时注意力负责 token 间依赖


总结一句话(本质)

Transformer 的 MLP(FFN)就是多层感知机,负责每个 token 的非线性变换和高维特征组合,使模型具备更强的表达能力,弥补注意力层的线性限制。

3.3 个人理解

transformer中为什么要加入MLP:注意力机制是线性关系,MLP是非线性理解

注意力机制只是处理了句子之间不同token的关联关系,他只是线性的,只有MLP引入非线性才能更好的理解复杂句子的含义。

4 注意力机制参数和MLP参数含量

不管是GPT,还是deepseek,还是通义,是不是mlp的参数反而是占大多数的对吗,是不是注意力参数大约1/3,MLP大约2/3

模型系列注意力机制参数占比MLP参数占比典型配置
GPT-3~33%~67%175B模型中,116B参数在MLP层
LLaMA-232-34%66-68%70B版本中MLP占46.2B参数
通义千问(Qwen)~33%~67%Qwen-Max每层FFN维度=4×隐藏维度
DeepSeek~33%~67%遵循标准Transformer设计原则

参考文献:

图解Transformer之MLP机制解读

什么是“感知机”,它的缺陷为什么让“神经网络”陷入低潮

10 多层感知机 + 代码实现 - 动手学深度学习v2

http://www.jsqmd.com/news/88401/

相关文章:

  • P9533 [YsOI2023] 区间翻转区间异或和 解题报告
  • wangEditor处理站群平台word文档转存需求
  • C#之文件读取
  • 联想打印机维修与故障排除实用指南
  • P9345 夕阳西下几时回 解题报告
  • 专网自实现域名系统的深度可行性研究与实施规划报告
  • 本地部署开源可视化界面开发工具 Node-RED 并实现外部访问( Linux 版本)
  • 实习面试题-ZooKeeper 原理面试题
  • T321484 刁钻的客人 私题题解
  • CF1891B Deja Vu 解题报告
  • 本地部署开源可视化界面开发工具 Node-RED 并实现外部访问( Windows 版本)
  • U249090 密码门 私题题解
  • 2025企业AI部署革命:T-pro-it-2.0-GGUF如何让本地化门槛直降60%?
  • JSP如何实现大文件分片上传与多线程上传?
  • 三相共直流母线式光储VSG/虚拟同步机逆变器模型仿真:离散化快速运行与前级PV最大功率追踪控制
  • Sed 例程大全
  • 【Vue3】 中 ref 与 reactive:状态与模型的深入理解
  • 实习面试题-Zookeeper 面试题
  • 双机并联虚拟同步发电机仿真模型:均分负载与优质波形输出,可拓展自适应与光伏储能技术
  • 清除企业不良记录的通知
  • Grep 例程大全
  • python环境及pip的操作
  • 管理Linux的联网
  • HTTP协议在JSP大附件上传中如何优化性能?
  • 网页前端如何通过JSP实现大文件秒传功能?
  • Ursa.Avalonia样式系统终极指南:5大技巧助你构建企业级UI
  • Asio应用(高级):构建高性能、安全、跨平台的网络系统
  • 实习面试题-Spark SQL 面试题
  • CF958A1 Death Stars (easy) 解题报告
  • PS 例程大全