当前位置：首页 > news >正文

Attention 决定“看谁”，FFN 决定“看懂什么”

news 2026/7/12 13:07:07

我们认真看 Transformer 的结构图，注意力很可能都会被Self-Attention吸走。

它很新颖、很优雅、也确实是 Transformer 的核心创新。

但在每一个 Attention Block 后面，总会跟着一个看起来毫不起眼的模块：

FFN（Feed-Forward Network）

两层线性变换，中间接一个激活函数。

不少人第一次看到都会有一个疑问：

Attention 都已经建模 token 之间的关系了，为什么还要再接一个这么“简单”的前馈网络？

这篇文章，我们就专门来讲清楚：

FFN 在 Transformer 里到底解决什么问题？如果没有它，Transformer 会变成什么？

一、先给结论：FFN 不是“可有可无”的

先把结论放在最前面：

没有 FFN，Transformer 的表达能力会严重受限，甚至退化成“线性混合器”。

Self-Attention 解决的是：

token和谁交互
信息从哪里来

而 FFN 解决的是：

token内部如何变形
表示如何变得非线性、更有判别力

一句话总结：

Attention 决定信息的“来源结构”，FFN 决定信息的“表示形态”。

二、如果只有 Attention，会发生什么？

我们先做一个思想实验。

假设一个 Transformer Block 里：

有 Multi-Head Self-Attention
有残差、有 LayerNorm
但没有 FFN

那每一层在干什么？

\1. Attention 本质是在做什么？

从数学形式上看（忽略细节）：

Attention ≈ 对一组 token 表示做加权求和

也就是说：

输出 token 是输入 token 的线性组合

不会引入新的非线性结构

即便你堆很多层 Attention：

token 在“互相混合”

但每个 token 的表示空间，本质仍然是线性的

这会导致一个问题：

模型只是在“重新排列和加权已有特征”，而不是“创造新的特征”。

三、FFN 的第一层作用：升维 = 打开表达空间

来看 FFN 的标准形式：

关键点在于：

W1：把维度从 d_model升到 d_ff（通常是 4×）

这一步在做什么？

\1. 为什么要升维？

可以把 token 表示想象成一个向量空间：

原始 d_model 空间有限

很多不同语义被“挤”在同一方向上

升维的效果是：

给模型一个更大的中间工作空间

允许不同特征在不同维度上被分离、拉开

一句非常重要的话：

Attention 混合 token，FFN 拉开特征。

四、真正的核心：非线性从哪里来？

Transformer 里，

绝大多数“非线性能力”，都来自 FFN。

注意力里的 Softmax：

是对权重做归一化
不是对 token 表示本身做非线性变换

而 FFN 中的激活函数（ReLU / GELU / SwiGLU）：

改变了表示空间的几何结构
让模型可以学习“如果满足某种条件，就走另一条路径”

这在本质上意味着：

FFN 才是 Transformer 的“决策模块”。

五、为什么 FFN 是“逐 token”的？

你可能注意到一个特点：

FFN 对每个 token独立作用，不做 token 之间的交互。

这是刻意设计的。

分工非常清晰：

Attention：负责 token 之间的信息流动

FFN：负责 token 内部的表示变换

这种结构带来一个重要好处：

空间结构（token 关系）和语义变换（表示能力）被解耦。

这也是 Transformer 非常稳定、可扩展的原因之一。

六、从梯度视角再看一次 FFN

如果从“梯度系统”的视角来看：

FFN 还有一个经常被忽略的作用。

\1. 梯度需要“被放大和重塑”

Attention 更多是在做加权汇聚
梯度容易在多层中被平均、稀释

而 FFN：

升维 + 非线性
为梯度提供更丰富的传播方向

可以这样理解：

FFN 不仅在前向上增加表达能力，也在反向中增加梯度路径的多样性。

七、为什么 LLM 里 FFN 参数占比这么高？

一个现实但很说明问题的事实：

在大多数 Transformer / LLM 中，FFN 占据了超过一半的参数量。

这不是偶然。

因为：

Attention 决定“看谁”
FFN 决定“看懂什么”

规模一旦上来，模型瓶颈往往不在“连接关系”，而在“表达能力”。

八、一句话总结

Attention 负责建图，FFN 负责算图。

或者换一种说法：

没有 FFN，Transformer 只是在传播信息；有了 FFN，Transformer 才开始理解信息。

最后

选择AI大模型就是选择未来！最近两年，大家都可以看到AI的发展有多快，时代在瞬息万变，我们又为何不给自己多一个选择，多一个出路，多一个可能呢？

与其在传统行业里停滞不前，不如尝试一下新兴行业，而AI大模型恰恰是这两年的大风口，人才需求急为紧迫！

人工智能时代最缺的是什么？就是能动手解决问题还会动脑创新的技术牛人！智泊AI为了让学员毕业后快速成为抢手的AI人才，直接把课程升级到了V6.0版本‌。

这个课程就像搭积木一样，既有机器学习、深度学习这些基本功教学，又教大家玩转大模型开发、处理图片语音等多种数据的新潮技能，把AI技术从基础到前沿全部都包圆了！

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

课程还教大家怎么和AI搭档一起工作，就像程序员带着智能助手写代码、优化方案，效率直接翻倍‌！

这么练出来的学员确实吃香，83%的应届生都进了大厂搞研发，平均工资比同行高出四成多‌。

智泊AI还特别注重培养"人无我有"的能力，比如需求分析、创新设计这些AI暂时替代不了的核心竞争力，让学员在AI时代站稳脚跟‌。

课程优势一：人才库优秀学员参与真实商业项目实训

课程优势二：与大厂深入合作，共建大模型课程

课程优势三：海外高校学历提升

课程优势四：热门岗位全覆盖，匹配企业岗位需求

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

·应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

·零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

·业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

重磅消息

人工智能V6.0升级两大班型：AI大模型全栈班、AI大模型算法班，为学生提供更多选择。

由于文章篇幅有限，在这里我就不一一向大家展示了，学习AI大模型是一项系统工程，需要时间和持续的努力。但随着技术的发展和在线资源的丰富，零基础的小白也有很好的机会逐步学习和掌握。

【最新最全版】AI大模型全套学习籽料（可无偿送）：LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等，从入门到进阶再到精通，超全面存下吧！

获取方式：有需要的小伙伴，可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

来智泊AI，高起点就业

培养企业刚需人才

扫码咨询抢免费试学

⬇⬇⬇

AI大模型学习之路，道阻且长，但只要你坚持下去，就一定会有收获。

查看全文

http://www.jsqmd.com/news/342940/

初入人间

2026全网硬核测评：5款论文降AI率工具深度横评（附免费降AI/去AI味保姆级教程）

在我将要被豆包们替代之际，它这样指导我转型

开发PPT模板快速调用工具，分类存储常用PPT模板，图表，输入主题快速匹配模板，一键插入，支持自定义模板，提升PPT制作效果。

甜椒叶病害数据集

Claude Code From 0 to 1

无人机数据集汇总无人机拍摄各个方面检测分割数据集合集

可用于近红外光谱数据分析的网上公开数据集

2026 年了，为什么你的 Mac 还是逃不过“磁盘焦虑”？CleanDiskGo 深度剖析

emacs. verilog mode guide, example

设计一个基于51单片机(STC89C52RC)的技术系统，通过INT0外部中断检测按钮按下次数，并在单只共阴极数码管上实时显示计数值(范围0~9，超过九则清零，重新计数)...如何实现？

什么是铪材？核心特性是什么？主要应用在哪些领域 - 非研科技

AI应用架构师经验谈：AI辅助数据分析的团队协作效率提升法，洞察共享机制

AI Agent 框架探秘：拆解 OpenHands（6）--- 事件系统

FastAPI系列（20）：ORM添加表记录

远程桌面方案全对比：RDP/VNC/Parsec怎么选 - 指南

2026首发版，自学AI大模型的正确顺序：最新最全学习路线全解析

如何用Agentic AI 提升客户服务质量？提示工程架构师的5个技巧

stm32的ADC模块在进行单通道ADC测量时，悬空接地电压在OLED显示屏上显示为3.3V，而不是实际的电压值，如何解决？

LiveChart2踩过的坑

AI产品经理深度转型指南！

RAG上下文构建完全指南：从召回策略到最佳实践，一篇搞定！建议收藏

ModelEngine智能编排：构建下一代AI驱动的创新应用生态

初学go - 2 - 文件

用 Hashids 优雅解决 C 端自增 ID 暴露问题

ue metahuman自动绑定

全球股市估值与脑机接口在情绪管理中的应用

MegaFlow：大模型时代Agent训练的分布式编排系统详解

大模型RAG管道优化：“过度设计“的邻居扩展策略是否真的有效？

华为OD技术面真题 - Mysql相关 - 4