当前位置: 首页 > news >正文

Attention 决定“看谁”,FFN 决定“看懂什么”

我们认真看 Transformer 的结构图,注意力很可能都会被Self-Attention吸走。

它很新颖、很优雅、也确实是 Transformer 的核心创新。

但在每一个 Attention Block 后面,总会跟着一个看起来毫不起眼的模块:

FFN(Feed-Forward Network)

两层线性变换,中间接一个激活函数。

不少人第一次看到都会有一个疑问:

Attention 都已经建模 token 之间的关系了, 为什么还要再接一个这么“简单”的前馈网络?

这篇文章,我们就专门来讲清楚:

FFN 在 Transformer 里到底解决什么问题?如果没有它,Transformer 会变成什么?

一、先给结论:FFN 不是“可有可无”的

先把结论放在最前面:

没有 FFN,Transformer 的表达能力会严重受限,甚至退化成“线性混合器”。

Self-Attention 解决的是:

  • token和谁交互
  • 信息从哪里来

而 FFN 解决的是:

  • token内部如何变形
  • 表示如何变得非线性、更有判别力

一句话总结:

Attention 决定信息的“来源结构”,FFN 决定信息的“表示形态”。


二、如果只有 Attention,会发生什么?

我们先做一个思想实验。

假设一个 Transformer Block 里:

  • 有 Multi-Head Self-Attention
  • 有残差、有 LayerNorm
  • 但没有 FFN

那每一层在干什么?

\1. Attention 本质是在做什么?

从数学形式上看(忽略细节):

Attention ≈ 对一组 token 表示做加权求和

也就是说:

输出 token 是输入 token 的线性组合

不会引入新的非线性结构

即便你堆很多层 Attention:

token 在“互相混合”

但每个 token 的表示空间,本质仍然是线性的

这会导致一个问题:

模型只是在“重新排列和加权已有特征”, 而不是“创造新的特征”。


三、FFN 的第一层作用:升维 = 打开表达空间

来看 FFN 的标准形式:

关键点在于:

W1:把维度从 d_model升到 d_ff(通常是 4×)

这一步在做什么?

\1. 为什么要升维?

可以把 token 表示想象成一个向量空间:

原始 d_model 空间有限

很多不同语义被“挤”在同一方向上

升维的效果是:

给模型一个更大的中间工作空间

允许不同特征在不同维度上被分离、拉开

一句非常重要的话:

Attention 混合 token,FFN 拉开特征。


四、真正的核心:非线性从哪里来?

Transformer 里,

绝大多数“非线性能力”,都来自 FFN。

注意力里的 Softmax:

  • 是对权重做归一化
  • 不是对 token 表示本身做非线性变换

而 FFN 中的激活函数(ReLU / GELU / SwiGLU):

  • 改变了表示空间的几何结构
  • 让模型可以学习“如果满足某种条件,就走另一条路径”

这在本质上意味着:

FFN 才是 Transformer 的“决策模块”。


五、为什么 FFN 是“逐 token”的?

你可能注意到一个特点:

FFN 对每个 token独立作用,不做 token 之间的交互。

这是刻意设计的。

分工非常清晰:

Attention:负责 token 之间的信息流动

FFN:负责 token 内部的表示变换

这种结构带来一个重要好处:

空间结构(token 关系)和语义变换(表示能力)被解耦。

这也是 Transformer 非常稳定、可扩展的原因之一。


六、从梯度视角再看一次 FFN

如果从“梯度系统”的视角来看:

FFN 还有一个经常被忽略的作用。

\1. 梯度需要“被放大和重塑”

  • Attention 更多是在做加权汇聚

  • 梯度容易在多层中被平均、稀释

而 FFN:

  • 升维 + 非线性

  • 为梯度提供更丰富的传播方向

可以这样理解:

FFN 不仅在前向上增加表达能力, 也在反向中增加梯度路径的多样性。


七、为什么 LLM 里 FFN 参数占比这么高?

一个现实但很说明问题的事实:

在大多数 Transformer / LLM 中,FFN 占据了超过一半的参数量。

这不是偶然。

因为:

  • Attention 决定“看谁”
  • FFN 决定“看懂什么”

规模一旦上来, 模型瓶颈往往不在“连接关系”,而在“表达能力”。


八、一句话总结

Attention 负责建图,FFN 负责算图。

或者换一种说法:

没有 FFN,Transformer 只是在传播信息; 有了 FFN,Transformer 才开始理解信息。

最后

选择AI大模型就是选择未来!最近两年,大家都可以看到AI的发展有多快,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?

与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,人才需求急为紧迫!

人工智能时代最缺的是什么?就是能动手解决问题还会动脑创新的技术牛人!智泊AI为了让学员毕业后快速成为抢手的AI人才,直接把课程升级到了V6.0版本‌。

这个课程就像搭积木一样,既有机器学习、深度学习这些基本功教学,又教大家玩转大模型开发、处理图片语音等多种数据的新潮技能,把AI技术从基础到前沿全部都包圆了!

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

课程还教大家怎么和AI搭档一起工作,就像程序员带着智能助手写代码、优化方案,效率直接翻倍‌!

这么练出来的学员确实吃香,83%的应届生都进了大厂搞研发,平均工资比同行高出四成多‌。

智泊AI还特别注重培养"人无我有"的能力,比如需求分析、创新设计这些AI暂时替代不了的核心竞争力,让学员在AI时代站稳脚跟‌。

课程优势一:人才库优秀学员参与真实商业项目实训

课程优势二:与大厂深入合作,共建大模型课程

课程优势三:海外高校学历提升

课程优势四:热门岗位全覆盖,匹配企业岗位需求

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

·应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

·零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

·业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

重磅消息

人工智能V6.0升级两大班型:AI大模型全栈班AI大模型算法班,为学生提供更多选择。

由于文章篇幅有限,在这里我就不一一向大家展示了,学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。

【最新最全版】AI大模型全套学习籽料(可无偿送):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!

获取方式:有需要的小伙伴,可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

来智泊AI,高起点就业

培养企业刚需人才

扫码咨询 抢免费试学

⬇⬇⬇

AI大模型学习之路,道阻且长,但只要你坚持下去,就一定会有收获。

http://www.jsqmd.com/news/342940/

相关文章:

  • 初入人间
  • 2026全网硬核测评:5款论文降AI率工具深度横评(附免费降AI/去AI味保姆级教程)
  • 在我将要被豆包们替代之际,它这样指导我转型
  • 开发PPT模板快速调用工具,分类存储常用PPT模板,图表,输入主题快速匹配模板,一键插入,支持自定义模板,提升PPT制作效果。
  • 甜椒叶病害数据集
  • Claude Code From 0 to 1
  • 无人机数据集汇总无人机拍摄各个方面检测分割数据集合集
  • 可用于近红外光谱数据分析的网上公开数据集
  • 2026 年了,为什么你的 Mac 还是逃不过“磁盘焦虑”?CleanDiskGo 深度剖析
  • emacs. verilog mode guide, example
  • 设计一个基于51单片机(STC89C52RC)的技术系统,通过INT0外部中断检测按钮按下次数,并在单只共阴极数码管上实时显示计数值(范围0~9,超过九则清零,重新计数)...如何实现?
  • 什么是铪材?核心特性是什么?主要应用在哪些领域 - 非研科技
  • AI应用架构师经验谈:AI辅助数据分析的团队协作效率提升法,洞察共享机制
  • AI Agent 框架探秘:拆解 OpenHands(6)--- 事件系统
  • FastAPI系列(20):ORM添加表记录
  • 远程桌面方案全对比:RDP/VNC/Parsec怎么选 - 指南
  • 2026首发版,自学AI大模型的正确顺序:最新最全学习路线全解析
  • 如何用Agentic AI 提升客户服务质量?提示工程架构师的5个技巧
  • stm32的ADC模块在进行单通道ADC测量时,悬空接地电压在OLED显示屏上显示为3.3V,而不是实际的电压值,如何解决?
  • LiveChart2踩过的坑
  • AI产品经理深度转型指南!
  • RAG上下文构建完全指南:从召回策略到最佳实践,一篇搞定!建议收藏
  • ModelEngine智能编排:构建下一代AI驱动的创新应用生态
  • 初学go - 2 - 文件
  • 用 Hashids 优雅解决 C 端自增 ID 暴露问题
  • ue metahuman自动绑定
  • 全球股市估值与脑机接口在情绪管理中的应用
  • MegaFlow:大模型时代Agent训练的分布式编排系统详解
  • 大模型RAG管道优化:“过度设计“的邻居扩展策略是否真的有效?
  • 华为OD技术面真题 - Mysql相关 - 4