当前位置: 首页 > news >正文

扩散模型中的注意力机制实现详解:从Self-Attention到Cross-Attention的代码解析

扩散模型中的注意力机制都是怎么实现的?

一、Diffusers中的注意力机制实现

diffusers中U-Net的注意力机制实现主要是UNet2DConditionModel这个类,通过在特定的下采样、中间和上采样阶段加入CrossAttnDownBlock2D类的模块,从而实现注意力层的加入。

这些模块内部的核心单元是Transformer2DModel,它负责把输入的2D特征图转换成序列形式。而在最底层的BasicTransformerBlock中,通常包含了两层注意力:

  • • 第一层是处理图像内部关系的self-attention(代码中通常叫attn1);
  • • 第二层则是融合文本条件的cross-attention(代码中通常叫attn2),这两者在代码层面都由Attention类定义,并将具体的计算逻辑委托给AttnProcessor来执行。

二、Self-Attention的实现

关于self-attention的实现,其核心目的是建模图像不同部分之间的correlation,从而捕捉全局结构上的关联。

diffusers的官方代码中,self-attention的实现如下:

query = attn.to_q(hidden_states)
encoder_hidden_states = hidden_states
key = attn.to_k(encoder_hidden_states)
value = attn.to_v(encoder_hidden_states)

query = attn.head_to_batch_dim(query)
key = attn.head_to_batch_dim(key)
value = attn.head_to_batch_dim(value)

attention_scores = torch.baddbmm(
torch.empty(…), query, key.transpose(-1, -2), alpha=attn.scale
)
attention_probs = attention_scores.softmax(dim=-1)

hidden_states = torch.bmm(attention_probs, value)

由于是自注意力,query、key和value都是输入图像特征`hidden_states`的投影。大致的逻辑是:首先通过`to_q`、`to_k`、`to_v`线性层将`hidden_states`映射到特征空间,然后通过`head_to_batch_dim`操作将head维度折叠进batch维度,剩下的就是标准attention中的计算了——attention weights、softmax归一化、加权到value上。 从数学角度看,上面代码的过程如下: 1. 1. 形状原本都是,经过`head_to_batch_dim`的操作后变为的张量形式; 2. 2. 计算注意力分数为:,得到的是一个的矩阵; 3. 3. 通过将attention weights整合到value上; 4. 4. 经由`batch_to_head_dim`还原维度,并通过输出投影层,结束self-attention的计算过程。 三、Cross-Attention的实现 ==================== 在代码实现上,cross-attention复用了与self-attention完全相同的`AttnProcessor`逻辑,唯一的区别在于key和value的来源。 在`attn2`的前向传播中,`encoder_hidden_states`不再是None,而是传入了由CLIP编码好的text embedding(记形状为)。 ```plaintext 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 # From image feature query = attn.to_q(hidden_states) # From text encoder key = attn.to_k(encoder_hidden_states) value = attn.to_v(encoder_hidden_states) query = attn.head_to_batch_dim(query) key = attn.head_to_batch_dim(key) value = attn.head_to_batch_dim(value) attention_scores = torch.baddbmm(..., query, key.transpose(-1, -2), alpha=attn.scale) attention_probs = attention_scores.softmax(dim=-1) hidden_states = torch.bmm(attention_probs, value)

这里的交互过程产生了一个的注意力矩阵(),它表示了图像特征中每一个位置与text prompt中每一个token的关联程度。

最后唠两句

为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选

很简单,这些岗位缺人且高薪

智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

那0基础普通人如何学习大模型 ?

深耕科技一线十二载,亲历技术浪潮变迁。我见证那些率先拥抱AI的同行,如何建立起效率与薪资的代际优势。如今,我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理,分享于此,为你扫清学习困惑,共赴AI时代新程。

我整理出这套 AI 大模型突围资料包【允许白嫖】:

  • ✅从入门到精通的全套视频教程

  • ✅AI大模型学习路线图(0基础到项目实战仅需90天)

  • ✅大模型书籍与技术文档PDF

  • ✅各大厂大模型面试题目详解

  • ✅640套AI大模型报告合集

  • ✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(0基础到项目实战仅需90天)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

http://www.jsqmd.com/news/345837/

相关文章:

  • 高温DC-DC模块如何塑造现代测井仪器架构
  • 建议收藏:一文搞懂Transformer自注意力机制:从Q/K/V到点积相似度
  • 它把客户分层,打得比CRM还细
  • 内网环境部署
  • 2026陕西厨房工程优选指南:3大实力品牌出圈,商用厨电配套一站式落地 - 朴素的承诺
  • 大模型预训练数据选择全攻略:6大策略提升模型性能与效率
  • 2026 年企业绩效新范式:复盘与调优闭环系统化实施手册
  • HarmonyOS 自定义组件与布局实践
  • 苏州工业园区的“老朋友”:奥维奥以SAP代理商身份,深耕外企精细化服务
  • 【计算机视觉】Python 验证码图片分割:基于 OpenCV 的字符区域提取实现 - 详解
  • SAP化工行业解决方案:以数字化赋能,破解化工企业运营痛点
  • 打造基于51单片机的家居空气质量监测系统
  • 分享实力强的政府采购合规与争议解决律师团队哪家好 - myqiye
  • 2026年中国遗嘱继承律所联系电话推荐:规划传承安心之选 - 品牌推荐
  • 智能化家具设计智能床上桌
  • 2026年哈尔滨口碑好的汽车音响品牌推荐,九号音乐汽车音响音质表现揭秘 - 工业推荐榜
  • 2026年中国遗产继承律师联系电话推荐:全国范围服务指南 - 品牌推荐
  • 智能化技术在电气工程自动化中的应用研究
  • 2026年中国遗产继承律师联系电话推荐:全国范围服务律师汇总 - 品牌推荐
  • 2026年武汉优质少儿美术培训机构深度评估与推荐 - 2026年企业推荐榜
  • 飞算JavaAI如何提升重塑Java开发体验
  • 合肥家用家具定制公司价格哪家合理、家用家具生产厂家选择哪家好? - 界川
  • 2026年中国化工原料公司发布:以四川浙宇科技为代表的标杆企业深度解析 - 十大品牌推荐
  • 智能化打蛋器设计
  • MyEMS开源能源管理系统:赋能化学药品原料药制造业绿色低碳转型
  • 2026年乌鲁木齐装修公司推荐:新房装修/别墅装修/装修价格/ 装修全包/装修质量服务精选 - 品牌推荐官
  • Wi-Fi CERTIFIED车载解决方案 - 教程
  • 智能化圈舍组态设计
  • 从基础到进阶:AI 在 HR 工作中的典型应用场景梳理
  • 哈希表