当前位置：首页 > news >正文

人工智能|大白话Meshed-Memory Transformer

news 2026/6/16 5:38:10

🌞欢迎来到人工智能的世界
🌈博客主页：卿云阁
💌欢迎关注🎉点赞👍收藏⭐️留言📝
📆首发时间：🌹2026年4月27日🌹
✉️希望可以和大家一起完成进阶之路！
🙏作者水平很有限，如果发现错误，请留言轰炸哦！万分感谢！
目录
整体结构
细节模块
整体描述
骨干编码器提取图像特征
记忆增强编码器给特征 “加 buff”
网格解码器把特征 “翻译成文字”
多头自注意力（MSA）是什么
多头自注意力（MSA）
记忆增强编码器
网格解码器

整体结构

M2Transformer的整体框架，其实就分三部分，很好记：骨干编码器（Backbone Encoder）、记

忆增强编码器（Memory-Augmented Encoder）和网格解码器（Meshed Decoder）。

其中骨干编码器，用的是Faster R-CNN，它的核心活儿就是“看图片、抓重点”——提取图像里各

个区域的特征，咱们结合“小狗在草地上追蝴蝶”的实例，说清它的输入和输出：输入就是原始的图

像（也就是这张“小狗追蝴蝶”的原图，未经任何处理的像素画面，张量大小通常为[3, H, W]，其中

3代表RGB三通道，H、W分别是图像的高度和宽度，比如常见的[3, 640, 640]）；输出就是图像的

区域特征张量，简单说就是能识别出图里“小狗”“草地”“蝴蝶”这几个关键区域，还能提取出它们的

基础特征（比如小狗是毛茸茸的、蝴蝶是有翅膀的），把这些特征转换成模型能识别的数值形式，

供下一部分使用，输出张量大小通常为[N, C]，N是提取到的区域数量（比如这里识别出3个区域，

N=3），C是特征维度（常用2048维，即C=2048，张量大小为[3, 2048]）。

然后是记忆增强编码器和网格解码器，这俩用的都是Transformer结构，相当于模型的“大脑”部分，

咱们分别说它们的输入输出，还是用刚才的图片举例。先看记忆增强编码器：它可以理解成是骨干

编码器的“延伸助手”，输入就是上一步骨干编码器输出的区域特征张量（也就是小狗、草地、蝴蝶

的基础特征数值，张量大小和上一步输出一致，即[N, C] = [3, 2048]）；输出就是经过语义增强后

的特征张量——它不会重新提取特征，而是在基础特征上细化，比如区分出“小狗是黄色的拉布拉

多”“草地是绿油油的短草”“蝴蝶是彩色的菜粉蝶”，让这些区域的特征更精准、更有辨识度，相当于

给基础特征“加细节、提精度”，输出张量大小保持不变，仍为[N, C] = [3, 2048]，只是张量内的特

征数值更具针对性。

最后是网格解码器，它的核心任务就是“转文字”，输入就是记忆增强编码器输出的、经过语义增强

后的特征张量（也就是带有细节的小狗、草地、蝴蝶特征数值，张量大小为[N, C] = [3, 2048]）；

输出就是咱们能看懂的自然文本描述，同时会输出对应的文本张量，文本张量大小通常为[L, V]，L

是生成文本的长度（比如“一只黄色的拉布拉多小狗，在绿油油的草地上追逐着一只彩色的蝴蝶”这

句话，L≈20），V是词汇表大小（常用10000左右，即V=10000，张量大小为[20, 10000]）——还

是那张小狗追蝴蝶的图，它会结合前面的细化特征，生成一句完整的话，比如“一只黄色的拉布拉

多小狗，在绿油油的草地上追逐着一只彩色的蝴蝶”，这就是它的核心作用，把模型能识别的特征

数值，转换成人类能理解的文字。

细节模块

整体描述

骨干编码器提取图像特征

输入：一张普通的 RGB 图片 I（比如你拍的一张小狗照片）

操作：用 BackboneEncoder（比如 Faster R-CNN）处理图片

输出：一堆图像特征 X

这一步就像给图片 “打标签”，把图片里的物体（小狗、草地、背景）都找出来，提取它们的基础

特征（比如小狗的轮廓、草地的颜色），转换成模型能看懂的数字形式。

记忆增强编码器给特征 “加 buff”

输入：上一步提取的图像特征X

操作：用记忆增强编码器处理，输出 N 层不同的增强特征

网格解码器把特征 “翻译成文字”

输入：上一步 N 层增强后的图像特征

操作：用网格解码器处理

输出：生成的文本描述

多头自注意力（MSA）是什么

多头自注意力（MSA）

给 Key 和 Value “加上知识库

输入：图像特征X，以及可学习的记忆槽

操作：把图像本身的特征和记忆槽拼接起来

带记忆槽的多头自注意力计算

输入：图像特征X（用来生成 Query），上一步得到的 Key 和 Value（带记忆槽）

操作：做多头自注意力（MSA），再加上残差连接，最后做层归一化

前馈网络层

输入：上一步自注意力的输出(X')
操作：经过前馈网络（FeedForward），再加上残差连接和层归一化

FeedForward 层的细节

记忆增强编码器

记忆增强编码器由多个上述编码层结构按顺序堆叠组成，第 i 层的输出作为第 (i+1) 层的输入，相

当于创建了图像区域之间关系的多级编码，因此 N 个编码层的堆叠将产生 N 个输出作为图像的多

级区域特征。

网格解码器

网格解码器的前向流程

网格解码器使用已生成的单词以及记忆增强编码器输出的多级区域特征作为输入，流程如下：

门控权重的计算与核心创新

http://www.jsqmd.com/news/712391/

相关文章：

命令行输出桌面化：Clawtop工具的设计原理与实现

2026南充消防维保公司名录：蓬安消防检测公司、西充消防检测公司电话、西充消防维保公司推荐、阆中消防维保公司、仪陇消防检测公司电话选择指南 - 优质品牌商家

别再手动管理GPU了！用Determined AI搭建算力池，5分钟搞定PyTorch/TensorFlow分布式训练环境

L2MAC框架解析：基于动态规划的AI长文本生成原理与实践

CCC数字钥匙3.0标准详解：从BLE/UWB通信到安全芯片(SE)，一次讲清技术实现与选型

别再手动发邮件了！SAP ME23N采购订单自动发送PDF给供应商的保姆级配置（附ME9F监控）

体制内10个证书盘点：2026年哪些值得考？

基于ChatGPT与Python的自动化股票报告生成器实战

BRIDGE框架：单目深度估计的强化学习数据生成方案

开放空间鹦鹉智能体的行为建模与实现

告别‘configure失败’：手把手教你用arm-himix200v002交叉编译iperf 2.0.9

leecode 179. 最大数 medium

lvgl_v8之bar控件代码示例

ArcGIS Pro 3.0 里搞定天地图WMTS底图：从申请Key到拖拽显示的保姆级避坑指南

你的AI模型到底是准还是不准？——一个混淆矩阵说透四个评估指标

CVPR 2021 Point Transformer 保姆级复现教程：从零到一搞定点云自注意力模型

别再乱设H0和H1了！用Python实战案例帮你搞懂假设检验的底层逻辑

2026年宜宾同城搬家服务机构排行及联系方式参考：四川学校搬迁/四川家具拆装/四川居民搬家/四川拉货搬运/四川搬厂搬货/选择指南 - 优质品牌商家

DiT360全景图像生成技术解析与应用实践

LinkSwift：解锁八大网盘直链下载的终极解决方案

PyTorch实战：手把手教你将ConvLSTM嵌入UNet，搞定车道线时序预测（附完整代码）

Portarium：轻量级可视化端口与容器管理工具部署与使用指南

BitNet b1.58-2B-4T-GGUF开发者案例：GitHub PR描述自动生成+代码变更摘要

基于十二要素应用的智能体驱动架构：从单体到AI原生应用演进

量子联邦学习在ADAS中的创新应用与实战解析

Shellfirm：基于钩子机制的终端命令安全防护工具详解

【VS Code Copilot Next终极指南】：20年IDE专家亲授自动化工作流配置的5大避坑法则

巨人网络年营收50亿：同比增73% 扣非后净利21亿斥资20亿理财中东资本成第四大股东

PTR算法：机器人学习的自适应样本权重优化方法