当前位置：首页 > news >正文

从‘词向量搬家’到‘关系运算’：动手用NumPy模拟Transformer的QKV计算全过程（附代码）

news 2026/5/1 12:34:36

从词向量到关系运算：用NumPy拆解Transformer的QKV核心机制

当你第一次听说"自注意力机制"时，是否也被那些神秘的Q、K、V字母搞得一头雾水？作为Transformer架构的核心，QKV计算远不止是几个矩阵乘法那么简单。让我们暂时抛开那些抽象的理论推导，直接动手用NumPy从零构建整个过程——你会惊讶地发现，原来那些看似复杂的向量运算，本质上是在进行一场精妙的"词向量搬家"游戏。

1. 准备词向量：语言的空间化表达

想象一下，如果每个词都能在三维空间中找到自己的位置，"中国"可能位于(3,6,10)，而"熊猫"在(2,5,9)附近。这就是词向量的魔力——将离散的符号转化为连续的数学对象。在实际应用中，维度通常高达512或768，但为了演示，我们先用3维空间：

import numpy as np # 定义句子："中国的熊猫很可爱" vocab = { "中国": np.array([3, 6, 10]), "的": np.array([1, 1, 1]), "熊猫": np.array([2, 5, 9]), "很": np.array([1, 2, 1]), "可爱": np.array([0, 8, 3]) } sentence = ["中国", "的", "熊猫", "很", "可爱"] X = np.stack([vocab[word] for word in sentence]) # 形状(5,3)

词向量的关键特性：

语义相近的词距离更近（如"中国"与"熊猫"）
向量方向蕴含语法关系（如"中国"→"熊猫"可能代表"拥有"关系）
位置编码会保留单词顺序信息（此处简化为静态向量）

提示：真实场景中词向量通过Embedding层学习得到，这里我们手动定义是为了更直观地观察变化

2. QKV变换：为词向量赋予多重身份

每个词向量现在要扮演三个不同角色：查询者(Query)、被查询者(Key)和值载体(Value)。这通过三个独立的线性变换实现：

np.random.seed(42) d_model = 3 # 原始词向量维度 d_k = 2 # QK空间维度（通常小于d_model） # 初始化变换矩阵 WQ = np.random.randn(d_model, d_k) * 0.1 WK = np.random.randn(d_model, d_k) * 0.1 WV = np.random.randn(d_model, d_model) * 0.1 # 计算Q,K,V Q = X @ WQ # 查询矩阵 (5,2) K = X @ WK # 键矩阵 (5,2) V = X @ WV # 值矩阵 (5,3)

为什么需要三个矩阵？

Q：代表当前词的"提问"（如"中国"想知道："谁与我相关？"）
K：代表其他词的"应答"（如"熊猫"回答："我与你相关度是0.8"）
V：携带实际要传递的信息（如"熊猫"携带的语义内容）

3. 注意力分数：词与词的"社交网络"

计算注意力分数本质上是建立词与词之间的关联图谱。点积运算衡量Q与K的匹配程度：

attn_scores = Q @ K.T / np.sqrt(d_k) # 形状(5,5) print("原始注意力分数：\n", attn_scores.round(2)) # 应用Softmax归一化 def softmax(x): exp_x = np.exp(x - np.max(x, axis=-1, keepdims=True)) return exp_x / np.sum(exp_x, axis=-1, keepdims=True) attn_weights = softmax(attn_scores) print("\n注意力权重：\n", attn_weights.round(2))

示例输出可能显示：

注意力权重： [[0.45 0.12 0.3 0.08 0.05] [0.2 0.2 0.2 0.2 0.2 ] [0.25 0.1 0.4 0.15 0.1 ] [0.1 0.1 0.1 0.5 0.2 ] [0.15 0.05 0.1 0.3 0.4 ]]

解读注意力模式：

"中国"最关注"熊猫"（权重0.3）
"可爱"主要关注自身和"很"（自我强化）
停用词"的"呈现均匀分布（符合预期）

4. 加权合成：关系向量的动态组合

现在，我们将注意力权重作用于V矩阵，完成信息的动态重组：

Z = attn_weights @ V # 形状(5,3) print("\n注意力输出：\n", Z.round(2)) # 残差连接（原始信息保留） Z += X

V矩阵的本质：

不是简单的词向量拷贝，而是学习到的"关系传递器"
每个V向量像是一个"语义插件"，可以增强或修正原始词向量
残差连接确保不会丢失原始信息（梯度流动更顺畅）

5. 可视化解析：追踪向量空间的变化

让我们用Matplotlib观察"中国"一词的演变过程：

import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D fig = plt.figure(figsize=(15,5)) # 原始词向量 ax1 = fig.add_subplot(131, projection='3d') for i, word in enumerate(sentence): ax1.scatter(*X[i], color='r') ax1.text(*X[i], word) ax1.set_title('初始词向量') # 注意力权重 ax2 = fig.add_subplot(132) im = ax2.imshow(attn_weights, cmap='Reds') ax2.set_xticks(range(len(sentence))) ax2.set_xticklabels(sentence) ax2.set_yticks(range(len(sentence))) ax2.set_yticklabels(sentence) ax2.set_title('注意力热力图') # 输出向量 ax3 = fig.add_subplot(133, projection='3d') for i, word in enumerate(sentence): ax3.scatter(*Z[i], color='g') ax3.text(*Z[i], word) # 绘制从X到Z的箭头 ax3.quiver(*X[i], *(Z[i]-X[i]), color='b', arrow_length_ratio=0.1) ax3.set_title('输出向量（蓝色箭头表示变化）') plt.tight_layout() plt.show()

关键观察点：

"中国"向量向"熊猫"方向移动（语义关联）
"可爱"向量长度增加（情感强度强化）
"的"几乎保持不变（功能词无需调整）

6. 扩展实践：多头注意力与层叠

真实的Transformer会使用多头注意力机制，让我们实现一个简化版：

n_heads = 2 head_dim = d_model // n_heads # 分割到多个头 def split_heads(x): return x.reshape(x.shape[0], n_heads, head_dim) Q_heads = split_heads(Q @ WQ_multi) # WQ_multi形状为(d_model, d_model) K_heads = split_heads(K @ WK_multi) V_heads = split_heads(V @ WV_multi) # 每个头独立计算注意力 attn_outputs = [] for h in range(n_heads): attn_h = softmax(Q_heads[:,h] @ K_heads[:,h].T / np.sqrt(head_dim)) attn_outputs.append(attn_h @ V_heads[:,h]) # 合并多头输出 Z_multi = np.concatenate(attn_outputs, axis=-1) # 形状(5,3)

多头机制的优势：

不同头可以捕捉不同类型的关系（如语法vs语义）
扩展了模型的表示能力
并行计算效率高

7. 工程实践中的关键细节

在实际项目中，有几个容易忽视但至关重要的实现细节：

缩放点积的数学原理：

# 错误的缩放方式（会导致梯度消失） attn_scores = Q @ K.T / d_k # 正确的缩放（保持方差稳定） attn_scores = Q @ K.T / np.sqrt(d_k)

注意力掩码的实现：

# 解码器的自回归掩码 mask = np.triu(np.ones((len(sentence), len(sentence))), k=1) attn_scores = attn_scores - 1e9 * mask

数值稳定的Softmax：

def safe_softmax(x): x = x - np.max(x, axis=-1, keepdims=True) exp_x = np.exp(x) return exp_x / np.sum(exp_x, axis=-1, keepdims=True)

在BERT等模型中，QKV计算通常占整体计算量的40%以上。通过分析中间变量的内存占用，我们发现：

张量名称	形状	内存占比
Q/K矩阵	(seq_len, d_k)	25%
注意力权重	(seq_len, seq_len)	45%
V矩阵	(seq_len, d_model)	30%

这解释了为什么许多优化工作聚焦于稀疏注意力或低秩近似——当序列长度达到1024时，注意力权重的(1024,1024)矩阵会成为显存瓶颈。

查看全文

http://www.jsqmd.com/news/731617/

5分钟掌握VinXiangQi：深度学习象棋连线工具终极指南

InfiniDepth：基于神经隐式场的任意分辨率深度估计技术

如何永久保存你的微信聊天记录？免费本地工具WeChatMsg完整指南

Orama Core：纯JS全文与向量混合搜索引擎实战指南

怎么节省 AI 应用开发成本 ——4sapi 实战：1 小时搭建多模态电商商品智能审核系统

在 Ubuntu 服务器上快速配置 Taotoken 的 OpenAI 兼容 API 调用环境

别再只盯着TJA1021了！聊聊LIN收发器选型：从单通道到四通道，不同项目怎么选？

Pearcleaner：让你的Mac焕然一新的终极清理工具指南

基于freertos下wifi模块的socket封装(一，网络篇)

OpenCore Legacy Patcher终极指南：四步让老旧Mac焕发新生的完整教程

用友U8 V18供应商调价单异常.

微信聊天记录永久保存完整指南：WeChatMsg让你的数字记忆永不丢失

LinkSwift：八大网盘直链下载助手终极指南，免费提升下载效率300%

抖音评论采集终极指南：3分钟获取完整评论数据，无需编程经验

英雄联盟玩家的终极效率革命：League Akari 开源工具完整指南

终极指南：5步快速解决ComfyUI ControlNet Aux的DWPose ONNX运行时错误

2026年护理学论文降AI工具免费推荐：临床护理研究达标率99%实测数据

如何用Unlock-Music免费解锁加密音乐文件：小白也能懂的终极指南

Visual C++运行库终极修复指南：3分钟解决所有软件启动问题 [特殊字符]

LC VCO设计避坑指南：为什么你的振荡器不起振、相位噪声差？（深入分析尾电流源与无尾结构）

如何用VirtualMonitor虚拟显示器打破单屏局限，提升3倍工作效率？[特殊字符]

【产品底稿 10】从空白首页到技术资产看板 ——AI 10 分钟快速落地数据可视化实战

终极指南：如何一键重置Navicat macOS版14天试用期限制

终极QMC音频解密教程：3步解锁QQ音乐加密格式

别再手动敲命令了！用OpenSSL一键生成自签名证书的保姆级脚本（附Windows/Linux/Mac通用版）

如何用Python零成本获取全球金融数据？开源工具AKShare完整指南

Terraform核心工作流与状态管理实战指南

如何通过 Python 快速接入 Taotoken 并调用 OpenAI 兼容大模型

企业研发与IT部门如何合法合规访问海外AI应用

2026年盾构机公司权威发布榜，盾构配件/盾构机盾尾刷/盾构机易损件/盾构密封配件 - 品牌策略师