当前位置：首页 > news >正文

LLM中间层计算：为何不涉+1位置激活？

news 2026/6/23 21:26:00

激活向量在LLM 中间层的计算中，输出结果有没有+1位置进行计算

目录

- 激活向量在LLM 中间层的计算中，输出结果有没有+1位置进行计算
- - 一步步推演：生成第7个输出字的全过程
  - - 第1轮：生成第1个输出字
    - 第2轮：生成第2个输出字
    - 第3轮：生成第3个输出字
    - 第4~6轮：以此类推
    - 第7轮：生成第7个输出字（就是你问的场景）
  - 一句话总结
  - 分场景详细说明
  - - 1. 自注意力层：因果掩码严格屏蔽“+1及以后位置”
    - 2. 位置编码：索引按+1递增，但不在中间层做偏移
    - 3. 容易混淆的“位置+1”场景（不属于中间层激活计算）
    - 4. 例外：非因果编码器模型

我们用“模型逐字造句”的生活化例子来讲，全程只记一条核心规则：
模型只能看见已经给它的字，靠最后一个字的计算结果，猜出下一个字。

一步步推演：生成第7个输出字的全过程

我们把每一轮的「输入内容」「中间层数据」「输出结果」对应清楚：

第1轮：生成第1个输出字

输入给模型：只有1个“开始标记”（相当于告诉模型“可以造句了”）
中间层数据：只有1份（对应这个开始标记）
模型输出：第1个字，比如“我”

第2轮：生成第2个输出字

把刚生成的“我”拼回输入，现在输入共2个内容：开始标记、我
中间层数据：有2份（分别对应开始标记、“我”）
模型输出：第2个字，比如“今”

第3轮：生成第3个输出字

输入变成：开始标记、我、今（共3个）
中间层数据：有3份
模型输出：第3个字，比如“天”

第4~6轮：以此类推

每一轮都把上一轮的输出字拼进输入，输入多1

http://www.jsqmd.com/news/1069232/

相关文章：

网贷催收维权场景实测，复盘法务数字人 C 端落地实用性

终极指南：5步快速解锁中兴光猫工厂模式，获取永久Telnet权限

网盘直链下载助手：5分钟告别限速，实现免客户端高速下载

WarcraftHelper魔兽辅助工具：解决经典游戏在现代电脑上的兼容性问题

StringBuilder vs StringBuffer：2026年还需要线程安全字符串吗？

2026年永康木门十大品牌，谁才是真专业？

C#：正则表达式与有限性验证

软件许可证不够用怎么办？试试“许可复用“，一份许可多人干活

微信聊天记录删了还能恢复吗？官方免费方法 + 专业第三方恢复渠道详解

GEO优化实战指南：外贸独立站AI搜索可见性提升方案

计算机毕业设计之jsp广金二手竞价交易系统

Strix Halo 架构下运行大模型的能效比分析

如何高效使用B站购票自动化工具：biliTickerBuy完整实战指南

ViGEmBus内核级虚拟设备驱动技术架构深度解析

Nature 绘图复现 | 基因家族散点图

计算机毕业设计之二手电脑配件网站

BetterNCM Installer II终极指南：3分钟快速安装网易云音乐插件管理器

Switch手柄PC适配技术深度解析：用BetterJoy解锁任天堂硬件的完整潜能

免费终极MP4视频修复指南：3分钟拯救损坏的视频文件

如何实现嵌入式系统数据实时监控：开源串口可视化工具深度解析

SMT换线效率瓶颈分析：从“人找料“到“料找人“的工程实践

半导体核心零部件突围：国产精密阀门技术迭代与产业落地新进程

儿童乐园线上门店榜单诊断SOP

PUBG压枪秘籍：用罗技鼠标宏轻松驯服后坐力

本地生活门店回头客榜的运营诊断模型

Ai Three.js编辑器

三月七小助手：每天为你节省2小时游戏时间的崩坏星穹铁道自动化工具

DBCO-PEG-SH 巯基聚乙二醇二苯并环辛炔 Thiol-PEG-DBCO 储存条件与保存管理

5分钟搞定3DS游戏格式难题：3dsconv转换工具终极指南

Wand-Enhancer：终极免费解锁Wand专业版功能的完整指南