当前位置: 首页 > news >正文

LLM中间层计算:为何不涉+1位置激活?

激活向量在LLM 中间层的计算中,输出结果有没有+1位置进行计算

目录

    • 激活向量在LLM 中间层的计算中,输出结果有没有+1位置进行计算
      • 一步步推演:生成第7个输出字的全过程
        • 第1轮:生成第1个输出字
        • 第2轮:生成第2个输出字
        • 第3轮:生成第3个输出字
        • 第4~6轮:以此类推
        • 第7轮:生成第7个输出字(就是你问的场景)
      • 一句话总结
      • 分场景详细说明
        • 1. 自注意力层:因果掩码严格屏蔽“+1及以后位置”
        • 2. 位置编码:索引按+1递增,但不在中间层做偏移
        • 3. 容易混淆的“位置+1”场景(不属于中间层激活计算)
        • 4. 例外:非因果编码器模型

我们用“模型逐字造句”的生活化例子来讲,全程只记一条核心规则:
模型只能看见已经给它的字,靠最后一个字的计算结果,猜出下一个字。


一步步推演:生成第7个输出字的全过程

我们把每一轮的「输入内容」「中间层数据」「输出结果」对应清楚:

第1轮:生成第1个输出字
  • 输入给模型:只有1个“开始标记”(相当于告诉模型“可以造句了”)
  • 中间层数据:只有1份(对应这个开始标记)
  • 模型输出:第1个字,比如“我”
第2轮:生成第2个输出字
  • 把刚生成的“我”拼回输入,现在输入共2个内容:开始标记、我
  • 中间层数据:有2份(分别对应开始标记、“我”)
  • 模型输出:第2个字,比如“今”
第3轮:生成第3个输出字
  • 输入变成:开始标记、我、今(共3个)
  • 中间层数据:有3份
  • 模型输出:第3个字,比如“天”
第4~6轮:以此类推

每一轮都把上一轮的输出字拼进输入,输入多1

http://www.jsqmd.com/news/1069232/

相关文章:

  • 网贷催收维权场景实测,复盘法务数字人 C 端落地实用性
  • 终极指南:5步快速解锁中兴光猫工厂模式,获取永久Telnet权限
  • 网盘直链下载助手:5分钟告别限速,实现免客户端高速下载
  • WarcraftHelper魔兽辅助工具:解决经典游戏在现代电脑上的兼容性问题
  • StringBuilder vs StringBuffer:2026年还需要线程安全字符串吗?
  • 2026年永康木门十大品牌,谁才是真专业?
  • C#:正则表达式与有限性验证
  • 软件许可证不够用怎么办?试试“许可复用“,一份许可多人干活
  • 微信聊天记录删了还能恢复吗?官方免费方法 + 专业第三方恢复渠道详解
  • GEO优化实战指南:外贸独立站AI搜索可见性提升方案
  • 计算机毕业设计之jsp广金二手竞价交易系统
  • Strix Halo 架构下运行大模型的能效比分析
  • 如何高效使用B站购票自动化工具:biliTickerBuy完整实战指南
  • ViGEmBus内核级虚拟设备驱动技术架构深度解析
  • Nature 绘图复现 | 基因家族散点图
  • 计算机毕业设计之二手电脑配件网站
  • BetterNCM Installer II终极指南:3分钟快速安装网易云音乐插件管理器
  • Switch手柄PC适配技术深度解析:用BetterJoy解锁任天堂硬件的完整潜能
  • 免费终极MP4视频修复指南:3分钟拯救损坏的视频文件
  • 如何实现嵌入式系统数据实时监控:开源串口可视化工具深度解析
  • SMT换线效率瓶颈分析:从“人找料“到“料找人“的工程实践
  • 半导体核心零部件突围:国产精密阀门技术迭代与产业落地新进程
  • 儿童乐园线上门店榜单诊断SOP
  • PUBG压枪秘籍:用罗技鼠标宏轻松驯服后坐力
  • 本地生活门店回头客榜的运营诊断模型
  • Ai Three.js编辑器
  • 三月七小助手:每天为你节省2小时游戏时间的崩坏星穹铁道自动化工具
  • DBCO-PEG-SH 巯基聚乙二醇二苯并环辛炔 Thiol-PEG-DBCO 储存条件与保存管理
  • 5分钟搞定3DS游戏格式难题:3dsconv转换工具终极指南
  • Wand-Enhancer:终极免费解锁Wand专业版功能的完整指南