当前位置: 首页 > news >正文

大模型中间层如何涌现事实知识

中间层"有没有概率"?

目录

  • 中间层"有没有概率"?
    • 严格说:**中间层本身没有概率,但可以"强行造出"概率**
    • 二、形象比喻:模型像"逐层修正答案"的学生
    • 三、具体例子:`"The capital of France is"`
    • 四、关键观察(为什么 DoLa 能成立)
    • 五、自己可以跑的最小代码(GPT-2,~5 行核心逻辑)
    • 六、不同模型上"事实涌现"的层位置(经验值)
    • 总结

严格说:中间层本身没有概率,但可以"强行造出"概率

LLM 一次前向计算的产物,分两类:

真正产出是不是概率?
中间每一层 (hidden_l)隐向量[B, T, H],比如 H=4096❌ 不是概率,只是一组实数
最终层 →lm_headsoftmax词表分布[B, T, V]✅ 真概率

所以中间层原生没有概率。但因为所有层的 hidden state 都和最终层在同一个表示空间里(残差流,residual stream),我们可以人为地把它送进同一个lm_head,得到"假如解码就停在第 l 层,下一个 token 会是什么"的分布。

这套技巧叫:

Logit Lens(nostalgebraist, 2020)—— 把每一层

http://www.jsqmd.com/news/1099186/

相关文章:

  • 深入解析MySQL SQL执行全流程:从连接器到存储引擎的完整生命周期
  • Golang SQL注入防御:从参数化查询到纵深安全实践
  • 如何免费解锁加密音乐文件:Unlock-Music完整指南
  • 账号别只看粉丝
  • 【VMware虚拟机硬盘扩容权威指南】:20年运维专家亲授3种零风险添加新硬盘方法(附避坑清单)
  • NestJS静态资源访问避坑指南:如何正确配置useStaticAssets让你的上传图片能被前端访问到
  • 如何免费快速搞定音频格式转换?FlicFlac终极指南帮你3分钟解决问题!
  • 何为实战派AI落地培训?任务驱动式AI特训营完整体系拆解
  • 从 Hugging Face 到生产集群:开源模型部署的全链路实战
  • Vue项目中二维码生成的架构选择与实践方案
  • 从提示工程到上下文工程:2026年AI开发者的核心技能转换
  • 别再为CDC问题熬夜了!手把手教你用SpyGlass从零搭建RTL检查环境(附避坑清单)
  • 3步让Mac M系列芯片完美运行Attu:从“已损坏“到流畅体验的技术揭秘
  • 选题开题毫无头绪?okbiye AI 开题模块一站式搞定高校开题全流程
  • 终极抖音批量下载工具:3分钟掌握无水印内容采集技巧
  • 别再只会插风扇了!手把手教你读懂主板4针接口的PWM调速电路(附PCB设计要点)
  • 2026年国内口碑好的电力测功机销售厂家,究竟有哪些值得关注?
  • 毕业论文开题难下笔?okbiye 专属开题 AI 模块,按院校标准一站式搞定开题全流程
  • 2026年6月最新全球TOP5小程序商城开发工具盘点!含零代码SAAS、AI编程、源码定制
  • 深度解析:EfficientNet-PyTorch - 高效图像分类模型的完整技术指南
  • 芯片测试效率翻倍:手把手教你用Mentor DFT的Scan Pattern Retargeting合并多核pattern
  • Outfit字体:9种字重免费商用,打造品牌视觉的几何无衬线字体
  • 如何选择跨平台文本编辑器:Notepad--的完整指南
  • 本地办公 AI 智能体 OpenClaw 搭建流程,适配 Win11 全机型(含安装包)
  • 如何免费搭建个人音乐库:LX Music Desktop的完整使用指南
  • 2026企业级多模型聚合网关实测排行|模型调度、合规、成本全维度选型解析
  • CAIWY 采购知识库(六)
  • 【极速入门数模电路】CMOS推挽原理、TTL/CMOS电平详解、七大基础逻辑门
  • BetterNCM安装器终极指南:3分钟解锁网易云音乐的无限可能 [特殊字符]
  • RT-Thread实战:从零开始用消息队列和信号量搞定多线程通信(附代码)