当前位置: 首页 > news >正文

大语言模型并非所有层都必要

大语言模型真的需要所有这些层吗?

研究发现,70%的注意力头和20%的前馈网络可以被剔除,而对上下文学习的影响极小,这表明大语言模型训练不足。

作者:Karthik Gopalakrishnan,2023年7月9日,阅读时间3分钟

大语言模型(LLM)已经存在一段时间了,但今年随着ChatGPT的出现,它们真正吸引了公众的注意。LLM通常在海量数据上进行预训练;最近的变体还额外进行了指令微调,并利用强化学习融入人类反馈。这些LLM展现出的一个迷人能力是上下文学习:模型仅需遵循与新输入一起提供的几个(有时甚至零个)优秀示例,就能学会执行一项任务。遵循这种学习范式,在预训练数据量固定的情况下,更大的LLM也被证明比较小的模型更有能力执行更广泛的任务。

在提交给本年度计算语言学协会(ACL)会议的论文中,从架构可解释性的角度研究了模型规模对上下文学习的重要性。具体提出的问题是:执行上下文学习是否真的需要LLM的所有组件?

总体的观察结果是,似乎只有核心的一小部分注意力头和FFN对上下文学习是重要的,这表明OPT-66B以及很可能其他主流LLM都训练不足。这也印证了近期一些质疑在模型规模扩大时保持预训练数据量固定这一做法的研究,表明预训练数据量必须与模型本身同步扩展才能达到最优性能。观察研究发布后出现的新版LLM(例如那些经过指令微调的模型)在此类分析中的表现,将会非常有趣。


研究领域:对话式AI,机器学习

标签:大语言模型 (LLMs)FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/588127/

相关文章:

  • 免费电脑重启还原工具
  • 零中频接收机设计避坑指南:从IQ信号处理到链路预算,这些细节ADS仿真时千万别忽略
  • 4月3日打卡
  • 鼠标连点效率革命:MouseClick智能自动化工具全解析
  • C# ArrayList
  • 魔因漫创 Moyin Creator
  • 智慧桥梁裂缝缺陷检测识别 桥梁结构健康监测、自动化巡检、安全隐患预警桥梁裂缝识别 图像数据集第10638期
  • Cursor AI 开发环境配置:告别依赖冲突,用 Conda 虚拟环境管理你的数据科学项目
  • Serverless社区
  • DNF 下载 RPM 依赖包及忽略特定依赖的方法
  • 用lazarus封装了linux的rsync
  • 成都拉布灯箱技术白皮书:2026年户外广告新趋势解析
  • TimescaleDB实战:5分钟搞定物联网传感器数据存储与查询(附Grafana配置)
  • 2026鸿蒙应用开发Kuikly:驱动高效落地的核心实践
  • Buildroot与Qt5的X11VNC集成:解决EGLFS与XCB插件冲突的实践指南
  • 如何快速构建微信视频号直播数据管道:5大核心特性深度解析
  • ToonFlow
  • PLC控制四轴攻丝机全伺服工程案例(含接线图):附带启动停止原点定位等控制指令详解及文本屏即用程序
  • python_获取飞书审批数据
  • 可独立部署的健身饮食管理推荐:wger,Docker一键安装部署教程
  • 计算机网络 之 【TCP协议】(面向字节流、TCP异常情况、保活机制、文件与Socket的关系、网络协议栈的本质)
  • 深度解析ComfyUI-Easy-Use中Flux采样器Guidance参数的技术实现与优化策略
  • 音频转换神器fre:ac:让无损音乐管理更简单
  • 手把手教你拆解Coze‘城市觉醒’工作流:从提示词工程到插件调用的保姆级避坑指南
  • 腾讯上线小程序版 Agent[特殊字符],微信文件直接甩给 AI,还能操控家里电脑
  • 实战派】COMSOL土石坝滑坡模拟:手把手带你看懂网格变形骚操作
  • 串口函数配置表
  • 2026年穿墙螺杆生产厂家联系方式,丝杠/钢板止水带/止水钢板/不锈钢止水钢板/u型丝预埋件,穿墙螺杆源头厂家哪家好 - 品牌推荐师
  • 2026高考志愿填报核心技巧深度解析——一线实战视角全揭秘
  • 3步打造waifu2x-caffe轻量化部署方案:图像增强绿色版打包全流程