当前位置: 首页 > news >正文

谷歌:强化学习实现参数化知识重组

📖标题:Improving Latent Generalization Using Test-time Compute
🌐来源:arXiv, 2604.01430v1

🌟摘要

语言模型(LM)表现出两种不同的知识获取机制:加权学习(即,在模型权重内编码信息)和上下文学习(ICL)。虽然这两种模式提供互补的优势,但权重学习经常努力促进内在知识的演绎推理。我们将这种限制描述为潜在泛化的缺陷,反向诅咒是其中的一个例子。相反,上下文学习展示了高度鲁棒的潜在泛化能力。为了从权重知识中改进潜在泛化,现有方法依赖于训练时间数据增强,然而这些技术是特定于任务的,可扩展性差,并且不能泛化到分布外的知识。为了克服这些缺点,这项工作研究了如何教会模型使用测试时计算,或“思考”,具体地说,是为了提高潜在泛化能力。我们使用来自正确性反馈的强化学习(RL)来训练模型,以产生长思想链(CoT)来提高潜在泛化能力。我们的实验表明,这种思维方法不仅解决了许多潜在泛化失败的情况,分布知识,但也,不像增强基线,推广到新的知识,没有RL进行。然而,在纯逆转任务,我们发现,思考并没有解锁直接知识反演,但思维模型的生成和验证能力使其能够获得远高于偶然的表现。验证意味着思维模型仍然远远低于上下文学习的性能。总的来说,我们的研究结果建立了测试时思维作为一个灵活的和有前途的方向,以提高潜在的泛化LM。

🛎️文章简介

🔸研究问题:如何让大语言模型在不依赖特定任务数据增强的情况下,仅通过内部权重知识实现鲁棒的演绎推理和潜在泛化?
🔸主要贡献:论文提出利用强化学习训练模型在测试时进行长链思维推理,显著提升了模型对内部知识的潜在泛化能力,且具备跨任务迁移性。

📝重点思路

🔸知识获取阶段:通过在未泄露的合成数据集上进行监督微调,将新事实注入预训练模型权重中,模拟模型学习新知识的过程。
🔸思维引导阶段:利用更强的教师模型生成包含聚焦回忆、自我探测及生成验证等策略的黄金思维链数据,对学生模型进行微调以引导其产生有效的推理行为。
🔸强化学习优化:基于正确性反馈,使用强化学习算法进一步训练模型,使其在面对需要潜在泛化的查询时,能自发产生长链条的中间推理过程来提取和组合内部知识。

🔎分析总结

🔸在分布内测试中,经过思维训练的模型在三段论和非严格反转等多跳推理任务上表现优异,性能接近甚至等同于拥有完整上下文的上下文学习基线。
🔸在分布外测试中,该方法展现出强大的泛化性,能有效处理未见过的知识结构,而传统的训练时数据增强方法因过拟合特定结构在此场景下完全失效。
🔸对于纯零跳的严格反转任务,思维模型虽无法像上下文学习那样完美解决,但通过生成候选并自我验证的策略,其表现显著优于不进行推理的模型,尽管仍受限于事实自验证的脆弱性。

💡个人观点

当模型通过微调学习新知识后,对于需要逻辑推导但训练中未直接出现的问题,表现非常脆弱。通过对参数化知识的动态检索与重组,教会模型“如何思考”比在训练数据中穷举所有逻辑变体更具通用性和扩展性。

🧩附录

http://www.jsqmd.com/news/672167/

相关文章:

  • 企业老板血泪教训!裁掉一半业务员,40万高端货凭空消失,内控漏洞差点拖垮公司
  • VS2022全局搜索失效
  • 怪物猎人世界叠加层工具HunterPie:终极游戏信息显示指南
  • 【sql server 多字段排序,处理排序字段为空的问题】
  • OriginPro 2021b 实战:5分钟搞定正负对比柱状图,告别数据重叠烦恼
  • 90、单元格求和
  • Go语言的sync.Cond中的交互底层
  • 给企业家的商机清单:六个问题,完成一次战略级“体检”
  • 2026年主数据平台公司推荐,企业数据治理与经营分析系统厂商 - 品牌2026
  • 2026年云南云南卫浴批发公司最新推荐排行榜,国内云南卫浴批发企业推荐榜单/云南卫浴批发厂商排行榜/云南卫浴批发公司 - 品牌策略师
  • HJ182 画展布置
  • HCIA园区网(VLAN、OSPF、ACL)
  • 抖音去水印视频下载神器:3分钟搞定无水印批量下载的终极方案
  • 2026年RapidSSL证书价格是多少?RapidSSL入门SSL证书申请推荐 - 麦麦唛
  • 基于STM32的无线抢答器设计
  • 从‘No tests found’错误出发,聊聊Maven项目里测试代码到底该放哪儿(附最佳实践)
  • MASA模组全家桶汉化包:3分钟解决Minecraft中文玩家的语言难题
  • 2026寻找能搞定VI、包装、展会的全能型设计伙伴 - 深度智识库
  • 西门子S7-200smart PLC通过RS485通讯读取绝对值伺服编码器当前位置并记录至机械...
  • 跨平台流程图绘制终极指南:drawio-desktop免费开源解决方案
  • CoPaw 安装部署教程-并配置 DashScope
  • ESP32北斗定位开发实战:从硬件连接到云端部署的完整指南
  • 2026多平台整合(Meta+Google+)B2B营销服务商推荐,含海外社媒运营与外贸AI营销平台精准获客(附带联系方式) - 品牌2026
  • 通过C#编程开发西门子PLC系统的诊断与故障排查工具
  • 3步构建高效知识管理系统:Obsidian Weread插件实战指南
  • 2026 年靠谱的工程造价公司推荐:实力强的全过程工程造价企业全解析 - 速递信息
  • OpenWrt网络加速终极指南:如何用turboacc插件提升路由器性能300%
  • Syncthing进阶玩法:用闲置VPS做7x24小时同步中继,实现异地办公自由
  • RoosterBio官宣合作:MSC与外泌体药物开发及规模化生产解决方案【曼博生物提供外泌体培养方案】 - 上海曼博生物
  • 片碱采购不踩坑!2026 年标杆厂家推荐,附国标参数 + 场景适配建议 - 深度智识库