当前位置: 首页 > news >正文

突破!LLM自我批评让规划能力暴涨89.3%!DeepMind新方法,不依赖外部验证,小白程序员也能轻松掌握!

大家好,我是PaperAgent,不是Agent!

不借助外部验证器,只让 LLM 反复“自评 + 重写”,就能把 Blocksworld 准确率从 49.8% 飙到89.3%,刷新多项规划 benchmark 的记录。

Self-Critique 带来的暴涨

🖼️ 整体流程一图胜千言

图 1:迭代自评示意

图 1:LLM = 探险家,每轮先“画地图”(生成计划),再“检查地图”(自评),把失败扔进背包,下次再画新地图。

🔍 为什么“自我批评”突然灵了?

过往研究(Valmeekam’23、Huang’24)认为 LLM 自评=假阳性之王,原因:

  1. 不会真的“逐步验证”动作前提;
  2. 没有外部 Oracle 给反馈,越改越错。

本文对症下药:

  • 显式状态追踪:强制模型每步输出“前提-结果”状态;
  • 失败记忆池:把历史错误计划+批评拼回 prompt,避免重蹈覆辙;
  • 自一致性投票:同一计划让模型评 5 次,多数表决降低误判。

⚙️ 方法拆解

算法 1 :

  • plan_prompt:16-shot 手工示例(Blocksworld 用 PDDL 描述)
  • critique_prompt:零-shot,只给领域定义+“请逐步验证每条动作前提”

🧪 消融实验:哪个组件最值钱?

去掉的组件准确率掉到结论
逐步验证每条动作57.5%最值钱
去掉领域定义74.4%仍部分可用
去掉自一致性85.5%2-3 pp 差距

🌟 跨模型验证:不是 Gemini 一家独秀

模型基线Self-Critique提升
GPT-4o42.8%64.2%+21.4 pp
Claude 3.5 Sonnet68.0%89.5%+21.5 pp
Gemma-2 27B微升小模型收益有限

💡 实用启示 & 未来方向

  1. Prompt 即插件:零-shot 批评模板直接复用到新领域,无需重新训练。
  2. 成本可控:平均只需 6~14k tokens(≤10 轮迭代)即可收敛。
  3. 下一步
  • 把“自评”接入 MCTS/ToT 做树搜索;
  • 在真实世界规划(旅行、项目管理)上试规模;
  • 研究如何减少“假阳性”进一步逼近 Oracle。

🏁 结语

当 LLM 被“强迫”做一位严格的老师,给自己每份作业打红叉,它居然真能把错误率压到新低。
Intrinsic Self-Critique不仅刷新了规划 SOTA,更为“无监督自我提升”提供了一条极简却强大的新范式。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/274447/

相关文章:

  • 浙大西湖Ant团队:让大语言模型用“听“来优化“看“的压缩技术
  • iOS免越狱个性化定制:Cowabunga Lite隐藏技巧与高阶玩法全解析
  • Mastercam许可管理入门指南
  • 救命!制造业AI Agent这么强?架构拆解+实战案例+ROI计算,一篇搞定!
  • 5分钟掌握AMD Ryzen处理器精准调优:SMU调试工具完全指南
  • AI Agent架构保姆级教程:从“懵圈“到“精通“,四层闭环+四步路径,让你少走90%弯路
  • Linux性能排查实战:从“系统慢”到精准定位
  • 【硬核干货】大模型开发核心:预训练技术深度剖析,附完整代码实现!
  • 终极游戏手柄测试指南:零配置实时检测解决方案
  • 2026冷风机厂家权威推荐榜:奥德冷风机、工业冷风机、冷风机供应商及品牌实力解析
  • 2026年学术论文降AI实战测评:谁是过关斩将的利器? - 品牌观察员小捷
  • AI训练数据集供应商推荐:专业图片、视频、AI数据训练服务商精选 - 品牌2025
  • 科研新范式:Claude 4.5 Sonnet 深度集成 Benchling,打通实验与写作全链路 - 147API
  • 免费的问卷调查平台盘点:微信QQ微博多渠道分发集成(2025最新榜单) - 品牌排行榜
  • Dolphinscheduler分布式调度系统实战:从架构解析到生产级部署深度指南
  • 元数据管理革命:ExifToolGUI如何让GPS定位与批量处理变得简单高效
  • 2026年仿古铝瓦权威推荐:西安睿驰古建以金属智慧守护古建之美 - 深度智识库
  • Windows 下 tree 命令学习笔记
  • DLSS Swapper终极指南:一键升级游戏画质的免费神器
  • Prompt(提示词工程)
  • 2026年仿古铝瓦厂家TOP5权威推荐:西安睿驰古建引领行业革新! - 深度智识库
  • 导师严选8个AI论文软件,MBA毕业论文高效写作必备!
  • AI赋能在线设计:从工具革命到人机协同新生态
  • 2025耐力板厂家品牌榜:上市背景+5条自动化产线实力排名 - 品牌排行榜
  • 抖音批量下载神器:告别手动时代,拥抱高效内容管理终极指南
  • 孩子近视加深太快!到底怎么控才能让度数涨得慢?
  • 收藏级|大语言模型(LLM)核心原理全解析:从架构到实战,小白与程序员必备指南
  • WeChatFerry微信机器人框架:从技术困境到智能突破
  • 2026年H型钢钢材厂家实力推荐:云南赣昆钢材销售有限公司,焊接/承重/轻型/重型H型钢全系供应
  • 近视防控,家长不可不知的那些细节