当前位置: 首页 > news >正文

From Prompt Learning to SIPDO: A Shift Toward Closed-Loop Self-Evolution

 

 

从 Prompt Engineering 到 Prompt Learning / Prompt Optimization

这是最直观的一种做法。就是人自己去改 prompt。

这是更“研究化”“系统化”的做法。

    • prompt 能不能被优化?

    • 优化有没有方法论?

    • 能不能自动改?

    • 能不能持续变强?

    • 能不能形成闭环?

Prompt Engineering 是手工调参;Prompt Learning 是把调 prompt 本身做成一个研究领域。

Jeff: 有点类似大模型的 手动调参到自动调参的研究进化过程。

Prompt optimization 的发展,很像早年 parameter learning(参数学习)的发展。

 

自动化起步,Textual Gradients

核心特征:开始有“方向感”

ProTeGi:可以让 LLM 用自然语言给出一种“批评”或“改进建议”,把这种建议当成“文本梯度”来使用。

比如:

当前 prompt 在某类题上经常错。
那模型可能会给出类似反馈:

    • 你的 prompt 没有明确要求区分事实和推测

    • 你的 prompt 没要求先识别关键约束

    • 你的 prompt 容易让模型忽略反例

这些文字反馈本身不是数学梯度,
它起到了类似梯度的作用它告诉你“该朝哪个语义方向改”。

 

ProTeGi 像是在改“题目前的说明书”,
TextGrad 像是在改“整个做题过程里所有可写下来的东西”。

 

在普通深度学习里,被优化的是参数。
在 TextGrad 这种框架里,被优化的是一种“文本变量”。

例如:

例子 1:Prompt

原始 prompt:

Answer the question carefully.

反馈:

The instruction is too vague. Tell the model to identify constraints first and avoid unsupported assumptions.

更新后:

First identify all explicit constraints in the question, then answer carefully without making unsupported assumptions.

这里被优化的对象就是 prompt。

 

例子 2:一段推理链

原始推理:

The company revenue increased, so profits must have increased too.

反馈:

Revenue growth does not necessarily imply profit growth. The reasoning ignores cost changes.

更新后:

Revenue increased, but profit may or may not have increased because costs could also have risen.

这里被优化的对象不是 prompt,
而是中间推理文本

 

例子 3:一段代码

原始代码:
 
if x:
  return y / x
 
反馈:

This may fail when x is zero or None. Add input validation before division.

更新后代码就更稳。

这里被优化的对象变成了代码文本

 

例子 4:一个 agent 的执行计划

原计划:

    1. Search web

    2. Summarize result

    3. Answer user

反馈:

The plan lacks a verification step and may hallucinate if the search results are weak.

更新后:

    1. Search web

    2. Check source quality

    3. Summarize result

    4. Verify key claims

    5. Answer user

这里被优化的是计划文本

 

更像是一个Agent self-improvement architecture。

 

SIPDO: Self-Improving Prompts through Data-Augmented Optimization

论文把它定义为一种把合成数据生成引入 prompt 优化过程的 closed-loop framework

用一句最人话的话来说:

SIPDO 不是只在旧题上改 prompt,
它会主动造出能打穿当前 prompt 的新题,
再根据这些失败去修 prompt,
然后继续造更难的题,继续修。
这就形成了一个闭环。

这就是 SIPDO 最核心的思想。

 

 

 

 

 

 

 

 

 

 

 

 

 

http://www.jsqmd.com/news/446568/

相关文章:

  • 2026年新型锅炉源头厂家解析,助你明智选购,导热油锅炉/锅炉/蒸汽锅炉,锅炉实力厂家排行榜 - 品牌推荐师
  • TCD-12-222X+
  • 2026年柔板印刷机市场新宠:这五大厂商值得关注,耐用的柔板印刷机品牌哪家权威立飞公司发展迅速,实力雄厚 - 品牌推荐师
  • 数据集增强2
  • 盘点内蒙古好用的变速箱故障检测供应商排名 - 工业设备
  • 让 Join 谓词更可被优化:SAP HANA 中的谓词重排、执行计划陷阱与工程化落地
  • 上海全屋定制考察笔记:2026年值得关注的厂家,室内空间设计/原木风新房装修/家居全屋定制,上海全屋定制公司哪家强 - 品牌推荐师
  • 单相LCL并网逆变器电容电流前馈与电网电压全前馈的谐波抑制及MATLAB仿真效果分析
  • 发布macports教程
  • 黑龙江处理变速箱异响的修理厂哪家靠谱 - 工业品网
  • 2026户外站岗岗亭深度评测:功能与美观兼具,移动岗亭/户外站岗岗亭/成品移动岗亭,户外站岗岗亭定制推荐排行 - 品牌推荐师
  • 2026年比较不错的智能收款系统品牌厂商盘点,哪家靠谱 - 工业品牌热点
  • 全国有哪些靠谱的纯净水设备供应商推荐? - mypinpai
  • 探厂鲨鱼妹妹|顶流机量产背后的品质密码 - 品牌之家
  • 华为云ECS下安装MySQL
  • STL中string的额外操作
  • 2026年米兰窗帘性价比大揭秘,颜色丰富好用的产品如何选择 - 工业推荐榜
  • PNG 图片太大?几个实用的 PNG 转 WebP 在线工具推荐
  • 点云文件格式大全:从 PCD 到 LAS,你需要知道的都在这
  • 讲讲口碑好的度假酒店,贵阳溪山里酒店体验感不错美食评价高 - myqiye
  • 2026年沧州热门管道制造公司排名,河北宝温管道设备制造有限公司靠谱吗 - mypinpai
  • 深入解析:《设计模式》第二篇:单例模式
  • python: model 实体用法一样
  • 2026年上海好用的Modbus RTU转Modbus TCP厂家推荐 - 工业推荐榜
  • 2026年黑龙江自动变速箱维修推荐,费用多少钱 - 工业设备
  • [1]利用泰勒傅里叶变换对信号进行展开; [2]求原信号的动态相量参数/动态谐波参数
  • 2026年目前优秀的四边封包装袋订制厂家怎么选,三边封包装袋/四边封包装袋/八边封包装袋,四边封包装袋供货厂家哪家强 - 品牌推荐师
  • 聊聊2026年黑龙江口碑好的变速箱专修门店,专注变速箱专修源头店揭秘 - 工业品网
  • 聚焦2026新型二氧化氯发生器厂家,哪家优势明显?一体化净水器/二氧化氯发生器,二氧化氯发生器供应厂家推荐排行榜单 - 品牌推荐师
  • 2026年智能收款系统公司如何选择,实用攻略分享 - 工业品牌热点