当前位置: 首页 > news >正文

对于Prompt的思考:从“手写”到提示词采样、A/B Test 与自动化评测

收起

tldr:
1、好 prompt 是激活正确分布:底层原理
2、对于强 agentic 模型,过度规则会造成模型开始“执行规则”,而不是进入状态:不同模型,不同策略
3、编写prompt的采样也是在挖掘自己的真正需求:模型可以走多远、现在这个路径是不是正确的?
4、模型采样输出prompt和对应回答,高频采样模型回答,选择最优解,尝试其他方向再选:用向量激活向量
5、人工A/B test + ai评分:多轮测试稳定性+建立评测数据+自动化测试


一、先建立一个认知:Prompt 不是命令,而是分布激活器

大模型不是传统程序。

语言模型更像是:

给定上下文 → 激活某个语义/行为分布 → 采样一个可能输出

所以 prompt 的作用不是“强制模型执行某条命令”,而是通过语言、场景、角色、格式、示例、评价标准,把模型引导到某个输出区域。

比如这两种 prompt:

请自然一点,不要啰嗦,不要像 AI,不要说教,不要过度解释。

和:

像一个有经验的产品顾问一样回答:直接、具体、重视取舍,先指出核心问题,再给可执行建议。

除此之外,还记得:temperature、top_p、max_tokens、存在惩罚、频率惩罚 这些采样参数吗? 它们也是一部分。


二、好 Prompt 的定义:稳定提高目标输出概率

我现在更倾向于这样定义一个好 prompt:

好 prompt 不是偶尔产出一个神回复,而是能够稳定提高目标回复出现概率的上下文设计。

这句话里有几个关键词。

1. 不是单次效果,而是稳定分布

一次回答好,不代表 prompt 好。
可能只是采样运气好。

一个 prompt 要经过多输入、多轮次、多温度、多模型测试后,仍然稳定产出目标风格,才算真正有效。

2. 不是越完整越好,而是越有效越好

很多 prompt 写得很长,但里面充满冲突约束:

要简洁,但要全面。 要自由发挥,但必须严格遵守。 要自然,但每次必须包含三个部分。 要有创造力,但不能偏离任何细节。

这类 prompt 会让模型进入“执行规则”的模式,而不是进入目标状态。

尤其是强 agentic 模型,过度规则会让它从“自然完成任务”变成“表演自己正在遵守规则”。

3. 心智对齐

一千个人心里有一千个 prompt(哈姆雷特)。

你可以解释这些问题吗 :什么是Agent?什么是Harness?什么是Prompt?

对于不同人脑子里对这些概念的理解,可能会导致完全不同的 prompt 设计。

模型可能需要理解什么是“我们”:“我们”可能是AI、可能是开发者、可能是用户;


三、不同模型,需要不同 Prompt 策略

prompt 不是通用的。
同一段 prompt 在不同模型上的表现可能完全不同。

1. 弱模型:需要脚手架

能力较弱的模型,通常更需要明确步骤、格式和约束。

例如:

请按以下结构回答: 1. 先总结用户问题; 2. 再列出三个原因; 3. 最后给一个建议; 每部分不超过三句话。

弱模型需要被“扶着走”。


2. 强模型:更适合状态激活

强模型本身有更好的语义理解、上下文补全和任务规划能力。
这类模型如果被过度限制,反而容易失去自然性和创造力。

对于强模型,更好的方式是:

你是一个严谨但不啰嗦的技术顾问。 回答时优先指出关键判断、隐藏风险和可执行下一步。 不要写成百科解释,也不要为了完整而展开无关背景。

这类 prompt 没有规定每一步怎么做,但激活了一个清晰的行为状态。


3. 推理型模型:目标与验证标准更重要

推理模型通常不需要你规定太多中间步骤,而更需要清楚定义:

  • 目标是什么;
  • 什么算成功;
  • 有哪些约束;
  • 哪些错误必须避免;
  • 最终答案如何验收。

例如:

请解决这个问题。优先保证结论正确。 如果信息不足,请指出缺失信息。 不要为了给出答案而猜测关键事实。 最后用一小段说明你的置信度和主要不确定性。

四、Prompt 编写本身也是需求发现

很多时候,我们以为自己知道想要什么,其实只是知道一个模糊方向。

比如:

我想要一个更好的总结 prompt。

但“更好”是什么意思?

可能是:

  • 更短;
  • 更有洞察;
  • 更适合发给老板;
  • 更像咨询顾问;
  • 更保留细节;
  • 更适合行动决策;
  • 更适合会议纪要;
  • 更适合知识沉淀;
  • 更适合二次传播;
  • 更少废话;
  • 更有观点。

这些差异并不是一开始就能想清楚的。

只有当你看到大量候选输出后,才会发现:

原来我不是想要“全面”,我是想要“能帮我决策”。 原来我不是想要“正式”,我是想要“有判断”。 原来我不是想要“详细”,我是想要“抓重点”。

所以 prompt 采样不是简单测试效果,它本身也是在挖掘需求。

prompt 迭代的过程,就是通过模型输出显化自己的隐性偏好。


五、一个有效方法:意图展开 + 响应映射


六、用模型生成候选 Prompt

我现在很推荐一种采样 prompt 的方法:

不要直接让模型回答原问题,而是先让模型枚举用户可能真正想继续问什么,再给出对应回答。

也就是“意图展开 + 响应映射”。

核心 prompt 可以是:

使用“意图展开 + 响应映射”。 不要直接回答原问题。 请先枚举 10 个“用户可能想继续问什么”,然后针对每个问题,给出一个示例回答。

这个方法的价值在于:
它不是让模型直接给你一个答案,而是让模型帮你展开“需求空间”。


当需求空间被展开后,下一步是让模型生成多个候选 prompt。

好的候选集合是:

Prompt A:专家诊断型。 Prompt B:反方质疑型。 Prompt C:新手教学型。 Prompt D:决策建议型。 Prompt E:风险审计型。 Prompt F:执行清单型。 Prompt G:高管摘要型。 Prompt H:苏格拉底追问型。 Prompt I:案例驱动型。 Prompt J:评分裁判型。

真正有价值的是探索不同方向,而不是在同一方向上换词。


七、不要选“最好的一次回答”,要选“更稳定的 Prompt”

有了候选 prompt 后,不能只让每个 prompt 跑一次。

因为单次输出有随机性。
你应该让每个 prompt 在多个测试用例上多次采样。

基本流程:

候选 prompt A ├── 测试用例 1 → 采样 5 次 ├── 测试用例 2 → 采样 5 次 ├── 测试用例 3 → 采样 5 次 └── ... 候选 prompt B ├── 测试用例 1 → 采样 5 次 ├── 测试用例 2 → 采样 5 次 ├── 测试用例 3 → 采样 5 次 └── ...

然后比较的不是某个单点神回复,而是整体分布。

一个 prompt 如果偶尔非常惊艳,但经常跑偏,它未必好。
另一个 prompt 如果上限没那么夸张,但稳定可靠,可能更适合生产。


八、建立 Prompt A/B Test

btw, 我vibe coding 了一个简单的 Prompt A/B Test 工具,欢迎试用和反馈:prompt_test

prompt A/B test 的核心是:
在相同输入、相同模型、相同采样参数下,比较不同 prompt 的输出效果。

一个最小 A/B test 可以包含:

prompt_id model temperature test_case_id input output judge_score human_preference failure_tags timestamp

示例表结构

字段含义
prompt_id当前 prompt 的版本
model使用的模型
temperature采样温度
test_case_id测试用例编号
input用户输入
output模型输出
judge_scoreAI 评分
human_preference人工偏好
failure_tags失败标签
notes人工备注

A/B test 最重要的是保证对比公平:

  • 同一批测试用例;
  • 同一个模型;
  • 相同采样参数;
  • 相同上下文长度;
  • 多次采样;
  • 盲评更好;
  • 人工偏好与 AI 评分分开记录。

九、自动化评测脚手架

有了 A/B test 之后,下一步是自动化评测。

一个 prompt evaluation harness 至少需要四层:

1. Prompt Registry:管理 prompt 版本 2. Test Dataset:管理测试用例 3. Runner:批量运行 prompt × test cases × samples 4. Evaluator:AI 评分 + 规则检查 + 人工标注

十、多轮测试稳定性

如果 prompt 用在多轮对话或 agent 场景中,单轮测试是不够的。

多轮测试要看:

  • 模型是否保持任务目标;
  • 是否逐渐漂移;
  • 是否重复同一种话术;
  • 是否忘记前文约束;
  • 是否在用户追问时能修正;
  • 是否能处理冲突信息;
  • 是否能承认不确定;
  • 是否能主动澄清。

一个多轮测试用例可以这样设计:

id: decision_summary_multiturn_001 turns: - user: "帮我总结这段项目会议。" - user: "再短一点,给老板看。" - user: "哪些是需要他拍板的?" - user: "如果只能保留三条呢?" - user: "有没有你不确定但需要补充的信息?" expected_behavior: - 不重复全部背景 - 能逐步压缩 - 能区分事实、判断和待确认信息 - 不编造负责人或截止时间

多轮测试特别容易暴露 prompt 的真实稳定性。

有些 prompt 单轮很强,但第二轮开始就失焦;
有些 prompt 初始平平,但多轮对话中非常稳。


十一、一个最小 Prompt Evaluation Harness

如果要快速落地,可以先做一个最小版本。

目录结构可以是:

prompt-eval/ prompts/ summarizer_v1.yaml summarizer_v2.yaml summarizer_v3.yaml datasets/ summarization_cases.yaml outputs/ runs/ evaluators/ judge_decision_summary.yaml scripts/ run_eval.py aggregate_results.py

十二、Prompt 迭代像进化算法

整个流程可以看成一个 prompt evolution loop:

定义目标 ↓ 意图展开 ↓ 生成候选 prompt ↓ 批量采样输出 ↓ AI judge 初筛 ↓ 人工 A/B 校准 ↓ 分析失败模式 ↓ 融合 top prompt ↓ 局部变异 ↓ 重新评测

这里有三个关键操作:

1. 变异

对已有 prompt 做局部改变:

  • 更简洁;
  • 更严格;
  • 更少解释;
  • 更强判断;
  • 更强澄清;
  • 更偏专家;
  • 更偏教学;
  • 更偏执行;
  • 更偏审计;
  • 更偏结构化。

2. 交叉

把多个优秀 prompt 的优点融合:

保留 A 的判断力、B 的简洁格式、C 的风险意识。

3. 压缩

把长 prompt 压缩成最小有效版本:

请将这个 prompt 压缩到 50%,保留核心行为激活点,删除重复规则和弱约束。

最终目标不是得到一个最长 prompt,而是找到:

最小、稳定、可解释、可评测的 prompt。

http://www.jsqmd.com/news/1068929/

相关文章:

  • 2026腾讯地图多场景技术方案科学选型指南
  • OmniShotCut实战:C++/ONNX部署SOTA镜头检测,一键导出PR时间线(附开源JSX脚本)
  • 2026年COR,核密度估计增强优化:一种统计学习策略
  • 【图像分割】基于遗传算法的进化聚类技术对彩色图像进行分割附Matlab代码
  • 6款主流幼儿英语启蒙app测评,孰优孰劣一目了然
  • htmlwidgets架构优化:提升R可视化组件渲染效率的实施方法论
  • 选址避坑指南:企业如何从海量办公楼出租公司中精准锁定靠谱服务商
  • MySQL数据库迁移方案怎么选?4种方案对比+大数据量迁移避坑实战
  • 乐迪信息:智慧港口船舶AI综合感知系统(集成算法+防爆摄像机)
  • 运行 OpenClaw 的安全治理:身份、隔离与运行时风险
  • 欧盟GMP对AI大模型划定红线,详解药企AI生存法则
  • 自己买共享充电宝到底划不划算
  • 2026 最便宜 GPT5.5 API 密钥代购
  • 高考志愿填报:大数据相关专业到底怎么选?
  • 2026年企业AI落地热门服务模式TOP5:适配不同需求推荐
  • 2026年全铝大门选购指南:哪家工艺更靠谱
  • 【Android 项目实战 01】从乘客下单到司机抢单:网约车平台 App 的设计与实现(Spring Boot + MySQL)
  • 如何永久备份微信朋友圈:专业导出工具的3个核心秘诀
  • 为什么有人愿意多花五倍钱,买一个“差不多“的东西
  • 用SymPy自动计算抛物线求根、判别式与顶点
  • 设计模式——建造者模式模式(AI回答)
  • 一行代码看懂 Linux 内核的时间转换:__month_to_secs 逐行拆解
  • 【2026奇点大会官方技术白皮书】:首次公开AI原生微调5大核心范式与3类失效场景避坑指南
  • 2026金九银十Java八股文面试题汇总(附答案·全栈覆盖)
  • 古法革新赋能民生 非遗医术焕新赋能大健康——李章武以科创思维激活中医外治新活力
  • 彻底搞懂 musl libc 的 __secs_to_tm:时间戳转 struct tm 的极致优化
  • 多色流式无串扰!647细胞凋亡检测试剂盒
  • 服装布料批量裁剪,CO2 激光高速裁切
  • 线上培训平台排名参考,不同场景选型指南
  • 行业内口碑顶尖!这3家推拉力测试机供应商为何备受信赖?