当前位置：首页 > news >正文

对于Prompt的思考：从“手写”到提示词采样、A/B Test 与自动化评测

news 2026/6/23 19:45:52

收起

tldr:
1、好 prompt 是激活正确分布：底层原理
2、对于强 agentic 模型，过度规则会造成模型开始“执行规则”，而不是进入状态：不同模型，不同策略
3、编写prompt的采样也是在挖掘自己的真正需求：模型可以走多远、现在这个路径是不是正确的？
4、模型采样输出prompt和对应回答，高频采样模型回答，选择最优解，尝试其他方向再选：用向量激活向量
5、人工A/B test + ai评分：多轮测试稳定性+建立评测数据+自动化测试

一、先建立一个认知：Prompt 不是命令，而是分布激活器

大模型不是传统程序。

语言模型更像是：

给定上下文 → 激活某个语义/行为分布 → 采样一个可能输出

所以 prompt 的作用不是“强制模型执行某条命令”，而是通过语言、场景、角色、格式、示例、评价标准，把模型引导到某个输出区域。

比如这两种 prompt：

请自然一点，不要啰嗦，不要像 AI，不要说教，不要过度解释。

和：

像一个有经验的产品顾问一样回答：直接、具体、重视取舍，先指出核心问题，再给可执行建议。

除此之外，还记得：temperature、top_p、max_tokens、存在惩罚、频率惩罚这些采样参数吗？它们也是一部分。

二、好 Prompt 的定义：稳定提高目标输出概率

我现在更倾向于这样定义一个好 prompt：

好 prompt 不是偶尔产出一个神回复，而是能够稳定提高目标回复出现概率的上下文设计。

这句话里有几个关键词。

1. 不是单次效果，而是稳定分布

一次回答好，不代表 prompt 好。
可能只是采样运气好。

一个 prompt 要经过多输入、多轮次、多温度、多模型测试后，仍然稳定产出目标风格，才算真正有效。

2. 不是越完整越好，而是越有效越好

很多 prompt 写得很长，但里面充满冲突约束：

要简洁，但要全面。 要自由发挥，但必须严格遵守。 要自然，但每次必须包含三个部分。 要有创造力，但不能偏离任何细节。

这类 prompt 会让模型进入“执行规则”的模式，而不是进入目标状态。

尤其是强 agentic 模型，过度规则会让它从“自然完成任务”变成“表演自己正在遵守规则”。

3. 心智对齐

一千个人心里有一千个 prompt（哈姆雷特）。

你可以解释这些问题吗：什么是Agent？什么是Harness？什么是Prompt？

对于不同人脑子里对这些概念的理解，可能会导致完全不同的 prompt 设计。

模型可能需要理解什么是“我们”：“我们”可能是AI、可能是开发者、可能是用户；

三、不同模型，需要不同 Prompt 策略

prompt 不是通用的。
同一段 prompt 在不同模型上的表现可能完全不同。

1. 弱模型：需要脚手架

能力较弱的模型，通常更需要明确步骤、格式和约束。

例如：

请按以下结构回答： 1. 先总结用户问题； 2. 再列出三个原因； 3. 最后给一个建议； 每部分不超过三句话。

弱模型需要被“扶着走”。

2. 强模型：更适合状态激活

强模型本身有更好的语义理解、上下文补全和任务规划能力。
这类模型如果被过度限制，反而容易失去自然性和创造力。

对于强模型，更好的方式是：

你是一个严谨但不啰嗦的技术顾问。 回答时优先指出关键判断、隐藏风险和可执行下一步。 不要写成百科解释，也不要为了完整而展开无关背景。

这类 prompt 没有规定每一步怎么做，但激活了一个清晰的行为状态。

3. 推理型模型：目标与验证标准更重要

推理模型通常不需要你规定太多中间步骤，而更需要清楚定义：

目标是什么；
什么算成功；
有哪些约束；
哪些错误必须避免；
最终答案如何验收。

例如：

请解决这个问题。优先保证结论正确。 如果信息不足，请指出缺失信息。 不要为了给出答案而猜测关键事实。 最后用一小段说明你的置信度和主要不确定性。

四、Prompt 编写本身也是需求发现

很多时候，我们以为自己知道想要什么，其实只是知道一个模糊方向。

比如：

我想要一个更好的总结 prompt。

但“更好”是什么意思？

可能是：

更短；
更有洞察；
更适合发给老板；
更像咨询顾问；
更保留细节；
更适合行动决策；
更适合会议纪要；
更适合知识沉淀；
更适合二次传播；
更少废话；
更有观点。

这些差异并不是一开始就能想清楚的。

只有当你看到大量候选输出后，才会发现：

原来我不是想要“全面”，我是想要“能帮我决策”。 原来我不是想要“正式”，我是想要“有判断”。 原来我不是想要“详细”，我是想要“抓重点”。

所以 prompt 采样不是简单测试效果，它本身也是在挖掘需求。

prompt 迭代的过程，就是通过模型输出显化自己的隐性偏好。

五、一个有效方法：意图展开 + 响应映射

六、用模型生成候选 Prompt

我现在很推荐一种采样 prompt 的方法：

不要直接让模型回答原问题，而是先让模型枚举用户可能真正想继续问什么，再给出对应回答。

也就是“意图展开 + 响应映射”。

核心 prompt 可以是：

使用“意图展开 + 响应映射”。 不要直接回答原问题。 请先枚举 10 个“用户可能想继续问什么”，然后针对每个问题，给出一个示例回答。

这个方法的价值在于：
它不是让模型直接给你一个答案，而是让模型帮你展开“需求空间”。

当需求空间被展开后，下一步是让模型生成多个候选 prompt。

好的候选集合是：

Prompt A：专家诊断型。 Prompt B：反方质疑型。 Prompt C：新手教学型。 Prompt D：决策建议型。 Prompt E：风险审计型。 Prompt F：执行清单型。 Prompt G：高管摘要型。 Prompt H：苏格拉底追问型。 Prompt I：案例驱动型。 Prompt J：评分裁判型。

真正有价值的是探索不同方向，而不是在同一方向上换词。

七、不要选“最好的一次回答”，要选“更稳定的 Prompt”

有了候选 prompt 后，不能只让每个 prompt 跑一次。

因为单次输出有随机性。
你应该让每个 prompt 在多个测试用例上多次采样。

基本流程：

候选 prompt A ├── 测试用例 1 → 采样 5 次 ├── 测试用例 2 → 采样 5 次 ├── 测试用例 3 → 采样 5 次 └── ... 候选 prompt B ├── 测试用例 1 → 采样 5 次 ├── 测试用例 2 → 采样 5 次 ├── 测试用例 3 → 采样 5 次 └── ...

然后比较的不是某个单点神回复，而是整体分布。

一个 prompt 如果偶尔非常惊艳，但经常跑偏，它未必好。
另一个 prompt 如果上限没那么夸张，但稳定可靠，可能更适合生产。

八、建立 Prompt A/B Test

btw, 我vibe coding 了一个简单的 Prompt A/B Test 工具，欢迎试用和反馈：prompt_test

prompt A/B test 的核心是：
在相同输入、相同模型、相同采样参数下，比较不同 prompt 的输出效果。

一个最小 A/B test 可以包含：

prompt_id model temperature test_case_id input output judge_score human_preference failure_tags timestamp

示例表结构

字段	含义
prompt_id	当前 prompt 的版本
model	使用的模型
temperature	采样温度
test_case_id	测试用例编号
input	用户输入
output	模型输出
judge_score	AI 评分
human_preference	人工偏好
failure_tags	失败标签
notes	人工备注

A/B test 最重要的是保证对比公平：

同一批测试用例；
同一个模型；
相同采样参数；
相同上下文长度；
多次采样；
盲评更好；
人工偏好与 AI 评分分开记录。

九、自动化评测脚手架

有了 A/B test 之后，下一步是自动化评测。

一个 prompt evaluation harness 至少需要四层：

1. Prompt Registry：管理 prompt 版本 2. Test Dataset：管理测试用例 3. Runner：批量运行 prompt × test cases × samples 4. Evaluator：AI 评分 + 规则检查 + 人工标注

十、多轮测试稳定性

如果 prompt 用在多轮对话或 agent 场景中，单轮测试是不够的。

多轮测试要看：

模型是否保持任务目标；
是否逐渐漂移；
是否重复同一种话术；
是否忘记前文约束；
是否在用户追问时能修正；
是否能处理冲突信息；
是否能承认不确定；
是否能主动澄清。

一个多轮测试用例可以这样设计：

id: decision_summary_multiturn_001 turns: - user: "帮我总结这段项目会议。" - user: "再短一点，给老板看。" - user: "哪些是需要他拍板的？" - user: "如果只能保留三条呢？" - user: "有没有你不确定但需要补充的信息？" expected_behavior: - 不重复全部背景 - 能逐步压缩 - 能区分事实、判断和待确认信息 - 不编造负责人或截止时间

多轮测试特别容易暴露 prompt 的真实稳定性。

有些 prompt 单轮很强，但第二轮开始就失焦；
有些 prompt 初始平平，但多轮对话中非常稳。

十一、一个最小 Prompt Evaluation Harness

如果要快速落地，可以先做一个最小版本。

目录结构可以是：

prompt-eval/ prompts/ summarizer_v1.yaml summarizer_v2.yaml summarizer_v3.yaml datasets/ summarization_cases.yaml outputs/ runs/ evaluators/ judge_decision_summary.yaml scripts/ run_eval.py aggregate_results.py

十二、Prompt 迭代像进化算法

整个流程可以看成一个 prompt evolution loop：

定义目标 ↓ 意图展开 ↓ 生成候选 prompt ↓ 批量采样输出 ↓ AI judge 初筛 ↓ 人工 A/B 校准 ↓ 分析失败模式 ↓ 融合 top prompt ↓ 局部变异 ↓ 重新评测

这里有三个关键操作：

1. 变异

对已有 prompt 做局部改变：

更简洁；
更严格；
更少解释；
更强判断；
更强澄清；
更偏专家；
更偏教学；
更偏执行；
更偏审计；
更偏结构化。

2. 交叉

把多个优秀 prompt 的优点融合：

保留 A 的判断力、B 的简洁格式、C 的风险意识。

3. 压缩

把长 prompt 压缩成最小有效版本：

请将这个 prompt 压缩到 50%，保留核心行为激活点，删除重复规则和弱约束。

最终目标不是得到一个最长 prompt，而是找到：

最小、稳定、可解释、可评测的 prompt。

查看全文

http://www.jsqmd.com/news/1068929/

2026腾讯地图多场景技术方案科学选型指南

OmniShotCut实战：C++/ONNX部署SOTA镜头检测，一键导出PR时间线（附开源JSX脚本）

2026年COR，核密度估计增强优化：一种统计学习策略

【图像分割】基于遗传算法的进化聚类技术对彩色图像进行分割附Matlab代码

6款主流幼儿英语启蒙app测评，孰优孰劣一目了然

htmlwidgets架构优化：提升R可视化组件渲染效率的实施方法论

选址避坑指南：企业如何从海量办公楼出租公司中精准锁定靠谱服务商

MySQL数据库迁移方案怎么选？4种方案对比+大数据量迁移避坑实战

乐迪信息：智慧港口船舶AI综合感知系统（集成算法+防爆摄像机）

运行 OpenClaw 的安全治理：身份、隔离与运行时风险

欧盟GMP对AI大模型划定红线，详解药企AI生存法则

自己买共享充电宝到底划不划算

2026 最便宜 GPT5.5 API 密钥代购

高考志愿填报：大数据相关专业到底怎么选？

2026年企业AI落地热门服务模式TOP5：适配不同需求推荐

2026年全铝大门选购指南：哪家工艺更靠谱

【Android 项目实战 01】从乘客下单到司机抢单：网约车平台 App 的设计与实现（Spring Boot + MySQL）

如何永久备份微信朋友圈：专业导出工具的3个核心秘诀

为什么有人愿意多花五倍钱，买一个“差不多“的东西

用SymPy自动计算抛物线求根、判别式与顶点

设计模式——建造者模式模式（AI回答）

一行代码看懂 Linux 内核的时间转换：__month_to_secs 逐行拆解

【2026奇点大会官方技术白皮书】：首次公开AI原生微调5大核心范式与3类失效场景避坑指南

2026金九银十Java八股文面试题汇总（附答案·全栈覆盖）

古法革新赋能民生非遗医术焕新赋能大健康——李章武以科创思维激活中医外治新活力

彻底搞懂 musl libc 的 __secs_to_tm：时间戳转 struct tm 的极致优化

多色流式无串扰！647细胞凋亡检测试剂盒

服装布料批量裁剪，CO2 激光高速裁切

线上培训平台排名参考，不同场景选型指南