当前位置: 首页 > news >正文

AI 不听话?7 步排查清单,从「它又犯病了」到「我懂了」

🦞 一只用 AI Agent 搭副业产线的程序员


每个用 AI 写代码的人都经历过:

  • 明明让它返回 JSON,它非要加一段「好的!以下是结果:」
  • 明明让它用 Go,它给你 Python
  • 明明让它「不要编造」,它还是给你写了一个不存在的 API
  • 同一个 Prompt,昨天好好的今天就不行了

然后你就陷入了无头调试——改一句试试、不行、再改一句、更差了、回退、又改……

这篇文章给你一套系统化的排查方法。当你觉得「AI 不听话」的时候,按这个清单一步步走。


先看一个典型翻车现场

User: "分析这段代码的性能问题,给出优化建议。" AI: "好的!我来帮你分析。首先这段代码整体来说写得不错, 但有几个小地方可以优化。在优化之前,我想先聊聊 Go 语言的 性能哲学……(继续啰嗦 300 字)"

你在屏幕前:「我没让你夸它啊!!!」

按以下 7 步排查:


第 1 步:检查温度(Temperature)

症状:输出很随机、不稳定、时好时坏

排查:

// 你的代码里是不是这样的?Temperature:0.8,// 太高了// 改成这样:Temperature:0.0,// 确定性任务

什么温度该用什么温度:

任务推荐温度原因
代码生成0.0-0.2你要的是正确,不是创意
数据提取0.0-0.1输出必须一致
翻译0.1-0.3保留一点语言的自然变化
文本润色0.3-0.7需要一些变化
脑暴0.7-1.0需要发散

我自己的经验:90% 的「AI 不听话」问题,温度调到 0.1 就解决了。


第 2 步:检查 System Prompt 是不是太长

症状:AI 遵守了前面的规则,但无视了后面的规则

排查:数字数。超过 300 字的 System Prompt,后半段规则的遵从度会明显下降。

// 烂:500 字的 System Prompt,定义 15 条规则system:=`你是 Go 后端开发专家。 规则 1:…… 规则 2:…… …… 规则 15:……`// 好:精简到 3-4 条最重要的规则system:=`你是 Go 后端开发专家。 1. 代码完整可编译,不确定的 API 直接说"不确定" 2. 所有错误使用 fmt.Errorf 包装,不要用 panic 3. 只输出代码,不要解释(除非被问到)`

如果确实有很多规则要定义,拆成多个 System Prompt,不同场景用不同的。


第 3 步:检查你的指令是否模糊

症状:AI 的输出「差不多」但不是你要的

排查:把 Prompt 里的形容词全删了,换成明确的约束。

❌ 模糊: "写一个健壮的错误处理" → AI 理解的「健壮」跟你不一样 ✅ 明确: "每个函数返回 (result, error),调用方必须检查 error, 错误用 fmt.Errorf 包装原始错误,不要吞掉" ❌ 模糊: "输出要简洁" → AI 不知道「简洁」是多少字 ✅ 明确: "输出不超过 50 个字,用 3 个要点概括" ❌ 模糊: "代码写得优雅一点" → AI:??? ✅ 明确: "遵循 Go 官方代码规范,函数不超过 30 行, 公开函数使用 godoc 注释"

一条标准:把你的 Prompt 给一个实习生,他能不能准确执行?如果不能,AI 也不能。


第 4 步:检查输出约束是不是够强

症状:AI 在 JSON 外面套了「以下是结果:」之类的废话

排查:加上「收尾式约束指令」。

Prompt 的最后一句话权重最高。把这个位置留给最重要的约束:

❌ 弱约束(约束放在开头) "只输出 JSON,不要其他内容。 请分析以下代码的安全问题……" → 约束被后面的长文本稀释了 ✅ 强约束(约束收尾) "请分析以下代码的安全问题…… (分析要求) 只返回 JSON 数组,不要 Markdown 代码块包裹,不要任何解释文字。" → 约束在最后,AI 最后读到的是你的格式要求

第 5 步:加反面示例

症状:AI 老是犯同一个类型的错误

排查:在 Few-shot 示例里加一个「错误的示例」或「禁止事项」。

正确示例: 输入:"今天天气真好" → 情感:正面 反面示例(禁止这样输出): 输入:"今天天气真好" → "我认为这句话表达了正面情感,因为……" ❌ 以上是错误示范——不要写原因,只输出情感标签。

AI 对「反面教材」特别敏感。一个坏的例子,比三条规则描述更有效。


第 6 步:检查多轮对话的上下文污染

症状:第一轮好好的,聊着聊着 AI 就「跑偏了」

排查:看看你是不是把之前 AI 的错误输出也留在了对话历史里。

// 危险的模式:所有历史都保留messages=append(messages,Message{Role:"assistant",Content:wrongOutput})// AI 看到自己的错误输出,可能会在后续延续错误模式// 安全的模式:裁剪对话历史messages=trimHistory(messages,10)// 只保留最近 10 轮// 或者:把 AI 的错误输出替换为正确输出

Agent 开发里最容易忽视的 Bug:AI 的错误输出污染了后续的上下文,导致每况愈下。


第 7 步:换模型

如果前 6 步都排查过了还是不行——换模型。

有些任务,某些模型就是天然不擅长。不是你 Prompt 的问题,是模型能力的边界:

任务强项模型弱项模型
长文档推理ClaudeDeepSeek V4 Flash
中文写作通义千问GPT-4o
代码生成Claude / DeepSeek V4 Pro小参数开源模型
创意写作GPT-4o开源模型
数学ClaudeDeepSeek V4 Flash

不要死磕一个模型。换模型有时候比你调 2 小时 Prompt 都管用。


7 步排查清单(打印版)

[ ] 1. Temperature 调对了吗? 代码/提取 = 0.0-0.2 | 创意 = 0.7-1.0 [ ] 2. System Prompt 超过 300 字了吗? 超过 → 精简到 3-4 条核心规则 [ ] 3. Prompt 里有模糊词吗? 「简洁」「优雅」「健壮」 → 换成具体数字或示例 [ ] 4. 输出约束放在最后了吗? 最后一句话 = 最重要的格式要求 [ ] 5. 给反面示例了吗? 1 个坏例子 > 3 条规则 [ ] 6. 对话历史有污染吗? 裁剪历史,去掉 AI 的错误输出 [ ] 7. 换过模型了吗? 不要死磕,不同模型擅长不同任务

我排查问题的真实案例

问题:日报 Agent 的周报生成有时候写成「心灵鸡汤」风格。

排查过程:

  1. Temperature 0.7 → 调到 0.1 ✅ 有改善但不彻底
  2. System Prompt 400 字 → 精简到 150 字 ✅ 有改善
  3. 「简洁」→ 「不超过 500 字,每条 1 句话」 ✅ 基本解决
  4. 但偶尔还是出现!→ 加了一个反面示例:「❌ 以下是不好的周报:(啰嗦的心灵鸡汤版)」 ✅ 彻底解决

根因:不是一条规则的问题,是温度 + Prompt 过长 + 缺少反面示例的组合拳。

大部分「AI 不听话」的问题都是多个小问题叠加的结果。按这个清单逐条排查,比瞎改 Prompt 高效得多。


下一篇是模块二的收尾——我把模块二学到的所有东西打包成10 个拿来即用的 Prompt 模板。每个模板配使用场景、示例输入和期望输出。你复制下来,填个变量就能用。

关注我,别错过。


🦞 一只用 AI Agent 搭副业产线的程序员

全平台同名:虾哥不加班
需要定制 AI 工具?来聊聊 → lob_ai

http://www.jsqmd.com/news/944569/

相关文章:

  • 智能拼团合规红线预警(GDPR+《生成式AI服务管理暂行办法》双框架适配方案),法务+技术联合签发
  • Laravel 5 角色权限管理终极指南:从 is() 到 allowed() 的完整 API 解析
  • 小型运油船价格多少 - 舒雯文化
  • Logback 1.5.34 发布:修复反序列化漏洞,增强异常处理能力
  • DIY无绳工具电池适配器:跨品牌电池兼容改造实战指南
  • 2026婚纱摄影行业白皮书:丽江影楼合规标杆与市场真相 - GrowthUME
  • 终极音频编辑指南:如何用Audacity制作专业级音效
  • Haon-Chen/e5-omni-7B完全安装指南:从Sentence Transformers到多模态环境配置
  • 多语言文本嵌入终极指南:paraphrase-multilingual-MiniLM-L12-v2实战部署与优化
  • 如何优雅地在 Laravel 视图中控制权限:gh_mirrors/role/roles Blade 指令完全指南 [特殊字符]
  • indonesian-roberta-base-posp-tagger实战教程:10个印尼语句子词性标注示例详解
  • 2026 文旅游乐商户开店优选!景区电玩乐园智慧票务核销系统全解析 - 新闻快传
  • 5分钟快速上手:Windows平台最强大的开源按键映射工具QKeyMapper终极指南
  • 11 ELMo 论文精读:上下文词向量为什么重要?
  • Linux 内核中的 epoll:从 syscall 底层原理到高并发架构启示
  • NuExtract-1.5未来路线图:AI信息提取技术的发展趋势与创新方向
  • Adobe-GenP 3.0终极指南:免费激活Adobe CC全系列软件
  • 【电赛终极杀器】别再只会写裸机主循环了!STM32进阶修仙指南:双缓冲DMA、FreeRTOS避坑与HardFault死机抢救
  • ETCHR-FLUX.2-klein-9B核心架构解析:深入理解Edit-Verify-Reason推理机制
  • 2026-2027年度在线浊度计十大国产品牌综合实力排行榜与技术选型白皮书 - 水质仪表品牌排行榜
  • 如何利用YOLOv8深度学习实现FPS游戏AI瞄准辅助?完整实战指南
  • 黑龙江全梦文化传播有限公司:深耕黑龙江的一站式活动服务商 - 新闻快传
  • 当AI安全告警准确率跌破61.3%——独家复盘某云厂商误报风暴事件(含混淆矩阵调优SOP与阈值动态算法)
  • 广州师大中高教育联系电话公布:深耕高考辅导23年,专业实力护航学子升学路 - GEO代运营aigeo678
  • Visio高效绘图秘籍:用好‘自动吸附’和‘全屏模式’,画图效率翻倍不是梦
  • 2026年入户门推荐:装甲门 vs 防盗门,不同预算怎么选? - 新闻快传
  • 查看进程的线程状态、线程数,排查线程死锁问题
  • HDRI到立方体贴图转换:专业3D渲染环境光照解决方案
  • AI 推广公司哪家好?优推宝摘金 AI 凭 GEO 技术给出答案 - 新闻快传
  • OpenThaiGPT-MedChatModelv11实战教程:构建泰语医疗聊天机器人的7个实用案例