第十章 重新设计
1. 本章要解决的问题
当一个任务失败、超时、漂移或返回不可用的输出时,最常见的反应是立即重试。乍看之下,重试很实用:快捷、熟悉,不需要重新设计。但实际上,重复重试通常掩盖真正的问题——任务已不再稳定。
典型的失败序列易于观察:任务失败一次,于是团队“确认”性重试;下一次运行超时,他们增加更多指令再试;再下一次运行完成,但输出不可用,于是他们修补措辞再试。每个循环都改变输入和期望,但保持相同的任务标签,token 使用增加,而对结果的信心却没有。
这种模式制造了虚假的进展感:活动增加,但恢复没有。操作风险不在于某一次不良运行,而在于在同一弱任务设计下重复不稳定运行。一旦重试替代了重新设计,多个失败会同时累积:同一边界缺陷被重复,自动化继承缺陷,长期使用放大不一致,失控更有可能。
关键的纠正很简单但需要纪律:把失败当作设计反馈,而不是继续尝试同一任务的信号。本章解决的正是这个问题:如何通过受控重新设计从失败任务中恢复,如何简化和重新确定范围以防止进一步漂移,以及何时丢弃一个任务比持续不稳定迭代更安全。
2. 适用和不适用场景
适用场景
任务多次失败,完成质量没有明显改善;
尽管修改措辞,运行频繁超时;
输出不断偏离目标,即使重复同样指令;
任务“完成”了,但结果对预期用途仍然不可用;
重试循环增加,但每次循环产生的新信息越来越少;
自动化在多个周期中重复相同的失败模式;
