当前位置：首页 > news >正文

AI任务自动化五阶段工作流：从需求到代码的可靠实践

news 2026/5/12 5:52:46

1. 项目概述：从混乱到有序的AI任务自动化五阶段工作流

上次我们聊了这套自动化系统的技术架构，把JIRA、GitHub和Cursor智能体串了起来。今天咱们不聊“怎么连”，聊聊“怎么跑”——也就是那个能把一个粗糙的需求工单，最终变成一行行被合并的代码，同时还不让开发团队抓狂的完整流程。很多团队一上来就搞“工单丢给AI，AI直接写代码”，结果无一例外都崩了。要么是AI完全误解了需求，写出一堆风马牛不相及的东西；要么就是开发团队试了一次，被糟糕的合并请求（PR）吓到，从此再也不信任任何自动化工具。问题的根源，其实不在于提示词写得不够好，而在于缺少一个结构化的交接流程。我们摸索出来的这套“五阶段”工作流，核心就是两个AI处理阶段，加上三个关键的人工审核卡点，让AI从不越界“猜”需求，而是严格在人类划定的跑道内工作。

2. 核心流程拆解：五阶段工作流详解

这个流程的精髓在于“分而治之”和“渐进式确认”。AI不直接从模糊的需求跳到具体的代码，而是在人类的监督下，分步骤地澄清、计划、执行。下面，我就把这五个阶段掰开揉碎了讲清楚。

2.1 第一阶段：需求精炼（人工）

一切始于一个工单。这个工单可以非常粗糙，比如产品经理或业务分析师随手写下的：“为支付Webhook超时场景增加错误处理。” 它可能缺少上下文、边界条件，甚至技术实现思路。在这个阶段，状态标记为“精炼 (Refinement)”。

这个阶段完全由人工完成。其目的不是产出完美的需求文档，而是把一个想法或问题，初步固化为一个可被后续流程处理的“任务种子”。担任这个角色的人（可以是业务分析师、产品负责人，甚至是资深开发）需要确保这个种子包含了最核心的意图。即使它不完整，也比没有强。

实操心得：我们不强求工单的完美，但会要求创建者至少提供一个“为什么”和“是什么”。例如，“支付Webhook超时导致用户重复扣款，需要记录日志并触发人工复核”就比单纯一句“加错误处理”要好得多。这为后续AI的理解提供了最初的锚点。

2.2 第二阶段：智能体：精炼

当工单进入此阶段，我们的Cursor智能体就开始它的第一次表演。它的任务不是写代码，而是做需求分析和项目规划。它会读取工单描述，并自动生成以下几份关键文档，全部保存到我们链接的Confluence知识库页面：

验收标准：清晰、可验证的通过/失败条件。例如：“当支付网关Webhook响应超过30秒时，系统应在payment_webhook_logs表中记录一条状态为‘TIMEOUT’的日志，并向alerts频道发送一条Slack通知。”
完成定义：一个具体的检查清单。包括：编写单元测试、更新API文档、部署到预发布环境、进行冒烟测试等。
测试方案：手动或自动化测试的概要。例如：“1. 使用Mock服务器模拟支付网关延迟响应。2. 验证日志记录是否正确。3. 检查Slack通知是否发出。”
实施计划：类似Cursor的“计划模式”，给出文件级别的改动蓝图。例如：“修改src/webhooks/payment_handler.py，增加超时捕获和日志逻辑；更新src/utils/notifier.py，添加新的告警类型；在tests/test_webhooks.py中增加对应测试用例。”

这一切完成后，工单状态变为“计划：待审核”。此时，没有任何代码被生成，但所有人都能看到AI对需求的理解和它打算如何实现。如果理解有偏差，我们是在最廉价、最早期（写代码之前）的阶段发现它。

注意事项：智能体生成计划的质量，高度依赖于它所能访问的上下文。我们通过Cursor的“规则”和“技能”功能，让它能访问团队的代码规范文档、架构图、以及常用的工具库说明。这相当于给了AI一份“公司员工手册”，让它写出的计划更符合团队习惯。

2.3 第三阶段：计划审核（人工）

这是整个流程中性价比最高、也最不能跳过的卡点。团队负责人或资深开发会仔细审查Confluence上生成的实施计划。审核重点包括：

技术方案是否合理？AI提议的修改文件是否正确？有没有更优的架构选择？
是否遗漏了边缘情况？比如，除了超时，网络抖动导致的部分响应失败如何处理？
验收标准是否可测量？“系统应该更快”这种模糊表述必须被修正。
测试方案是否覆盖核心场景？

如果审核发现问题，审核者直接在JIRA工单或Confluence页面上留下评论，然后将工单状态打回至“智能体：精炼”。智能体会读取这些反馈，重新生成或更新计划。这个循环可以进行多次，直到计划被批准。

一旦计划通过审核，工单状态才推进到“智能体：实施”。这意味着，AI获得了一份“盖章生效”的施工图纸。

踩坑实录：我们曾尝试跳过计划审核，结果AI选择了一个看似可行但会导致后续扩展性极差的方案，代码写完后才发现，推翻重来的成本极高。一次10分钟的计划审核，避免的是可能数小时甚至数天的返工。这个阶段是建立团队对自动化信任的基石。

2.4 第四阶段：智能体：实施

此时，Cursor智能体终于开始动笔写代码了。它严格依据已审核通过的Confluence实施计划进行操作。这个过程包括：

在本地或沙盒环境中执行计划中的代码修改。
运行相关的测试套件（如果项目配置了自动化测试）。这一步能立即发现语法错误或明显的逻辑缺陷。
所有改动就绪后，智能体自动创建一个GitHub拉取请求。
这个PR的描述会自动关联原始的JIRA工单和详细的Confluence计划页面。

于是，当代码审查者点开这个PR时，他看到的不是一个黑盒：他能同时看到原始需求（JIRA）、详细设计方案（Confluence）和具体的代码差异（GitHub）。上下文是完全透明的。

如果代码审查者在PR中提出修改意见，他们只需在GitHub上留言，并将JIRA工单状态移回“智能体：实施”。智能体会读取PR中的评论，理解所需的更改，更新代码，并推送新的提交。这个过程可以迭代，直到代码符合要求。

2.5 第五阶段：代码审查（人工）

这是最后一道，也是必不可少的人工关卡。审查者进行标准的代码审查，关注代码风格、逻辑严谨性、性能、安全性等。如果审查通过，则合并PR。如果发现问题，则像上一步所述，提供反馈并打回至第四阶段。

合并后，工单通常会进入“测试”阶段（可能由QA手动测试或运行集成测试套件），最终关闭。至此，一个由粗糙想法驱动的任务，经过五次结构化的状态转移，安全、可控地转化为了生产代码。

3. 为什么这套工作流行之有效

这套看起来略显繁琐的流程，实际上通过几个关键设计，大幅提升了自动化实践的可靠性和团队接受度。

3.1 基于核准计划工作，而非盲目猜测

这是最核心的原则。AI在“实施”阶段，不是在解析模糊的人类语言，而是在执行一份已经经过人类专家审核的、明确的“施工图”。这从根本上杜绝了它因误解而产生的方向性错误。当它仍然出错时（比如某个函数用法不对），错误也被局限在“执行偏差”而非“方向错误”的范围内，修正成本要低得多。

3.2 前置设计评审，廉价捕获重大缺陷

第三阶段的“计划审核”是一个杠杆率极高的活动。在代码尚未编写时，评审一个文本计划的速度极快，通常只需几分钟到十几分钟。但就是这短短的时间，可以拦截掉错误的技术选型、遗漏的核心场景，避免后续成百上千行代码推倒重来。这是一种典型的“在错误成本最低的阶段进行干预”的工程思想。

3.3 构建低成本反馈循环

流程中设计了两个可以快速回溯的点：“计划审核不通过”回到第二阶段，“代码审查不通过”回到第四阶段。这种回溯不是惩罚，而是高效的迭代。AI能立即读取到结构化的反馈（JIRA评论或PR评论），并在完整上下文中重新执行任务。无需资深工程师介入重写，也无需复杂的解释，系统自动完成迭代。这降低了使用门槛，也让反馈变得即时、有效。

3.4 渐进式建立信任

我们不会一开始就让AI处理最核心、最复杂的业务模块。而是从一些定义清晰、边界明确的小任务开始，例如“给某个API增加一个可选的查询参数”、“修复某个拼写错误”或“更新某段依赖库的版本”。随着一个个小任务被成功、可靠地完成，团队对自动化流程的信心会逐渐积累。之后，再逐步将更复杂的任务纳入流程。

4. 实战中的经验教训与工具选型

在构建和运行这套流程的一年多里，我们积累了不少血泪教训，也做了关键的工具选型决策。

4.1 工具栈的抉择：为什么是Cursor + GitHub + Confluence？

我们并非没有尝试过其他方案。例如，Atlassian自家推出的Rovo等AI工具，在当时（可能现在有所改进）完全无法满足我们这种需要深度定制和精准控制的工作流需求。它们更像是一个黑盒，我们无法清晰地介入其决策过程，也无法将其无缝嵌入到我们已有的开发流水线中。

Cursor的核心优势在于它的“智能体”功能可以被深度定制，通过“规则”和“技能”赋予其团队知识，并且它能以命令行工具的形式运行，完美集成到CI/CD脚本或我们自定义的自动化流程中。

GitHub作为代码托管和协作平台，其PR、Issue、Actions生态是事实上的标准。AI生成的PR能天然地融入开发团队现有的评审习惯。

Confluence作为“计划工件”的载体至关重要。JIRA的工单描述字段太局限，不适合承载包含代码片段、图表、版本历史的详细设计文档。Confluence提供了丰富的格式、评论线程和页面历史，使得“实施计划”成为一个活的、可协作的文档，而不仅仅是一段文本。

4.2 计划审核：绝不能省略的生死线

这一点值得再次强调。无论任务看起来多么简单，跳过“计划审核”都曾让我们付出代价。AI可能会选择一个过于复杂的方法，或者忽略了一个隐藏在代码深处的依赖关系。计划审核是确保AI行驶在正确轨道上的最后一道，也是成本最低的一道手动扳道闸。它的投资回报率在整个流程中是最高的。

4.3 反馈渠道：PR评论优于工单评论

对于实施阶段的反馈，我们坚持在GitHub PR中进行评论，而不是回到JIRA工单。原因有三：

上下文精准：PR评论可以直接引用某行代码，讨论具体实现，反馈极其精确。
开发者习惯：开发人员本来就每天都在写PR评论，无需改变工作习惯。
AI理解直接：Cursor智能体能够直接读取并理解GitHub PR中的评论，无需中间转换层。你就像在跟一个实习生对话一样，指出“这里最好用哈希表查找，时间复杂度更低”，它就能理解并修改。

4.4 配置智能体的核心要点

要让Cursor智能体在“精炼”和“实施”阶段表现良好，离不开精心配置。这主要涉及三个方面：

规则：这是团队的“宪法”。我们会在规则文件中明确代码风格（如命名规范、注释要求）、安全红线（禁止使用的函数、必须进行的输入校验）、以及架构原则（如“所有外部服务调用必须被封装在Service层”）。智能体在行动时会优先遵守这些规则。
技能：这是给智能体的“工具包使用说明书”。我们会为团队内部开发的常用工具库、框架的特定模块编写技能文档。例如，我们会有一个“如何发送内部监控事件”的技能，告诉智能体应该导入哪个模块、调用哪个函数、事件格式是什么。这极大地提高了AI生成代码的准确性和一致性。
代理配置：在“精炼”阶段，我们配置的智能体更侧重于分析和文档生成，它会更多地调用搜索和总结能力。在“实施”阶段，我们配置的智能体则更专注于代码生成和修改，并绑定运行测试的命令。两者虽然基于同一个智能体模型，但通过不同的初始指令和上下文配置，扮演了不同的角色。

5. 常见问题与排查清单

即使流程设计得再完善，在实际运行中还是会遇到各种问题。下面是我们遇到的一些典型情况及其解决方法。

问题现象	可能原因	排查与解决步骤
智能体生成的计划过于笼统或技术方案错误	1. 原始工单描述过于模糊。 2. 智能体缺乏相关的“技能”或上下文。 3. 规则文件中对架构的约束不清晰。	1.打回至“精炼”阶段，并在工单中提供更具体的反馈，例如：“请考虑使用X方案替代Y方案，因为我们的Z模块采用了A模式。” 2. 检查并补充智能体可访问的技能文档，特别是涉及核心模块的部分。 3. 复审和强化规则文件中的架构指导原则。
智能体在实施阶段生成的代码无法通过现有测试	1. 测试用例本身依赖特定环境或数据。 2. 智能体对代码的修改产生了意外的副作用。 3. 实施计划中遗漏了某些测试场景。	1. 首先在PR评论中要求智能体分析测试失败的原因，它有时能自己定位并修复。 2. 检查失败的测试日志，如果是环境问题，考虑在CI配置中为AI运行任务提供Mock环境。 3. 如果问题复杂，将工单打回至“计划审核”阶段，补充测试场景描述。
流程卡住，工单长时间停留在某个AI阶段	1. 自动化脚本执行失败（如权限问题、网络超时）。 2. Cursor智能体API调用达到限额或出现错误。 3. 依赖的服务（JIRA, GitHub）不可用。	1. 查看自动化流程的监控日志和告警，这是第一排查点。 2. 检查Cursor项目的使用量统计和错误报告。 3. 设计流程的超时和重试机制，并设置人工检查点，对于超时任务自动通知负责人。
团队对AI生成的代码质量缺乏信任	1. 起步阶段就选择了过于复杂或关键的任务。 2. 计划审核阶段流于形式，没有严格执行。 3. 缺乏成功的“样板案例”建立信心。	1.从头开始，选择微小、非核心、定义明确的任务作为试点，例如更新文档、修复简单的Lint错误、添加单元测试。 2.强化计划审核的纪律，将其作为必须的、严肃的团队活动，审核意见要具体。 3. 收集并展示成功案例，让团队看到自动化在简单任务上的效率和可靠性。
Confluence计划与最终PR代码脱节	1. 智能体在实施阶段没有严格遵循计划。 2. 计划审核通过后，需求又发生了口头变更。	1. 在规则中强调“实施必须严格匹配已批准的Confluence计划”，任何偏差需在PR描述中说明。 2.确立流程纪律：任何需求变更，必须先更新Confluence计划并重新审核，再进入实施阶段。禁止绕过流程直接给AI下新指令。

6. 给实践者的核心建议与未来展望

如果你也正在考虑或已经开始用AI智能体自动化部分开发工作，我最想强调的一点就是：在审核AI的计划之前，绝不要让它开始写代码。这个“计划审核”的卡点，比你优化任何提示词、调整任何模型参数都更能节省你的调试和返工时间。它强制在抽象层面达成一致，把模糊性消灭在代码诞生之前。

这套五阶段工作流不是一个僵化的教条，而是一个可适配的框架。你可以根据团队规模、技术栈和信任程度进行调整。比如，对于非常成熟稳定的模块，或许可以合并“精炼”和“计划审核”；对于极其简单且模式固定的任务（如生成数据迁移脚本），或许可以尝试跳过人工审核。但无论如何，“人类监督”和“结构化交接”这两个核心思想必须贯穿始终。

关于未来，我们正在探索如何让“智能体：实施”阶段变得更强大。这涉及到更精细化的Cursor智能体配置，例如为不同的代码仓库或项目类型定义不同的“代理”角色，每个角色拥有专属的规则和技能集。同时，我们也在完善整个流程的监控和度量体系，比如跟踪每个阶段的平均耗时、回流率、人工干预点等，用数据来驱动流程的持续优化。自动化不是要取代开发者，而是要把开发者从重复、繁琐、定义明确的劳作中解放出来，让他们能更专注于那些真正需要创造力和深度思考的复杂问题。而一个好的工作流，就是确保这个解放过程平稳、可控、值得信赖的基石。

查看全文

http://www.jsqmd.com/news/800399/