当前位置：首页 > news >正文

AI智能体开发新范式：用测试驱动开发（TDD）构建可靠Agent技能

news 2026/5/15 16:31:23

1. 项目概述：当AI智能体遇上测试驱动开发

最近在AI智能体（Agent）的开发圈子里，一个名为agent-skill-tdd的项目引起了我的注意。这个项目来自Shelpuk-AI-Technology-Consulting，光看名字就很有意思——它把“智能体技能”和“测试驱动开发”这两个看似关联不大的概念结合在了一起。作为一个在软件工程和AI应用领域摸爬滚打了十多年的老手，我深知这两个领域各自的痛点：AI智能体开发迭代快、行为难以预测、调试困难；而传统的软件开发，尤其是测试驱动开发，则强调确定性、可重复性和高质量。这个项目试图用TDD的“紧箍咒”来驯服AI智能体这匹“野马”，这个想法本身就充满了挑战和吸引力。

简单来说，agent-skill-tdd是一个为AI智能体（特别是基于大语言模型的Agent）技能开发提供测试驱动开发框架和最佳实践的项目。它不是一个具体的Agent应用，而是一套方法论、工具链和脚手架，旨在帮助开发者像开发传统软件功能一样，以可测试、可验证、可维护的方式来构建和迭代Agent的“技能”。这里的“技能”可以理解为Agent能执行的特定任务，比如解析用户意图、调用外部API、处理特定格式的数据、进行多轮对话决策等。这个项目解决的核心问题是：如何确保AI智能体的行为符合预期，并在持续迭代中保持稳定可靠？它适合所有正在或计划开发AI智能体的工程师、研究员和产品经理，尤其是那些被Agent的“黑盒”特性和不稳定性所困扰的团队。

2. 核心理念与架构设计拆解

2.1 为什么AI智能体需要TDD？

传统的TDD（测试驱动开发）流程是“红-绿-重构”：先写一个失败的测试（红），然后写最简单的代码让测试通过（绿），最后重构代码优化结构。这套流程在确定性逻辑的软件开发中成效卓著。但AI智能体，尤其是基于LLM的Agent，其核心是概率模型，输出具有不确定性。直接套用TDD似乎行不通——你无法为一个“请写一首诗”的指令预先确定唯一的、可测试的“正确”输出。

agent-skill-tdd项目的巧妙之处在于，它没有试图去测试LLM本身的输出内容（那将是徒劳的），而是将测试的焦点转移到了“技能的逻辑边界”、“数据流转”和“行为模式”上。举个例子，一个“天气查询”技能，我们不测试LLM生成的描述天气的自然语言是否优美，而是测试：

意图识别：当用户输入“北京今天天气怎么样？”时，技能是否能正确解析出城市“北京”和意图“查询天气”。
参数提取与验证：是否能正确处理缺失城市（如“今天天气如何？”）的情况，并触发澄清流程；或是否能拒绝无效城市（如“火星的天气”）。
外部调用：在获得有效参数后，是否能以正确的格式和参数调用预设的天气API。
响应结构化：无论API返回什么数据，技能是否能将其封装成Agent框架要求的固定格式（如包含content和tool_calls字段的对象）。

通过这种方式，我们将不可测的“创造性文本生成”隔离出去，转而确保驱动文本生成的“决策逻辑”和“工作流程”是正确且健壮的。这正是agent-skill-tdd的基石。

2.2 项目核心架构与组件

根据项目理念，其架构通常围绕以下几个核心组件构建：

技能抽象层：定义“技能”的通用接口。一个技能可能包含：技能名称、描述、输入参数模式、执行函数、后置处理函数等。这为每个技能提供了清晰的契约。
测试框架适配器：项目需要与流行的Python测试框架（如pytest、unittest）深度集成。它提供了一套针对Agent技能测试的断言库和夹具（Fixtures）。例如，assert_skill_parsed_intent(user_input, expected_intent)或assert_tool_called(skill_execution_result, tool_name, expected_args)。
Mock与沙盒环境：这是TDD的关键。为了隔离测试，必须能够Mock LLM的调用、外部API的请求、数据库查询等所有I/O操作。项目需要提供便捷的方式来模拟LLM返回特定的内容，或者模拟外部服务返回成功/失败的数据。
测试用例模板与脚手架：提供生成技能测试用例的模板，引导开发者按照“给定-当-那么”（Given-When-Then）的模式编写测试。同时，CLI工具可以快速创建一个新技能的目录结构，包含占位代码和对应的测试文件。
持续集成（CI）流水线示例：展示如何将技能测试集成到CI/CD流程中，确保每次提交都能自动运行所有技能测试，防止回归。

注意：将TDD引入Agent开发，最大的思维转变是从“测试输出结果”转向“测试行为与契约”。我们不再问“LLM说了什么？”，而是问“在某种输入和模拟环境下，技能是否按照既定规则做出了正确的决策和调用？”

3. 核心技能开发流程与实操要点

3.1 定义技能契约与编写首个失败测试

假设我们要开发一个“会议安排”技能。第一步不是去写调用日历API的代码，而是定义该技能的“契约”，并为之编写测试。

契约定义：

技能名称：schedule_meeting
描述：解析用户关于安排会议的请求，提取参会人、时间、主题等信息。
输入：自然语言文本。
输出：一个结构化的数据对象，包含action（如call_calendar_api）、parameters（提取的会议信息）或clarification（需要向用户澄清的问题）。

接下来，在tests/test_schedule_meeting.py中，我们编写第一个测试：

import pytest from your_agent_framework.skill import schedule_meeting def test_parses_meeting_intent_with_full_details(): # Given: 用户提供了完整的会议信息 user_input = “明天下午三点和Alice、Bob开一个项目评审会，主题是Q2规划” # When: 执行技能解析 result = schedule_meeting.parse(user_input) # Then: 应该正确解析出所有字段，并决定调用日历API assert result.action == “call_calendar_api” assert result.parameters[“attendees”] == [“Alice”, “Bob”] assert result.parameters[“time”] == “明天下午三点” assert result.parameters[“topic”] == “项目评审会 - Q2规划” # 注意：此时`schedule_meeting.parse`方法还不存在，测试会失败（红）。

这个测试描述了我们期望技能具备的“理想行为”。运行测试，它必然失败。但这正是TDD的第一步：用测试来定义需求。

3.2 实现技能逻辑与使测试变绿

为了使测试通过，我们需要实现schedule_meeting技能。这里的关键是，我们不会直接让技能去调用一个真实的LLM。相反，我们使用项目提供的Mock工具。

首先，在技能实现中，我们会调用一个LLM服务来解析用户输入。在测试环境下，我们需要Mock这个调用：

# conftest.py 或测试文件中 @pytest.fixture def mock_llm_client(mocker): # 假设我们使用一个名为`llm_client`的模块 mock_client = mocker.patch(“skills.schedule_meeting.llm_client”) # 预设LLM返回一个结构化的JSON，模拟完美的解析结果 mock_client.chat_completion.return_value = { “function_call”: { “name”: “extract_meeting_info”, “arguments”: json.dumps({ “attendees”: [“Alice”, “Bob”], “time”: “明天下午三点”, “topic”: “项目评审会 - Q2规划” }) } } return mock_client def test_parses_meeting_intent_with_full_details(mock_llm_client): # ... 测试代码同上 # 现在，当技能内部调用`llm_client.chat_completion`时，会返回我们预设的数据 # 技能逻辑只需将这个JSON解析并组装成`result`对象即可

然后，我们实现schedule_meeting.parse函数的最简版本，它只是将Mock的LLM返回数据转换成测试期望的格式。运行测试，它应该通过（绿）。

3.3 处理边界情况与异常流

一个健壮的技能必须处理各种边界情况。我们继续用测试驱动这些功能的实现。

测试缺失信息时的澄清行为：

def test_requests_clarification_when_time_missing(mock_llm_client): # Given: LLM被Mock为返回一个缺少时间的解析结果 mock_llm_client.chat_completion.return_value = { “function_call”: { “name”: “extract_meeting_info”, “arguments”: json.dumps({“attendees”: [“Alice”], “topic”: “聊天”, “time”: None}) } } user_input = “和Alice聊聊天” result = schedule_meeting.parse(user_input) # Then: 技能应返回一个要求澄清时间的动作 assert result.action == “clarify” assert “time” in result.clarification_question

为了实现这个测试，我们需要修改技能逻辑，使其检查解析出的参数是否完整，如果不完整，则返回clarify动作。这个过程就是TDD的节奏：添加一个失败测试 -> 实现最小功能 -> 通过测试 -> 重构。

测试无效输入的防御：

def test_handles_gibberish_input(mock_llm_client): # Given: LLM解析失败或返回无法理解的内容 mock_llm_client.chat_completion.return_value = {“content”: “我无法理解您的请求。”} user_input = “asdf1234!@#$” result = schedule_meeting.parse(user_input) # Then: 技能应优雅地失败，返回一个友好的错误信息或降级处理动作 assert result.action == “fallback” assert “抱歉” in result.fallback_message

3.4 集成测试与外部依赖Mock

技能的最终步骤可能是调用真实的日历API。在单元测试中，我们必须Mock这个外部调用。但在集成测试中，我们可能希望测试从用户输入到最终API调用的完整链条（仍然使用Mock API）。

agent-skill-tdd项目应提供优雅的方式来处理这种场景：

from unittest.mock import Mock import responses # 使用 `responses` 库来Mock HTTP请求 @responses.activate def test_full_happy_path_integration(mock_llm_client): # Mock LLM解析 mock_llm_client.chat_completion.return_value = { ... } # 完整数据 # Mock 日历API的成功响应 responses.post( “https://api.calendar.com/v1/events”, json={“eventId”: “123”, “status”: “created”}, status=201 ) user_input = “明天下午三点和Alice开会” # 这里调用技能的“执行”函数，而不仅仅是“解析”函数 final_result = schedule_meeting.execute(user_input, user_context={...}) # 验证API是否以正确的参数被调用 assert len(responses.calls) == 1 api_call_body = json.loads(responses.calls[0].request.body) assert api_call_body[“attendees”] == [“Alice”] # 验证返回给用户的最终结果 assert “会议已创建，ID: 123” in final_result.content

通过这种方式，我们虽然Mock了所有外部服务，但完整地测试了技能内部的逻辑流、错误处理和与外部世界的交互协议。

实操心得：在Mock LLM时，不要只Mock一种成功情况。要构建一个“LLM行为模拟库”，覆盖典型成功、部分成功（缺失字段）、完全失败、输出格式错误等多种场景。这能极大提升技能代码的鲁棒性。可以将这些Mock场景定义在共通的夹具（fixture）中，供所有测试用例复用。

4. 测试策略与质量保障体系构建

4.1 测试金字塔在Agent技能开发中的应用

对于Agent技能，测试金字塔依然适用，但每一层的关注点有所不同：

单元测试（底层，最多）：
- 对象：单个技能函数、工具函数、数据解析器、校验逻辑。
- 重点：纯逻辑。所有LLM调用、API调用、数据库访问都必须被Mock掉。
- 目标：确保核心业务逻辑（如参数校验、状态转换、决策树）百分百正确。执行速度极快。
- 示例：测试一个“日期时间标准化”函数，输入“下周一中午”，是否能输出正确的ISO时间字符串。
集成测试（中层，适量）：
- 对象：单个完整技能，或多个技能/工具的协作。
- 重点：组件间集成。Mock外部服务（LLM、API），但测试技能内部从输入解析、决策到准备调用参数的完整流程。
- 目标：确保技能内各模块协作无误，与外部服务的交互协议（请求格式、错误处理）正确。
- 示例：上面提到的test_full_happy_path_integration。
端到端测试（顶层，最少）：
- 对象：整个Agent系统，或包含关键技能链路的场景。
- 重点：用户旅程和整体行为。可以使用轻量级真实LLM（如小型开源模型）或精心设计的确定性Mock，配合测试专用的外部服务沙盒。
- 目标：验证关键用户场景能走通，整体体验符合预期。这类测试运行慢、成本高、较脆弱，应聚焦于核心价值流。
- 示例：测试“用户从提出安排会议需求，到最终在日历中看到事件”的完整闭环。

agent-skill-tdd项目应倡导并赋能这种金字塔型的测试策略，提供不同层级测试的编写范例和工具支持。

4.2 确定性测试与非确定性管理的平衡

LLM的非确定性是最大的挑战。agent-skill-tdd的核心哲学是“将非确定性封装起来，测试其周围的确定性逻辑”。具体策略如下：

结构化输出约束：强制要求LLM的输出必须是严格的JSON、XML或特定格式。这样，测试可以验证格式是否正确，即使内容有一定波动（如用词不同），只要关键字段存在且类型正确，就可以认为通过。
语义相似度断言：对于必须检查文本内容的场景，不使用精确匹配，而是使用嵌入向量计算余弦相似度，或使用LLM本身（另一个调用）来判断两次输出是否语义一致。这需要在测试框架中集成相应的断言方法，如assert_semantically_equal(actual, expected, threshold=0.9)。
分类与枚举验证：如果输出应该是几个类别之一（如“同意”、“拒绝”、“澄清”），则测试验证输出是否属于这个枚举集，而不关心具体表述。
黄金数据集与评估：对于核心技能，维护一个“黄金数据集”，包含标准输入和期望的输出要点。在CI中定期运行评估，计算技能在数据集上的准确率、召回率等指标，观察指标变化而非单个测试的通过与否。

4.3 持续集成与测试数据管理

将技能测试集成到CI/CD管道至关重要。.github/workflows/test-skills.yml可能如下所示：

name: Test Agent Skills on: [push, pull_request] jobs: test: runs-on: ubuntu-latest steps: - uses: actions/checkout@v3 - name: Set up Python uses: actions/setup-python@v4 with: { python-version: ‘3.11’ } - name: Install dependencies run: pip install -r requirements-dev.txt - name: Run unit & integration tests run: pytest tests/ -xvs —cov=skills —cov-report=xml - name: Upload coverage uses: codecov/codecov-action@v3 with: { files: ./coverage.xml } # 可选：定期在schedule触发时运行端到端测试或黄金数据集评估

对于测试数据（尤其是Mock LLM返回的复杂数据），建议使用YAML或JSON文件管理，与测试代码分离。例如，test_data/schedule_meeting/llm_responses.yaml：

full_meeting_request: function_call: name: extract_meeting_info arguments: > {“attendees”: [“Alice”, “Bob”], “time”: “明天下午三点”, “topic”: “项目评审会”} missing_time: function_call: name: extract_meeting_info arguments: > {“attendees”: [“Alice”], “time”: null, “topic”: “聊天”}

在测试中通过夹具加载这些数据，提高可维护性。

5. 常见问题、调试技巧与实战避坑指南

在实际采用agent-skill-tdd方法开发多个技能后，我积累了一些常见问题的解决思路和调试技巧。

5.1 典型问题与解决方案速查表

问题现象	可能原因	排查步骤与解决方案
测试时好时坏，非确定性失败	1. LLM Mock不完整，依赖了未Mock的真实调用。 2. 测试依赖外部状态（如数据库、缓存）未清理。 3. 使用了系统时间等未隔离的变量。	1. 使用`pytest —lf`运行上次失败的测试，快速复现。 2. 在测试中打印或记录技能执行过程中的所有关键决策点和数据。 3. 确保使用`mocker.patch`覆盖了所有可能的I/O路径，包括间接导入的模块。 4. 使用`pytest`的`autouse`fixture 确保每个测试用例前后环境完全隔离。
技能在测试中通过，但在真实环境表现异常	1. Mock数据过于理想化，未覆盖真实LLM输出的多样性（如格式错误、额外字段）。 2. 未测试网络超时、API限流等异常情况。 3. 技能逻辑依赖于未在测试中设置的上下文（如用户会话历史）。	1. 丰富Mock数据，加入“脏数据”用例，测试技能的防御性编程。 2. 为外部服务Mock添加延迟、异常响应（如429、500状态码）。 3. 在集成测试中，构建真实的上下文对象进行测试。
测试编写繁琐，Mock设置代码冗长	技能依赖过多外部服务，每个测试都要设置大量Mock。	1.封装通用Mock夹具：将常用的LLM响应、API响应封装成可重用的pytest fixture。 2.使用工厂模式：创建响应工厂函数，根据参数生成不同的Mock数据。 3.采用面向契约的测试：只Mock接口，使用像`responses`或`vcr.py`这样的库来录制和回放真实的HTTP交互（用于集成测试）。
无法为某些复杂技能编写有意义的测试	技能逻辑过于复杂，或与LLM的创造性生成紧密耦合，难以分离出可测试的确定性部分。	1.重构技能：尝试将技能拆解为更小的、功能单一的“子技能”或“工具”。复杂的编排逻辑本身可以成为一个可测试的“协调器”。 2.提升测试层级：如果无法单元测试，就为其编写集成测试或端到端测试，使用沙盒环境和评估指标来衡量其表现。

5.2 高效的调试技巧

可视化技能执行流：在技能的关键节点（如解析后、决策后、调用工具前）添加结构化日志。在测试失败时，这些日志能清晰展示数据是如何一步步变化的。可以考虑使用像structlog这样的库。
使用交互式调试器：在测试用例中，可以在调用技能函数前设置断点（import pdb; pdb.set_trace()），然后使用pytest -xvs —pdb运行测试。当测试失败时，会自动跳转到pdb调试器，让你可以检查当时的变量状态、Mock对象是否被正确调用。
对比测试快照：对于输出复杂对象的技能，在首次测试通过时，可以将输出结果作为“快照”保存到文件。后续测试运行时，将实际结果与快照对比。这有助于快速发现非预期的输出变化。pytest有snapshot插件可以使用。
隔离问题：当一个集成测试失败时，快速编写一个更小、更聚焦的单元测试来复现问题的核心。这能帮你迅速定位是业务逻辑错误、Mock设置错误还是集成问题。

5.3 从项目实践中总结的避坑经验

不要过度Mock：Mock是为了隔离和速度，但过度Mock会导致测试与实现细节耦合。应该Mock“服务”（如LLM接口、数据库客户端），而不是内部工具函数。一旦内部实现改变，过度Mock的测试会大量失败，维护成本高。
测试状态，而非实现：关注技能的输入和输出（状态变化），而不是它内部具体如何一步步实现的。这样，当你重构技能内部代码（比如更换LLM提示词）时，只要输入输出行为不变，测试就应该依然通过。
为“坏天气”场景编写测试：大家容易为“阳光大道”（happy path）写测试，但真正体现技能健壮性的是对错误输入、网络失败、服务降级等“坏天气”场景的处理。这部分测试往往能发现最多的bug。
将TDD作为设计工具，而不仅仅是测试工具：在编写测试时，你就在思考技能的接口设计。如果发现一个测试很难写，或者需要Mock太多东西，这通常是一个信号：你的技能可能设计得过于庞大或耦合度过高。这时应该停下来重新设计，将其拆分成更小、更专注的组件。agent-skill-tdd的最大价值或许正在于此——它通过测试的“可测试性”要求，倒逼出更清晰、更模块化的Agent架构。

采用agent-skill-tdd这套方法论，初期可能会感觉速度变慢，因为要花时间写测试。但从中长期看，它带来的好处是巨大的：技能行为可预测、重构有信心、新人上手能通过测试理解功能、团队协作有共同的质量基准。尤其是在AI应用快速迭代的今天，一个拥有良好测试覆盖的技能库，是团队能够持续、稳定交付价值的压舱石。

查看全文

http://www.jsqmd.com/news/822748/