当前位置：首页 > news >正文

Agent Skill开发实战：可声明、可隔离、可验证的生产级规范

news 2026/6/21 22:23:10

1. 这不是“又一个AI教程”，而是一份Agent Skill的实操生存手册

你点开这个标题，大概率不是想听“Agent是什么”“Skill有多重要”这种教科书定义。你可能刚在Cursor Pro里敲下第一行@skill，结果弹出红色报错；也可能在调试一个调用天气API的Skill时，发现LLM返回的JSON字段名和文档对不上；更可能是在团队协作中，别人复现不了你本地跑通的Skill，最后卡在环境变量拼写错误上——这些都不是理论问题，是每天真实发生的、让人抓狂的“五秒崩溃现场”。我过去三年带过17个落地项目，从智能工单分派到产线设备告警归因，所有稳定运行超过6个月的Agent系统，背后都有一套被反复锤炼过的Skill开发与调试方法论。它不依赖某个特定框架（LangChain、LlamaIndex、Dify还是自研），而是聚焦在“人如何与模型协同完成确定性任务”这一本质。核心就三点：Skill必须可声明、可隔离、可验证。所谓“可声明”，是指Skill的输入输出契约必须像函数签名一样清晰，不能靠LLM自由发挥；“可隔离”意味着每个Skill应有独立的执行上下文、依赖和错误处理边界，避免一个失败拖垮整个Agent链；“可验证”则要求每个Skill必须自带最小化测试用例，且测试能脱离LLM直接运行。这三原则看似简单，但90%的线上故障都源于其中某一条被绕过。比如用@tool装饰器自动注册Skill时，开发者常忽略参数校验逻辑，导致LLM传入空字符串触发下游HTTP 400错误；再比如把数据库连接池放在Skill外部全局变量里，多线程并发时连接被意外关闭。本文不讲大道理，只拆解真实项目里踩过的坑、压测过的参数、写死在CI脚本里的检查项。如果你正面临“Skill写完不敢上线”“调试时不知道该看日志还是重写Prompt”“团队交接时新人三天搞不清Skill数据流向”的困境，这篇就是为你写的。

2. Skill的本质：从“函数封装”到“可信能力单元”的认知跃迁

2.1 为什么传统函数思维在Agent场景下会失效？

很多人初学Skill开发，第一反应是“不就是把Python函数加上@skill装饰器吗？”——这恰恰是最大的认知陷阱。普通函数的输入输出是确定性的：传入user_id=123，必然返回{"name": "张三", "email": "zhang@example.com"}。但Skill不同，它的输入来自LLM的自然语言解析结果，而LLM的解析本身就有不确定性。举个真实案例：我们为客服Agent开发一个“查订单状态”Skill，LLM需要从用户问句“我昨天下的单还没发货”中提取订单号。当用户说“订单号是ABC-789”，LLM可能正确解析为{"order_id": "ABC-789"}；但当用户说“那个单号尾号是789”，LLM可能错误解析为{"order_id": "789"}。如果Skill函数不做输入校验，直接拿"789"去查数据库，必然返回空结果，Agent就会困惑地回复“没找到这个订单”，而用户实际想查的是ABC-789。这就是函数思维失效的核心：Skill的输入契约不是由开发者定义的，而是由LLM的解析能力决定的。因此，Skill必须包含三层防御：第一层是LLM提示词约束（如明确要求“只提取完整订单号，不要截取部分”）；第二层是Skill内部参数校验（如用正则^ABC-\d{3}$验证order_id格式）；第三层是业务兜底（如当查不到时，主动调用“模糊搜索”Skill尝试匹配）。这三层缺一不可，而多数教程只讲第一层。

2.2 Skill的四个黄金属性：可声明、可隔离、可验证、可追溯

基于上述认知，我们提炼出Skill必须具备的四个硬性属性，它们共同构成生产环境可用的基石：

可声明（Declarative）：Skill的元信息必须能被机器读取，而非仅存在于文档中。这包括：
- name：全局唯一标识符，建议用domain_action_object格式（如ecommerce_check_order_status），避免checkOrder这类易冲突命名；
- description：不超过100字的自然语言描述，需明确说明“做什么”和“不做什么”（如“查询指定订单的当前物流状态，不支持查询历史订单”）；
- parameters：严格遵循JSON Schema定义，包含type、description、example及required字段。特别注意example必须是真实可用的测试值，而非"string"这种占位符；
- returns：同样用JSON Schema描述返回结构，强制要求包含success布尔字段和data/error二选一字段。
可隔离（Isolated）：每个Skill必须拥有独立的执行生命周期。这意味着：
- 依赖隔离：Skill内不得直接引用全局数据库连接或缓存实例。正确做法是通过依赖注入传入db_client或cache_client，并在Skill初始化时创建专用连接池（如redis.ConnectionPool(max_connections=5)）；
- 超时控制：必须设置硬性超时（如timeout=8.0秒），且超时后要主动释放所有资源（如关闭HTTP连接、回滚数据库事务）；
- 错误边界：Skill内部异常不得向上抛出至Agent调度层。所有异常必须被捕获并转换为标准错误响应（如{"success": false, "error": {"code": "INVALID_PARAM", "message": "order_id格式错误"}}）。
可验证（Verifiable）：每个Skill必须附带可离线运行的测试用例。我们强制要求：
- 每个Skill至少包含3类测试：正常流程（happy path）、边界输入（如空字符串、超长字符串）、错误模拟（如手动抛出requests.Timeout）；
- 测试必须覆盖所有parameters字段的组合，使用pytest的@pytest.mark.parametrize实现；
- 测试运行时禁用真实网络请求，全部Mock为responses库拦截，确保毫秒级执行。
可追溯（Traceable）：Skill执行过程必须生成可关联的追踪ID。我们在所有Skill入口统一注入trace_id参数，并在日志中强制打印[SKILL:ecommerce_check_order_status][TRACE:abc123]前缀。当Agent链路出现故障时，运维只需在ELK中搜索TRACE:abc123，即可串联起从LLM解析、Skill执行到最终响应的全链路日志，无需翻查多个服务日志。

提示：很多团队用@tool装饰器自动注册Skill，却忽略了装饰器本身可能成为单点故障。我们曾遇到因装饰器中inspect.signature()在Python 3.12+版本行为变更，导致所有Skill注册失败的问题。因此，我们改用显式注册表SKILL_REGISTRY = {}，在模块加载时手动调用register_skill(skill_func)，虽然代码多两行，但彻底规避了元编程风险。

2.3 Skill与传统API的本质区别：状态感知与上下文继承

这是最容易被忽略的关键点。传统REST API是无状态的：每次请求携带完整上下文，服务端不保存任何会话信息。但Skill不同，它天然运行在Agent的上下文环境中。例如，用户说“把刚才查到的订单取消掉”，这里的“刚才查到的”就是隐式上下文。Skill必须能访问这个上下文，否则无法完成连贯操作。我们的解决方案是：所有Skill函数的第一个参数必须是context: Dict[str, Any]，其中预置了last_skill_result、user_profile、session_id等关键字段。以“取消订单”Skill为例，其函数签名是：

def cancel_order(context: dict, order_id: str = None) -> dict: if not order_id: # 尝试从上一个Skill结果中提取order_id last_result = context.get("last_skill_result", {}) if last_result.get("success") and "order_id" in last_result.get("data", {}): order_id = last_result["data"]["order_id"] # 后续业务逻辑...

这种设计让Skill既能独立运行（传入order_id），也能无缝融入Agent对话流（不传order_id时自动继承上下文）。而传统API无法做到这点，因为它没有“上一个请求”的概念。这也是为什么直接把现有API包装成Skill往往失败——缺少上下文感知能力。

3. 开发全流程：从零构建一个生产级Weather Skill

3.1 需求拆解与契约定义：先写Schema，再写代码

我们以“查询城市天气”Skill为例，演示完整开发流程。第一步不是打开IDE，而是用JSON Schema明确定义输入输出契约。这一步耗时可能占整个开发的30%，但它能避免后续80%的返工。

输入Schema（weather_query.json）：

{ "type": "object", "properties": { "city": { "type": "string", "description": "城市名称，支持中文或英文，如'北京'或'Beijing'", "minLength": 2, "maxLength": 20, "examples": ["北京", "Shanghai"] }, "unit": { "type": "string", "description": "温度单位，'celsius'或'fahrenheit'", "enum": ["celsius", "fahrenheit"], "default": "celsius" } }, "required": ["city"], "additionalProperties": false }

输出Schema（weather_response.json）：

{ "type": "object", "properties": { "success": { "type": "boolean" }, "data": { "type": "object", "properties": { "city": {"type": "string"}, "temperature": {"type": "number"}, "condition": {"type": "string"}, "humidity": {"type": "integer", "minimum": 0, "maximum": 100}, "wind_speed": {"type": "number"} }, "required": ["city", "temperature", "condition"] }, "error": { "type": "object", "properties": { "code": {"type": "string"}, "message": {"type": "string"} } } } }

为什么坚持先写Schema？因为这是与LLM沟通的“宪法”。当LLM需要调用此Skill时，我们将其作为System Prompt的一部分注入：

你是一个专业天气助手。当用户询问天气时，必须调用weather_query技能。 技能参数必须严格遵循以下JSON Schema： {...weather_query.json内容...} 禁止添加任何额外字段，禁止修改字段名。

实测表明，明确提供Schema比仅用自然语言描述准确率提升47%。更重要的是，Schema成为自动化测试的基石——我们用jsonschema.validate()在Skill入口处校验输入，任何不符合Schema的参数都会立即返回标准化错误，而不是让错误蔓延到下游HTTP请求。

3.2 代码实现：嵌入式错误处理与资源管理

基于上述Schema，我们编写生产级Skill代码。重点展示三个关键实践：

第一，输入校验与规范化：

import re from typing import Dict, Any import jsonschema # 预编译正则，避免每次调用都编译 CITY_NAME_PATTERN = re.compile(r'^[\u4e00-\u9fa5a-zA-Z\s\-\(\)]{2,20}$') def _validate_city_name(city: str) -> bool: """城市名校验：只允许中英文、空格、短横线、括号""" return bool(CITY_NAME_PATTERN.match(city.strip())) def weather_query(context: Dict[str, Any], city: str, unit: str = "celsius") -> Dict[str, Any]: # 步骤1：严格校验输入 try: # 使用预定义Schema校验 jsonschema.validate(instance={"city": city, "unit": unit}, schema=WEATHER_QUERY_SCHEMA) except jsonschema.ValidationError as e: return { "success": False, "error": { "code": "INVALID_INPUT", "message": f"参数校验失败: {e.message}" } } # 步骤2：规范化城市名（去除首尾空格，统一编码） normalized_city = city.strip() if not _validate_city_name(normalized_city): return { "success": False, "error": { "code": "INVALID_CITY_NAME", "message": "城市名称包含非法字符，请使用中英文、空格或短横线" } }

第二，HTTP客户端与超时控制：

import requests from requests.adapters import HTTPAdapter from urllib3.util.retry import Retry # 全局复用的会话对象，带连接池和重试策略 _weather_session = None def _get_weather_session() -> requests.Session: global _weather_session if _weather_session is None: _weather_session = requests.Session() # 配置连接池：最大10个连接，每个主机最多5个 adapter = HTTPAdapter( pool_connections=10, pool_maxsize=5, max_retries=Retry( total=3, backoff_factor=0.3, status_forcelist=[429, 500, 502, 503, 504] ) ) _weather_session.mount("http://", adapter) _weather_session.mount("https://", adapter) return _weather_session def weather_query(context: Dict[str, Any], city: str, unit: str = "celsius") -> Dict[str, Any]: # ... 前面的校验代码 ... # 步骤3：发起HTTP请求，带硬性超时 session = _get_weather_session() try: # 总超时8秒：连接2秒 + 读取6秒 response = session.get( "https://api.weather.example/v1/current", params={"q": normalized_city, "units": unit}, timeout=(2.0, 6.0) # (connect_timeout, read_timeout) ) response.raise_for_status() data = response.json() # 步骤4：结果映射与结构化 return { "success": True, "data": { "city": data.get("location", {}).get("name", normalized_city), "temperature": data.get("current", {}).get("temp_c" if unit == "celsius" else "temp_f", 0.0), "condition": data.get("current", {}).get("condition", {}).get("text", "Unknown"), "humidity": data.get("current", {}).get("humidity", 50), "wind_speed": data.get("current", {}).get("wind_kph", 0.0) } } except requests.exceptions.Timeout: return { "success": False, "error": { "code": "API_TIMEOUT", "message": "天气服务响应超时，请稍后重试" } } except requests.exceptions.ConnectionError: return { "success": False, "error": { "code": "API_UNAVAILABLE", "message": "天气服务暂时不可用" } } except requests.exceptions.HTTPError as e: # 处理4xx/5xx错误 if response.status_code == 404: return { "success": False, "error": { "code": "CITY_NOT_FOUND", "message": f"未找到城市'{normalized_city}'的天气数据" } } else: return { "success": False, "error": { "code": "API_ERROR", "message": f"天气服务返回错误: {response.status_code}" } } except Exception as e: # 捕获所有其他异常，防止崩溃 return { "success": False, "error": { "code": "INTERNAL_ERROR", "message": "天气查询内部错误" } }

第三，依赖注入与测试友好设计：

# 为测试预留接口：允许传入mock session def weather_query( context: Dict[str, Any], city: str, unit: str = "celsius", session: requests.Session = None # 可选参数，生产环境用全局session，测试用mock ) -> Dict[str, Any]: if session is None: session = _get_weather_session() # ... 后续逻辑使用传入的session ...

注意：这里没有使用@lru_cache等装饰器缓存结果，因为天气数据时效性强（通常5分钟更新一次），缓存反而会导致用户看到过期信息。我们选择在Agent层统一处理缓存策略，而非在Skill内部耦合。

3.3 注册与发现：让Agent“看见”你的Skill

Skill写完后，必须被Agent框架识别。我们采用显式注册方式，避免装饰器的隐式风险：

# skills/__init__.py from .weather import weather_query # 全局注册表 SKILL_REGISTRY = {} def register_skill(func): """注册Skill到全局表""" name = func.__name__ # 自动从函数docstring提取description description = func.__doc__.strip() if func.__doc__ else "" SKILL_REGISTRY[name] = { "func": func, "name": name, "description": description, "parameters": WEATHER_QUERY_SCHEMA, # 预加载的Schema "returns": WEATHER_RESPONSE_SCHEMA } # 执行注册 register_skill(weather_query) # 导出供Agent使用 __all__ = ["SKILL_REGISTRY"]

Agent调度器通过SKILL_REGISTRY获取所有Skill元信息，并在LLM调用时动态执行：

def execute_skill(skill_name: str, **kwargs) -> Dict[str, Any]: if skill_name not in SKILL_REGISTRY: return {"success": False, "error": {"code": "SKILL_NOT_FOUND", "message": f"技能'{skill_name}'不存在"}} skill_info = SKILL_REGISTRY[skill_name] try: # 注入trace_id和context kwargs["context"] = { "trace_id": generate_trace_id(), "last_skill_result": get_last_result(), "user_profile": get_user_profile() } return skill_info["func"](**kwargs) except Exception as e: # 统一错误包装 return {"success": False, "error": {"code": "EXECUTION_ERROR", "message": str(e)}}

这种设计让Skill完全解耦于Agent框架，你可以轻松将SKILL_REGISTRY导出为OpenAPI文档，供前端或其他服务调用。

4. 调试实战：从“LLM胡说八道”到精准定位故障根因

4.1 调试的三大误区：为什么你总在日志里大海捞针？

调试Skill最常犯的三个错误，直接导致问题排查时间翻倍：

误区一：只看最终输出，不看中间步骤
当Agent返回“抱歉，我无法查询天气”，你第一反应是检查weather_query函数？错。应该先确认LLM是否真的调用了这个Skill。我们在所有Agent框架中强制开启llm_call_log，记录LLM的原始输出（含<tool>标签）。如果日志里根本没有<tool name="weather_query">，说明问题出在Prompt工程或LLM能力上，而非Skill代码。
误区二：在生产环境调试，用print大法
曾有团队在生产服务器上加print("DEBUG: city=", city)，结果日志刷屏导致磁盘爆满。正确做法是：所有调试信息必须通过结构化日志（如logger.debug("weather_query_input", extra={"city": city, "unit": unit})），并配置日志级别开关。我们CI部署时默认LOG_LEVEL=INFO，只有DEBUG级别才输出详细参数。
误区三：忽略上下文污染
用户连续问：“北京天气？”→“上海呢？”→“北京湿度多少？”，第三个问题中的“北京”可能被LLM错误关联到第二个问题的“上海”，导致传入city="Shanghai"。这不是Skill的bug，而是上下文管理缺陷。我们为此开发了ContextDebugger工具，在每次Skill调用前dump完整context字典，用diff工具对比前后变化，快速定位上下文被篡改的位置。

4.2 四层调试法：从LLM到网络的逐层穿透

我们建立了一套标准化的四层调试流程，每层对应不同角色的排查范围：

层级	责任人	关键检查点	工具/命令
L1：LLM解析层	Prompt工程师	LLM是否正确识别Skill调用？参数是否符合Schema？	`grep -A5 "<tool name=\"weather_query\">" llm.log`
L2：Skill执行层	Skill开发者	Skill函数是否被调用？输入参数是否合法？内部逻辑是否执行？	`journalctl -u agent-service -n 100 --no-pager \| grep "weather_query"`
L3：依赖服务层	运维/SRE	天气API是否可达？响应是否符合预期？	`curl -v "https://api.weather.example/v1/current?q=Beijing"`
L4：基础设施层	平台工程师	网络策略是否放行？DNS解析是否正常？TLS证书是否过期？	`telnet api.weather.example 443`,`openssl s_client -connect api.weather.example:443`

实战案例：用户反馈“查北京天气总是返回错误”

L1检查：发现LLM日志中<tool name="weather_query"><param name="city">北京</param></tool>，参数正确；
L2检查：Skill日志显示[SKILL:weather_query][TRACE:xyz789] city='北京', unit='celsius'，输入正常；
L3检查：手动curl返回{"error": {"code": "RATE_LIMIT_EXCEEDED"}}，确认是天气API限流；
L4检查：curl -I显示HTTP 429，证实是服务端限流，非网络问题。
最终解决方案：在Skill中增加限流降级逻辑——当检测到429错误时，返回缓存的昨日天气数据，并提示“当前天气服务繁忙，显示昨日数据”。

4.3 日志规范：让每一行日志都成为破案线索

生产环境日志不是越多越好，而是要每行都可追溯、可关联。我们强制要求Skill日志包含五个必填字段：

import logging import time # 自定义日志处理器 class SkillLogFormatter(logging.Formatter): def format(self, record): # 添加trace_id（从context中提取或生成） trace_id = getattr(record, 'trace_id', 'unknown') # 添加skill_name skill_name = getattr(record, 'skill_name', 'unknown') # 添加执行耗时（毫秒） duration_ms = int((time.time() - getattr(record, 'start_time', time.time())) * 1000) record.trace_id = trace_id record.skill_name = skill_name record.duration_ms = duration_ms return super().format(record) # 在Skill入口统一打点 def weather_query(context: dict, city: str, unit: str = "celsius") -> dict: start_time = time.time() trace_id = context.get("trace_id", "unknown") logger = logging.getLogger("skill.weather") logger.info("weather_query_start", extra={ "trace_id": trace_id, "skill_name": "weather_query", "start_time": start_time, "city": city, "unit": unit }) try: # ... 主逻辑 ... result = {...} logger.info("weather_query_success", extra={ "trace_id": trace_id, "duration_ms": int((time.time() - start_time) * 1000), "result_keys": list(result.keys()) }) return result except Exception as e: logger.error("weather_query_error", extra={ "trace_id": trace_id, "error_type": type(e).__name__, "error_message": str(e) }) raise

这样，当运维在Kibana中搜索trace_id: xyz789时，能看到完整的执行链：

[INFO] weather_query_start trace_id=xyz789 city=北京 unit=celsius [INFO] weather_query_success trace_id=xyz789 duration_ms=324 result_keys=['success','data'] [ERROR] weather_query_error trace_id=xyz789 error_type=Timeout error_message=HTTP request timeout

实操心得：我们曾因日志中未记录duration_ms，导致无法区分是LLM解析慢还是Skill执行慢。后来强制所有Skill日志必须包含耗时字段，并在Grafana中建立“Skill P95延迟”看板，当某Skill延迟突增时，自动触发告警并关联最近的代码提交。

5. 常见问题与避坑指南：那些没人告诉你的“血泪教训”

5.1 参数传递陷阱：为什么LLM总传错参数类型？

LLM在生成JSON参数时，对数据类型的处理极不严谨。我们统计了10万个真实调用，发现以下高频错误：

错误类型	示例	占比	解决方案
数字转字符串	`"temperature": "25"`（应为`25`）	38%	在Skill入口用`int(param)`强转，并捕获`ValueError`
布尔值错写	`"is_rainy": "true"`（应为`true`）	22%	用`json.loads()`解析后再校验类型，而非直接`== "true"`
空数组/对象	`"tags": []`（但Schema要求`"tags": {"type": "string"}`）	19%	在JSON Schema中明确`"minItems": 1`或`"minProperties": 1`
多余字段	多传了`"timestamp"`字段	15%	Schema中设置`"additionalProperties": false`，并启用严格校验

避坑技巧：我们开发了一个TypeCoercer工具，在Skill执行前自动修正常见类型错误：

def coerce_types(params: dict, schema: dict) -> dict: """根据JSON Schema自动修正参数类型""" coerced = {} for key, prop in schema.get("properties", {}).items(): if key not in params: continue value = params[key] target_type = prop.get("type") if target_type == "integer" and isinstance(value, str): try: coerced[key] = int(value) except ValueError: pass # 保留原值，由后续校验处理 elif target_type == "number" and isinstance(value, str): try: coerced[key] = float(value) except ValueError: pass elif target_type == "boolean" and isinstance(value, str): if value.lower() in ("true", "1", "yes"): coerced[key] = True elif value.lower() in ("false", "0", "no"): coerced[key] = False else: coerced[key] = value return coerced # 在Skill入口调用 params = coerce_types(raw_params, WEATHER_QUERY_SCHEMA)

5.2 并发安全：为什么你的Skill在高并发下随机失败？

Skill常被误认为是无状态的，但实际中大量使用共享资源：

全局变量污染：如_cache = {}被多个线程同时写入，导致数据错乱；
连接池耗尽：未配置max_connections，100并发请求创建100个HTTP连接，超出服务端限制；
文件锁冲突：多个Skill进程同时写入同一日志文件，造成内容覆盖。

解决方案：

全局变量：全部替换为threading.local()或contextvars.ContextVar。例如：

from contextvars import ContextVar _request_id_var = ContextVar('request_id', default=None) def weather_query(context: dict, city: str, ...) -> dict: _request_id_var.set(context.get("trace_id")) # 后续函数可通过_request_id_var.get()获取，线程安全

连接池：如前所述，使用urllib3的ConnectionPool，并设置合理maxsize（通常为CPU核心数×2）；
文件写入：用logging.FileHandler替代open()，它内置线程安全锁。

5.3 测试覆盖率盲区：90%的测试没覆盖的三个致命场景

很多团队的Skill测试覆盖率标称95%，但线上仍频繁出问题。问题出在测试用例设计上：

场景一：LLM参数缺失时的默认值处理
测试只覆盖weather_query(city="北京", unit="celsius")，但未测试weather_query(city="北京")（unit用默认值）。当LLM省略unit参数时，Skill可能因unit=None导致HTTP请求失败。
场景二：网络抖动下的重试逻辑
测试用responsesMock所有HTTP请求，但未模拟ConnectionError或Timeout。结果线上遇到网络波动时，Skill直接崩溃而非优雅重试。
场景三：大响应体的内存溢出
测试用小JSON响应（<1KB），但真实天气API返回5MB的XML数据。当Skill用response.text加载时，内存飙升导致OOM。

我们的测试清单：

必须测试所有可选参数的缺失场景；
必须用responses.RequestsMock模拟ConnectionError、Timeout、HTTPError(429)；
必须用pytest的--mem-limit=100MB参数限制内存，防止大响应体泄露；
必须在CI中运行mypy类型检查，确保weather_query的参数类型与Schema一致。

最后分享一个小技巧：我们给每个Skill配置一个debug_mode: bool环境变量。当开启时，Skill会返回额外的debug_info字段，包含原始HTTP响应头、重试次数、缓存命中状态等。这比临时加print高效十倍，且可随时关闭。

6. 生产就绪 checklist：上线前必须完成的12项验证

在Skill交付生产前，我们执行一份严格的12项检查清单，任何一项未通过即阻断发布：

Schema合规性：输入/输出Schema已通过jsonschema.Draft202012Validator验证；
参数校验：所有可选参数均有默认值，且默认值通过jsonschema.validate；
错误码完备：覆盖所有可能错误路径，且错误码符合{domain}_{error_type}规范（如WEATHER_API_TIMEOUT）；
超时设置：硬性超时已配置，且小于Agent整体超时（如Agent超时30秒，则Skill超时≤25秒）；
连接池配置：HTTP/DB连接池maxsize已根据QPS计算，公式为maxsize = (QPS × avg_latency_sec) × 2；
日志字段：日志中包含trace_id、skill_name、duration_ms、status（success/error）；
测试覆盖：pytest --cov=skills --cov-report=html显示分支覆盖≥95%；
性能基线：本地压测locust显示P95延迟≤200ms（天气类Skill）；
依赖隔离：pipdeptree --reverse --packages your-skill确认无意外依赖；
安全扫描：bandit -r skills/无HIGH或CRITICAL风险；
文档同步：docs/skills/weather.md已更新，包含Schema、示例、错误码表；
回滚预案：rollback.sh脚本已验证，可在30秒内回退到上一版本。