当前位置：首页 > news >正文

Claude Skill不是Prompt，而是Tool Chain编排协议

news 2026/6/24 18:18:44

1. 别再抄 Skill.md 了：为什么90%的 Claude 技能文件一上线就失效

我第一次把别人 GitHub 上抄来的skill.md文件丢进 Claude Code 的 workspace，满怀期待地输入“帮我生成一个带登录页的 React 组件”，结果等了三秒，只弹出一行灰字：prompt has no outputs。不是报错，不是超时，是彻底静音——像对着空房间喊话，连回声都没有。后来我翻遍日志，发现它根本没触发任何 tool 调用，连最基础的allowed-tools参数都没被识别。那一刻我才意识到：所谓“Claude Skill”，根本不是把.md文件拖进去就能跑通的配置项，而是一套需要在真实交互中反复校准的行为契约。

这和你在网上搜到的“Claude.md 通用开发规范模板”“claude.md vue 通用开发规范模板”完全不是一回事。那些模板里堆砌着整齐的 YAML 头、漂亮的 JSON Schema 示例、甚至带注释的allowed-tools列表，但它们全是在真空里设计的。真实场景中，用户不会按你的预设路径走——他可能突然问“刚才那个组件能不能加个暗色模式开关？”，也可能在第三轮对话里甩给你一张手绘草图说“照这个改”。Skill 的真正价值，从来不在文档格式多标准，而在于它能否在这些非结构化、高噪声、强上下文依赖的对话流里，稳稳接住每一次意图跃迁。

关键词里反复出现的context overflow: prompt too large for the model和auto-compaction failed，恰恰暴露了模板派最大的死穴：他们把 Skill 当成静态说明书来写，却忘了 Claude 的推理引擎是在动态压缩整个对话历史的前提下做决策的。一个写满 20 个 tool 描述、嵌套 5 层条件判断、附带 3 个示例 prompt 的skill.md，在首次加载时就会被自动裁剪——不是删掉不重要的部分，而是按 token 顺序暴力截断。我实测过，当 skill 文件超过 1800 tokens，Claude Code 的 workspace 就会静默丢弃后半段内容，而你根本看不到任何警告。更讽刺的是，那些被当成“最佳实践”传播的“claude.md 例子”，很多恰恰卡在 1790~1810 tokens 这个临界点上。

所以别再问“有没有好用的 claude.md”了。真正管用的 Skill，从来不是从模板库里复制粘贴出来的，而是从你上周帮产品同事紧急修复的那个 API 调用失败、上个月被测试反复打回来的 UI 校验逻辑、甚至昨天凌晨三点客户发来的那段语无伦次的需求描述里，一点点抠出来的。它长什么样？不是 YAML 格式多漂亮，而是当你看到用户输入“把订单状态改成已发货，顺便通知客户”，Skill 能立刻识别出这是两个强耦合动作（状态变更 + 消息推送），且知道必须先调updateOrderStatus再触发sendNotification，中间不能插入任何其他操作——这种对业务脉络的肌肉记忆，才是 Skill 的灵魂。

提示：所有声称“开箱即用”的 Skill 模板，都默认你使用的是标准 REST API + JSON Schema + 无状态服务。一旦你的系统存在强事务约束（如“扣库存必须在创建订单之后”）、异步回调（如支付成功需等待 webhook）、或领域专有术语（如金融场景的“T+1 结算”），这些模板立刻失效。这不是 Claude 的问题，是你没把 Skill 当成业务逻辑的映射，而当成格式转换器。

2. Skill 的本质不是 Prompt，而是 Tool Chain 的编排协议

很多人把skill.md理解成高级 Prompt 工程，这是最危险的认知偏差。Prompt engineering 的核心确实是“指令设计、角色设定、输出格式控制”，但 Skill 的核心是Tool Chain 编排协议——它定义的不是“让模型说什么”，而是“在什么条件下调用哪个工具、按什么顺序、传什么参数、失败后怎么降级”。举个具体例子：当用户说“查下张三最近三笔订单”，Skill 要完成的不是生成一段 SQL，而是精确执行以下链路：

先调用getUserById工具，用模糊匹配从用户库找出“张三”对应的真实 user_id（因为用户可能输错别名、用小号注册）；
再用该 user_id 调用getOrdersByUserId，但必须显式指定limit=3且sort_by=created_at DESC；
若第二步返回空，需主动触发getOrdersByPhone作为兜底（因用户可能用手机号登录但未绑定姓名）；
最终将三笔订单数据按order_id分组，提取status、total_amount、shipping_address字段生成摘要。

这个过程里，allowed-tools参数根本不是简单罗列工具名，而是声明一个有向无环图（DAG）：getUserById → getOrdersByUserId → (fallback) getOrdersByPhone。每个节点还必须携带required_params（如getOrdersByUserId必须有user_id）、optional_params（如limit默认为 5）、error_handling（如getOrdersByUserId超时则跳转 fallback）。我在实际项目中发现，83% 的 Skill 失效案例，根源都在allowed-tools的声明过于扁平——只写了[getUserById, getOrdersByUserId]，却没声明它们之间的依赖关系和参数流向。

更关键的是，Skill 必须处理工具调用的副作用。比如updateOrderStatus工具执行成功后，系统状态已变，后续所有查询都应基于新状态。但 Claude 的上下文窗口是静态快照，它不会自动感知外部状态变更。解决方案是在 Skill 中强制插入state_sync钩子：当updateOrderStatus返回success: true，Skill 必须立即触发refreshOrderCache工具（哪怕这个工具只是清空本地缓存），否则下一句“查下当前订单状态”就会返回过期数据。这个细节在所有公开模板里都被忽略，因为模板作者没经历过生产环境里因缓存不一致导致的资损事故。

我们团队曾为电商客服系统开发 Skill，初期直接套用社区模板，结果用户问“订单还没发货，能取消吗？”，Skill 正确调用了canCancelOrder工具并返回true，但当用户紧接着说“那就取消”，Skill 却调用了cancelOrder而不是cancelOrderWithRefund（因原订单含预付款）。问题出在哪？在allowed-tools声明里，cancelOrder和cancelOrderWithRefund是并列的，Skill 没法根据前序canCancelOrder的返回值refundable: true动态选择分支。最终方案是在 Skill 中增加tool_selection_logic字段，用极简 JS 表达式定义：“若canCancelOrder.refundable === true，则优先选cancelOrderWithRefund”。这已经超出传统 Prompt 的范畴，进入工作流引擎的领域。

注意：Claude 的 tool 调用不是原子操作。当 Skill 声明allowed-tools: [A, B, C]，模型可能在单次响应中并发调用 A 和 B，也可能分两次调用 A→C。真正的 Skill 开发者必须预设所有可能的调用序列，并为每种序列设计参数传递机制。例如A的输出必须能被C直接解析为input_id，否则链路就断了——这要求你在写skill.md时，本质上是在编写一套轻量级的函数式编程接口。

3. 从实战中提炼 Skill：一个真实电商售后工单系统的拆解

去年我们接手一个老电商系统的售后模块重构，原始流程是客服在后台手动查订单、填退款单、发邮件、更新状态，平均处理时长 12 分钟/单。目标是用 Claude Code 实现 80% 工单自动闭环。没人给我们现成的 Skill，所有东西都得从零抠。我带你完整复盘这个 Skill 是怎么从一团乱麻的需求里长出来的。

第一步，不是写代码，而是记录 50 个真实工单对话。我们导出上周全部售后工单的客服聊天记录，人工标注每句话的意图类型（如“申请退货”“催物流”“质疑扣款”）、涉及实体（订单号、商品 ID、快递单号）、隐含约束（如“退货必须在签收后 7 天内”）。很快发现三个高频模式：

模式 A：用户发截图+文字“这个颜色和页面不一样，要退货”，客服需先识别图片中的商品，再关联订单，最后判断是否符合退货政策；
模式 B：用户说“物流三天没更新”，客服要查快递轨迹，若停滞超 48 小时则自动触发投诉；
模式 C：用户怒吼“扣了我两笔钱！”，客服得拉取该用户近 7 天所有支付流水，比对重复扣款。

第二步，针对每个模式设计最小可行 Skill（MVP Skill）。以模式 A 为例，我们没一开始就搞 OCR 识别图片，而是先做最保守的假设：用户一定会提供订单号。于是第一个 MVP Skill 只做三件事：

用正则提取用户消息里的ORDER-[0-9]{8}；
调用getOrderDetail工具查该订单；
若订单状态为shipped且商品数 >1，则返回“请提供要退货的商品名称或图片”。

这个 MVP Skill 只有 42 行，但上线后拦截了 63% 的无效咨询——用户看到提示后，会主动补全信息。这才是 Skill 的真实价值：它不是万能助手，而是智能过滤器+精准引导器。

第三步，逐步注入业务规则。当 MVP 验证有效后，我们开始加入退货政策引擎。这里的关键转折点是发现：平台政策文档里写的“签收后 7 天内可退”，在数据库字段里叫return_window_days，但客服实际操作时，会根据商品类目动态调整（如生鲜类目只有 24 小时）。于是 Skill 中新增getReturnPolicy工具，输入order_id后返回{window_hours: 24, reason_required: true, photo_required: false}。这个工具的输出直接决定后续流程分支——如果photo_required: true，Skill 就必须在用户提交退货申请后，强制追问“请上传商品现状照片”。

第四步，处理边界异常。上线第三天，监控报警：getOrderDetail工具连续 17 次返回404。排查发现是用户把订单号输错了两位，但 Skill 没做容错。我们立刻在 Skill 中增加fuzzySearchOrder工具作为 fallback，并设置重试策略：若getOrderDetail失败，则用编辑距离算法匹配相似订单号，最多尝试 3 个近似值。这个改动让工单自动处理率从 63% 跳到 89%。

整个过程没有写过一行“标准模板”，所有 Skill 结构都源于真实对话的痛点。最终交付的skill.md文件里，allowed-tools不是平铺列表，而是按业务域分组：

tools: - group: "order_lookup" tools: [getOrderDetail, fuzzySearchOrder] - group: "return_policy" tools: [getReturnPolicy, checkReturnEligibility] - group: "action_execution" tools: [createReturnRequest, sendReturnLabel, refundPayment]

每个 group 内部还有execution_order和dependency_rules。这才是从实战里长出来的 Skill——它长得不像教科书，但每行都带着生产环境的包浆。

提示：别迷信“prompt engineering核心技巧”。在售后场景中，最有效的“技巧”是把客服话术库里的标准回复（如“亲，您的退货申请已受理，预计 3 个工作日内完成审核”）直接写进 Skill 的default_responses字段。Claude 不会自己编这种话，但它能精准触发你预设的模板。这比花 3 小时调优 temperature 参数实在得多。

4. Skill 开发的四大反直觉真相：为什么越“专业”的人越容易踩坑

从业十年，我见过太多资深工程师、Prompt 工程师、甚至 AI 架构师，在 Claude Skill 开发上栽跟头。他们往往带着强大的技术背景入场，结果反而比新手犯更多致命错误。这里总结四个最反直觉的真相，全是血泪教训。

真相一：Skill 文件越短，效果越好——但“短”不等于“少”
新手总想塞进更多功能，资深者更危险：他们习惯用“优雅架构”思维，把 Skill 设计成微服务网关，支持 20+ 工具、5 层嵌套条件、3 种认证方式。结果呢？Claude 的 context compaction 算法会优先保留开头的 YAML 头和工具列表，把最关键的tool_selection_logic截断。我们做过压力测试：当skill.md从 1200 tokens 增加到 2100 tokens，有效工具调用率下降 47%，而其中 32% 的失败是因为tool_selection_logic表达式被截成半截（如if (order.status === 'shipped' && order.）。解决方案？把 Skill 拆成多个专用文件：order_lookup.skill.md、return_process.skill.md、payment_refund.skill.md，每个文件专注一个垂直场景。Claude 支持同时加载多个 Skill，这比单个大文件可靠十倍。

真相二：Allowed-tools 不是白名单，而是“能力地图”
几乎所有教程都说allowed-tools是允许调用的工具列表，这是严重误导。实际上，它是 Claude 的能力认知地图——模型会根据这个列表反推你的系统能力边界。比如你只写了[getOrderDetail]，当用户问“这个订单的快递单号是多少？”，Claude 会认为“系统无法提供物流信息”，从而拒绝回答。但如果你加上[getOrderDetail, getTrackingInfo]，即使getTrackingInfo在当前 Skill 里没写任何逻辑，Claude 也会尝试调用它。我们在测试中发现，添加一个空壳工具声明（仅 name 和 description），能让相关意图识别率提升 22%。所以allowed-tools的本质是告诉模型：“我的系统能做什么”，而不是“这次允许做什么”。

真相三：Skill 的调试成本，90% 花在日志分析而非代码修改
你以为写完skill.md就能测试？错。Claude Code 的 workspace 日志极其吝啬：它只记录“调用了哪个工具”“返回了什么”，但从不告诉你“为什么调用这个工具而不是那个”。我们花了两周时间，才搞懂日志里tool_call_attempted: getOrderDetail和tool_call_executed: getOrderDetail的区别——前者表示模型决定调用，后者表示工具真的执行了。中间可能因参数校验失败而静默跳过。最终解决方案是自建日志增强层：在每个工具入口加埋点，记录model_decision_reason（如“因用户消息含‘订单号’关键词，且上下文有 recent_order_id”）。没有这个，你永远在猜模型的黑盒决策。

真相四：最危险的 Skill，是“完美运行”了两周的那一个
上线后一切正常，客服反馈效率提升明显，老板夸你厉害……然后某天凌晨 2 点，监控炸了：auto-compaction failed (context overflow: prompt too large for the model)。原因？某个新接入的 CRM 系统，在用户资料里增加了 200 字的“会员等级权益说明”，导致getCustomerProfile工具返回的数据体积翻倍。而你的 Skill 里有条逻辑：“若用户是 VIP，则跳过身份二次验证”，这条逻辑本身没问题，但 VIP 权益文本太长，撑爆了上下文。所以真正的 Skill 维护，不是写完就结束，而是持续监控每个工具的输出 token 长度分布，给allowed-tools加max_output_tokens限制。我们现在的规范是：任何工具返回数据超过 500 tokens，必须触发告警并自动启用摘要模式。

注意：别被“claude code 安装教程”“claude code 下载”这类搜索词带偏。安装只是 5 分钟的事，真正的战场在skill.md的每一行。那些教你如何配置 Anaconda Prompt 或解决virtual machine platform not available的文章，和 Skill 开发毫无关系——除非你的工具本身需要虚拟机环境，但那是另一个维度的问题了。

5. 从零构建一个可用 Skill：电商退货申请的完整实现

现在，我们动手做一个真正能跑通的 Skill：处理用户发起的退货申请。不抄模板，不讲理论，只呈现从需求到上线的完整链路。所有代码、配置、测试用例都来自我们正在运行的生产环境。

5.1 需求还原：用户到底怎么说？

先看真实用户输入（脱敏）：

“订单 ORDER-88293012 的衣服色差太大，要退货”
“买的衣服和网页图片完全不一样，申请退货，地址是北京市朝阳区XX路XX号”
“这个衬衫我穿了一次就洗坏了，必须退货！快递单号 SF123456789CN”

共性是什么？用户一定提供订单号（或快递单号），可能提供退货原因、新收货地址、商品问题描述。但绝不会说“请调用 createReturnRequest 工具，参数为 {order_id: 'ORDER-88293012', reason: 'color_difference'}”——那是开发者语言，不是人类语言。

5.2 工具准备：只做三件事的极简工具集

我们只开发三个工具，每个都经过生产验证：

getOrderDetail：输入order_id，返回{order_id, status, items: [{sku, name, quantity}], shipping_address}
validateReturnEligibility：输入order_id和reason（如color_difference,defective），返回{eligible: true/false, message: "签收超7天，不可退"}
createReturnRequest：输入order_id,reason,return_address（可选），返回{request_id, return_label_url, estimated_refund}

注意：createReturnRequest的return_address参数是可选的，因为 72% 的用户不提供新地址，默认用原订单地址。这个细节决定了 Skill 的健壮性。

5.3 Skill.md 核心结构：去掉所有装饰，只留骨架

# 电商退货申请 Skill ## 元数据 version: "1.2" author: "售后系统团队" description: "处理用户发起的退货申请，自动校验资格并创建工单" ## 工具能力声明 allowed-tools: - name: "getOrderDetail" description: "根据订单号查询订单详情，包括商品列表和收货地址" required_params: ["order_id"] output_schema: type: "object" properties: order_id: {type: "string"} status: {type: "string", enum: ["shipped", "delivered", "cancelled"]} items: {type: "array", items: {type: "object", properties: {sku: {type: "string"}, name: {type: "string"}}}} shipping_address: {type: "string"} - name: "validateReturnEligibility" description: "校验订单是否符合退货政策，输入订单号和退货原因" required_params: ["order_id", "reason"] optional_params: ["image_url"] # 用户可能发图片 output_schema: type: "object" properties: eligible: {type: "boolean"} message: {type: "string"} - name: "createReturnRequest" description: "创建退货工单，生成退货标签和预计退款金额" required_params: ["order_id", "reason"] optional_params: ["return_address"] output_schema: type: "object" properties: request_id: {type: "string"} return_label_url: {type: "string"} estimated_refund: {type: "number"} ## 执行逻辑 tool_selection_logic: | // 第一步：必须先获取订单详情 if (!context.has_order_detail) { return "getOrderDetail"; } // 第二步：校验退货资格（必须在获取订单后） if (!context.eligibility_checked && context.has_order_detail) { return "validateReturnEligibility"; } // 第三步：创建退货请求（仅当资格校验通过） if (context.eligibility_checked && context.eligibility_result.eligible) { return "createReturnRequest"; } // 失败兜底：返回拒绝原因 if (context.eligibility_checked && !context.eligibility_result.eligible) { return "return_rejection_message"; } ## 默认响应 default_responses: return_rejection_message: | 很抱歉，您的退货申请暂不符合条件：{{context.eligibility_result.message}}。 如有疑问，请联系客服。

这个skill.md只有 218 行，但覆盖了所有关键路径。重点看tool_selection_logic：它不是静态列表，而是带状态机的 JS 表达式。context对象会自动累积每次工具调用的结果，has_order_detail是布尔标记，eligibility_result是上一次validateReturnEligibility的返回值——这才是真正的 Skill 编排。

5.4 测试用例：用真实对话驱动验证

我们不写单元测试，而是用真实对话做验收：

测试 1（基础流程）
用户输入：“订单 ORDER-88293012 的衣服色差太大，要退货”
预期链路：getOrderDetail→validateReturnEligibility→createReturnRequest
实际结果：成功创建工单，返回request_id: RTN-2024-88293012
测试 2（地址缺失）
用户输入：“ORDER-88293012 退货，衣服洗坏了”
预期：createReturnRequest自动使用shipping_address作为return_address
实际结果：退货标签生成成功，地址正确
测试 3（资格拒绝）
用户输入：“ORDER-11111111 退货，不喜欢”（该订单签收已超 7 天）
预期：validateReturnEligibility返回eligible: false，Skill 触发return_rejection_message
实际结果：返回“很抱歉，您的退货申请暂不符合条件：签收超7天，不可退。”

每个测试都用生产环境的完整对话流跑，不是 mock 数据。我们坚持一个原则：Skill 的测试用例，必须是从客服聊天记录里直接复制粘贴的原始文本。

5.5 上线后的持续进化：每天看三份日志

Skill 上线不是终点，而是起点。我们每天固定做三件事：

看失败日志：筛选所有tool_call_failed的记录，看是参数错误（如订单号格式不对）、网络超时、还是权限不足。上周发现 12% 的失败是因为用户输错订单号，于是我们在getOrderDetail工具里加了模糊匹配，准确率提升到 99.2%。
看工具调用分布：统计validateReturnEligibility的reason参数分布。发现“色差”占比 37%，“洗坏”占 22%，但“尺寸不合适”只有 5%——说明用户很少主动提尺码问题，可能前端没提供足够选项。这个洞察推动了产品改版。
看响应时长：监控createReturnRequest的 P95 延迟。当它从 1.2s 涨到 1.8s，我们立刻检查是否是新接入的风控服务拖慢了，而不是怪 Skill 写得不好。

真正的 Skill 开发者，一半时间在写代码，一半时间在读日志。那些教你“claude skill 怎么写”的文章，从不告诉你日志里context_overflow和tool_call_skipped的区别，但这就是生产环境的日常。

提示：别被“claude code ui”“claude code desktop”这些词分散注意力。UI 只是外壳，Skill 的生命力在skill.md的逻辑里。我们团队用 CLI 工具管理所有 Skill，因为图形界面会隐藏关键的 token 计数和调用链路——而这些，正是你每天要盯的命门。

查看全文

http://www.jsqmd.com/news/1073660/