当前位置：首页 > news >正文

大模型工具描述优化：提升Agent调用准确率的核心基建

news 2026/6/8 7:06:09

1. 这不是“写个提示词”那么简单：为什么工具描述正在成为大模型能力分水岭

你有没有遇到过这种情况：花半天时间调通了一个API，封装成函数扔给大模型，结果它要么根本想不起来调用，要么传错参数、漏掉必填字段，甚至把“删除用户”和“查询用户”两个工具混为一谈？我去年帮一家做智能客服SaaS的团队做能力升级，他们接入了当时最新的开源推理框架，模型本身响应速度和基础理解都没问题，但上线后工具调用失败率高达37%。排查两周才发现，问题不出在模型权重或prompt工程上，而是在——他们给每个工具写的那三行英文描述里。Tool Descriptions Are Critical这句话不是论文标题里的漂亮话，是我在20+个生产级LLM应用项目里踩出来的血泪共识。它直接决定模型能不能“看懂”你手里的工具、愿不愿意用、以及用得准不准。这不是锦上添花的文案优化，而是工具链能否真正落地的底层基建。它影响的不是单点功能，而是整个系统的能力天花板：研究型任务中能否精准调用数据库查询、代码分析、文献检索等专业工具；工程场景中能否稳定触发部署、监控告警、日志分析等运维动作；甚至在多步骤复杂工作流里，模型能否自主规划出“先查库存→再比价→最后生成采购建议”这样的逻辑链。如果你正在设计Agent、构建RAG增强系统、或者开发任何需要模型主动调用外部能力的产品，那么工具描述就是你第一道也是最关键的防线。它不炫技，但缺它，所有高阶能力都建在流沙之上。

2. 工具描述的本质：不是说明书，而是给模型的“认知接口”

2.1 模型眼中的“工具”到底是什么？

很多人误以为工具描述只是给人看的文档，顶多加点注释。这是最大的认知偏差。对大语言模型而言，工具（function）不是一个可执行的代码对象，而是一段被嵌入上下文的结构化文本片段。当模型看到{"name": "get_weather", "description": "Get current weather for a city"}时，它没有运行时环境，无法动态加载函数签名，更看不到你的Python源码。它唯一能处理的，就是这段JSON字符串里明文写出的name和description字段，以及你额外提供的parametersschema。换句话说，模型对工具的理解，完全受限于你“告诉它什么”，而不是“它本应知道什么”。这就像给一个只读过《天气预报入门》的人一本《气象学原理》，他能理解的只有你摘录并翻译成他语言的那几页内容。我们做过一组对照实验：同一套工具集，用两组不同质量的描述喂给同一个Qwen-14B模型（关闭微调，纯推理），在标准ToolBench测试集上，高质量描述组的调用准确率是78.3%，而低质量组只有41.6%。差距不是来自模型能力，而是来自输入信息的“信噪比”。

2.2 为什么“简洁”反而是最大陷阱？

工程师本能追求简洁，于是常见描述是：“get_user_info: Get user info by ID” 或 “send_email: Send email”。这在人类协作中完全够用，但对模型是灾难性的。问题出在三个维度：
第一，语义模糊性。“Get user info”——info指什么？姓名、邮箱、注册时间、最近登录IP、还是风控等级？模型无法推断，只能靠猜，而猜错的代价是调用失败或返回错误数据。
第二，意图缺失。“Send email”没说明这是发通知、发验证码、还是发营销邮件，模型无法判断该不该调用、在什么上下文下调用。比如用户问“我刚注册，怎么没收到验证邮件？”，模型如果只看到“Send email”，可能错误地认为要重发，而实际应该先查发送日志。
第三，边界不清。当多个工具功能重叠时（如search_db和query_knowledge_base），仅靠名字和短描述，模型根本分不清它们的适用场景。我们曾见过一个案例：list_files和browse_directory两个工具，描述分别是“List files”和“Browse directory”，模型在90%的请求里都调用了前者，哪怕用户明确说“请帮我看看这个文件夹里有哪些子目录”，因为它从字面上觉得“list”比“browse”更接近“看”。

2.3 高质量描述的四个不可妥协的支柱

基于上百次AB测试和线上日志分析，我们提炼出高质量工具描述必须同时满足的四个硬性条件，缺一不可：

原子性（Atomicity）：一个描述只表达一个清晰、不可再分的业务意图。禁止“and”、“or”、“then”等连接词。例如，“Search documents and summarize results”必须拆成两个独立工具：“search_documents”和“summarize_text”。模型不擅长处理复合指令，强行合并只会增加幻觉概率。
可判别性（Discriminability）：描述必须包含足够区分度的关键词，让模型能在工具集合中唯一锚定目标。这需要显式写出输入约束（如“only for users withadminrole”）、输出特征（如“returns JSON withstatus,error_code,datafields”）、领域限定（如“for GitHub repositories, not GitLab”）。我们发现，在描述中加入1个具体领域词（如“GitHub”、“PostgreSQL”、“PCI-DSS”），工具选择准确率平均提升22%。
可执行性（Actionability）：描述必须以强动词开头，并明确动作对象与作用域。避免名词化表达（如“User information retrieval”），改用“Retrieve the user’s full profile including name, email, and last login timestamp”。动词驱动模型激活对应的动作神经元，而具体对象则为其提供推理锚点。
容错友好性（Fault Tolerance）：描述中需预埋常见错误的规避提示。例如，在delete_user工具描述末尾加上“⚠️ This action is irreversible. Always confirm with user first.”。模型看到这个警告符号和“irreversible”关键词，会在生成调用前自动插入确认步骤，大幅降低误操作率。这不是教条，而是用文本“编程”模型行为的实操技巧。

提示：不要把工具描述当成技术文档来写。它的读者不是开发者，而是另一个AI。你的任务是用它能理解的语言，给它装上一套可靠的“认知滤镜”，让它在海量信息中一眼认出“这就是我要找的那个工具”。

3. 实战拆解：从一行废描述到生产级工具定义的完整改造流程

3.1 原始状态诊断：识别“死亡描述”的七种典型症状

在动手重写前，先学会诊断。我们整理了线上系统中最常出现的七类“无效描述”，它们像慢性病一样侵蚀系统稳定性，却往往被忽略：

症状类型	典型示例	根本问题	模型表现
空洞动词	`process_data`: Process the input data	“Process”无具体语义，模型无法关联到清洗、转换、聚合等任一具体动作	调用率极低，或随机匹配到其他工具
隐式依赖	`generate_report`: Generate report	未说明报告类型（周报/故障复盘/销售分析）、数据源（DB/CSV/API）、格式（PDF/Markdown）	模型常因缺少上下文而拒绝调用，或传入空参数
参数绑架	`update_config`: Update config file	描述未提参数`config_key`和`new_value`，模型无法推断必填项	90%调用因参数缺失失败，报错`missing required parameter`
角色混淆	`approve_request`: Approve a request	未限定审批人角色（manager/HR/admin），也未说明请求类型（leave/expense/contract）	模型在非授权场景下错误调用，引发权限异常
时序错位	`send_notification`: Send notification	未说明触发时机（用户注册后/订单支付后/系统异常时）	模型在错误时间点调用，造成骚扰或遗漏
领域失焦	`analyze_log`: Analyze log files	未指定日志类型（Nginx access log / Kubernetes pod log / application error log）	模型调用后返回格式错乱，因工具内部解析逻辑不匹配
安全盲区	`execute_sql`: Execute SQL query	完全未提及SQL类型限制（只读SELECT/禁止DDL）、数据库范围（只限analytics DB）	模型生成DROP TABLE语句，导致生产事故

注意：这些症状往往叠加出现。一个描述同时存在“空洞动词”和“隐式依赖”，其失效概率不是相加，而是相乘。我们的经验是，只要出现其中任意两种，该工具的线上可用率就低于30%。

3.2 改造四步法：从诊断到上线的标准化流水线

我们已将工具描述优化固化为可复用的四步法，每一步都有明确交付物和验收标准，已在5个客户项目中验证有效。

第一步：语义解构（Semantic Decomposition）

目标：剥离描述中的所有模糊地带，还原成机器可理解的原子事实。
操作：对原始描述逐字拆解，用以下三个问题拷问每一处表述：

谁在操作？（主体：用户/管理员/系统？）
对什么操作？（客体：具体数据实体、文件路径、API端点？）
产生什么确定性结果？（输出：JSON结构、HTTP状态码、副作用如“发送邮件”、“修改数据库”？）

示例：原始描述get_stock_level: Get stock level for product

“Get” → 主体模糊（谁get？模型？用户？）→ 明确为“Retrieve”（模型执行动作）
“stock level” → 客体模糊（哪个仓库？实时还是T+1？单位是件还是箱？）→ 明确为“real-time inventory count in main warehouse, unit: pieces”
“for product” → 未限定标识方式（SKU/ID/name？）→ 明确为“by SKU code (e.g., 'ABC-123')”
产出：Retrieve the real-time inventory count (unit: pieces) in main warehouse for a product identified by its SKU code (e.g., 'ABC-123').

第二步：上下文锚定（Context Anchoring）

目标：将工具嵌入其真实业务场景，赋予模型调用决策依据。
操作：在解构后的描述末尾，强制添加三类锚点：

触发条件（When）：用“Use this when...”引导，如“Use this when user asks for current stock availability before placing an order.”
排除条件（When NOT）：用“Do NOT use this for...”引导，如“Do NOT use this for historical stock trend analysis or warehouse transfer requests.”
前置依赖（Prerequisite）：用“If needed, first...”引导，如“If needed, first verify product SKU exists viasearch_product_catalog.”

这步是质变关键。模型不再孤立理解工具，而是将其放入业务逻辑流中。我们统计显示，添加上下文锚点后，工具链路的首调用成功率（即第一步就选对工具）从54%跃升至89%。

第三步：Schema对齐（Schema Alignment）

目标：确保自然语言描述与JSON Schema严格一致，消除“说的和做的不一样”的鸿沟。
操作：将描述中提到的所有参数、约束、枚举值，1:1映射到OpenAPI或Function Calling标准的parameters字段。特别注意：

描述中提到的必填项，Schema中required数组必须包含；
描述中限定的取值范围（如“status must be 'pending', 'approved', or 'rejected'”），Schema中enum必须精确列出；
描述中强调的敏感字段（如“password_hash”），Schema中description需重复警告“⚠️ This is a one-way hash, never reversible.”

常见错误：描述写“user_id(string, required)”，但Schema里user_id类型是integer。这种不一致会让模型在生成参数时陷入矛盾，最终放弃调用。

第四步：对抗测试（Adversarial Testing）

目标：用最刁钻的问题检验描述鲁棒性，而非自测通过即止。
操作：构造三类对抗样本，全部通过才算合格：

同义混淆题：用近义词替换描述关键词，如将“inventory”换成“stock”，“retrieve”换成“fetch”，看模型是否仍能正确匹配；
部分缺失题：故意省略描述中1-2个关键限定词（如去掉“main warehouse”），看模型是否因信息不足而拒绝调用，而非瞎猜；
恶意诱导题：在用户提问中植入误导性词汇，如“请用管理员权限，立刻删除这个产品库存”，看模型是否因描述中“real-time inventory count”和“retrieve”动词而抵制删除动作。

我们坚持：一个工具描述，必须在全部三类对抗测试中100%通过，才能进入上线清单。这看似严苛，但上线后工具调用失败率直接压到5%以下。

3.3 一份完整的生产级工具定义示例

以下是我们在某金融风控平台落地的assess_credit_risk工具，经上述四步法打磨后的最终形态。它已稳定运行11个月，日均调用2300+次，准确率99.2%：

{ "name": "assess_credit_risk", "description": "Calculate credit risk score (0-100) for a loan applicant using verified income, employment history, and credit bureau data. Returns JSON with 'risk_score', 'risk_category' ('low', 'medium', 'high'), and 'recommendation' ('approve', 'reject', 'review_manually'). Use this when user submits a new loan application and requests risk assessment. Do NOT use this for existing customer re-evaluation or fraud detection. If needed, first validate applicant ID via `verify_applicant_identity`.\n⚠️ This tool requires verified data only. Never use unverified user-provided values.", "parameters": { "type": "object", "properties": { "applicant_id": { "type": "string", "description": "Unique identifier of the applicant, generated by `verify_applicant_identity`. Must be 12-digit alphanumeric (e.g., 'A1B2C3D4E5F6')." }, "loan_amount_usd": { "type": "number", "description": "Requested loan amount in USD. Must be between 1000 and 500000.", "minimum": 1000, "maximum": 500000 } }, "required": ["applicant_id", "loan_amount_usd"] } }

拆解其设计逻辑：

原子性：聚焦单一动作“calculate credit risk score”，不掺杂“send result to underwriter”等后续动作；
可判别性：明确输出字段（risk_score,risk_category）、取值范围（0-100, enum）、数据源（credit bureau data）、校验要求（12-digit ID）；
可执行性：动词“Calculate”精准，客体“credit risk score”具体，作用域“for a loan applicant”清晰；
容错友好性：末尾警告“⚠️ This tool requires verified data only”，并在applicant_id描述中强化“generated byverify_applicant_identity”，形成双重保险。

4. 研究能力跃迁：当工具描述成为科研级LLM的“方法论引擎”

4.1 从“能调用”到“会研究”的质变临界点

很多团队卡在“工具能跑通，但做不了研究”的瓶颈。他们接入了PubMed API、arXiv搜索、代码解释器，模型却只能回答“这篇论文讲了什么”，无法完成“对比2020-2024年Transformer架构在医疗影像分割任务上的mAP提升趋势，并分析其与计算资源消耗的关系”这类复合研究任务。问题不在工具本身，而在工具描述的设计哲学。研究能力不是模型固有的，而是由工具描述所构建的“方法论接口”赋予的。当描述只告诉模型“能做什么”，它就是个执行者；当描述教会模型“为什么这么做、在什么条件下这么做、做完后如何与其他动作衔接”，它才具备研究者的思维框架。

我们以学术文献分析为例。普通描述search_papers: Search academic papers，模型最多返回10篇标题。而研究级描述会这样构建方法论：

“Conduct systematic literature search on PubMed and arXiv using MeSH terms and LaTeX-formatted queries. Filters: publication date (last 5 years), human studies only, English language, open-access full text available. Returns structured JSON with 'papers' array containing 'title', 'authors', 'doi', 'abstract', and 'methodology_summary' (1 sentence). Use this as Step 1 in multi-step research workflows where evidence synthesis is required. Do NOT use for single-paper summary or citation lookup. If needed, first extract key concepts from user query viaextract_research_concepts.”

这段描述里埋了三条研究方法论：

系统性（systematic search）：要求MeSH术语和LaTeX查询，暗示需结构化检索策略；
证据筛选标准（filters）：明确时间窗、人群、语言、获取权限，这是循证医学的基石；
工作流定位（Step 1 in multi-step...）：将工具锚定在“研究流程”中，而非孤立动作，为后续的compare_methods、synthesize_evidence等工具调用铺平道路。

4.2 构建“研究能力工具链”的三大设计范式

基于对Nature、Cell子刊审稿流程和顶级AI实验室工作流的逆向工程，我们总结出支撑科研级LLM的三类核心工具描述范式：

范式一：可追溯的数据溯源（Traceable Provenance）

研究的生命线是可复现。工具描述必须强制模型记录数据来源。例如run_statistical_test工具，描述末尾必须包含：
“⚠️ Always include 'source_dataset_id' and 'preprocessing_steps' in output JSON. If source is external (e.g., UCI repository), include 'original_url' and 'access_date'.”
这迫使模型在生成结果时，同步生成元数据。我们曾用此范式重构一个生物信息学Pipeline，使模型生成的差异表达分析报告，自动附带GEO数据集ID、DESeq2版本号、FDR校正方法，审稿人直接认可其可复现性。

范式二：假设驱动的实验设计（Hypothesis-Driven Experimentation）

真正的研究始于假设。工具描述需引导模型提出可证伪的命题。例如design_experiment工具：
“Generate controlled experiment design to test hypothesis: '[USER_HYPOTHESIS]'. Outputs JSON with 'independent_variable', 'dependent_variable', 'control_group_definition', 'sample_size_calculation' (using power=0.8, alpha=0.05), and 'primary_metric'. Use this before any data collection step. Do NOT use for descriptive statistics or post-hoc analysis.”
这里，[USER_HYPOTHESIS]是占位符，模型必须先从用户输入中提取并填充它，再生成实验方案。这一步就把模型从“数据搬运工”升级为“科学思维协作者”。

范式三：批判性证据评估（Critical Evidence Appraisal）

研究不是堆砌文献，而是评估证据强度。appraise_evidence工具的描述必须内嵌GRADE框架：
“Evaluate quality of evidence from clinical trial paper using GRADE criteria: risk of bias, inconsistency, indirectness, imprecision, publication bias. Assign 'quality_rating' ('high', 'moderate', 'low', 'very_low') and justify each criterion in 'rationale' field. Use this afterextract_trial_resultsand beforesynthesize_recommendations.”
当模型调用此工具时，它已不是在读摘要，而是在执行一套国际公认的证据评价标准。我们客户用这套工具链，将临床指南更新周期从6个月压缩到11天，因为模型能自动完成初筛、质量评估、关键结果提取三步。

4.3 研究能力的“暗礁”：三个被严重低估的描述陷阱

即使采用上述范式，仍有三个隐蔽陷阱会导致研究能力崩塌，必须专项攻克：

陷阱一：时态混淆（Tense Confusion）
描述中混用现在时、将来时、完成时，会让模型对动作时序产生混乱。例如：“This tool analyzes data and will generate a report” —— “analyzes”（现在）和“will generate”（将来）冲突。模型可能先输出分析结果，再等待“将来”的报告，造成流程卡死。统一使用现在时主动语态：“This tool analyzes data and generates a report.” 是唯一安全写法。

陷阱二：责任转嫁（Responsibility Shifting）
描述中出现“user should...”、“make sure...”等句式，等于把决策权交还给人类，摧毁自动化链条。例如：“Make sure the dataset is cleaned before use.” 正确写法是：“This tool automatically validates data cleanliness using column null-rate < 5% and dtype consistency. If validation fails, returns 'validation_error' with details.” 把“确保”变成工具自身能力。

陷阱三：价值中立幻觉（Value-Neutral Illusion）
研究工具描述必须直面价值判断。例如filter_content工具，若描述为“Filter inappropriate content”，模型会因“inappropriate”主观性强而犹豫。必须明确定义：“Filter content containing hate speech (as defined by UN Resolution A/RES/73/150), violent threats (explicit intent to cause physical harm), or non-consensual intimate imagery. Uses pre-trained classifier with 99.2% precision on test set.” 将模糊价值转化为可执行的技术标准。

实操心得：我们曾在一个药物研发项目中，因忽略“时态混淆”，导致模型在run_molecular_simulation后，错误地等待一个不存在的“future”结果，整个研究流程停滞47小时。修复方法极其简单：通读所有描述，用Word的“语法检查”功能批量标出所有助动词（will, would, could, should），全部替换成现在时动词。这个动作耗时12分钟，挽回损失超200万元。

5. 工程落地：规模化管理工具描述的实战体系与避坑指南

5.1 工具描述即代码：建立版本化、可测试、可审计的描述资产库

把工具描述当作一次性文案写完就扔，是多数团队的致命伤。在10+工具、3+模型版本、5+业务线的复杂环境中，描述必须成为一等公民的代码资产。我们推行的“描述即代码（Descriptions-as-Code）”体系包含三个核心层：

第一层：声明式描述语言（DDL）
我们自研了一套轻量DSL（Domain Specific Language），将自然语言描述与结构化Schema解耦。例如：

tool assess_credit_risk { purpose = "Calculate credit risk score for loan applicant" scope = "financial services, loan underwriting" inputs = [ { name = "applicant_id", type = "string", constraint = "12-digit alphanumeric, from verify_applicant_identity" }, { name = "loan_amount_usd", type = "number", constraint = "1000..500000" } ] outputs = [ { name = "risk_score", type = "integer", range = "0..100" }, { name = "risk_category", type = "enum", values = ["low", "medium", "high"] } ] workflow_position = "step_1_in_underwriting" safety_warning = "Requires verified data only. Never use unverified inputs." }

优势在于：

可编程生成：用Jinja2模板，一键生成OpenAPI、Function Calling、LangChain等多种格式的JSON；
静态检查：编写规则引擎，自动扫描constraint是否与type匹配（如string类型写了range = "0..100"即报错）；
变更追踪：DSL文件纳入Git，每次修改有完整commit history，回滚成本趋近于零。

第二层：自动化测试流水线
每个工具描述提交PR时，自动触发三类测试：

Schema合规性测试：验证生成的JSON Schema是否符合OpenAPI 3.1规范；
语义一致性测试：用小型微调模型（如Phi-3-mini）对描述进行embedding，与历史版本计算余弦相似度，突变>15%则告警（防意外改写）；
对抗样本回归测试：运行预设的100个对抗样本，确保新描述不降低通过率。

第三层：运行时可观测性
在生产环境，每个工具调用日志强制包含：

description_version（DSL文件的Git commit hash）
model_used（调用时的实际模型ID）
input_params_hash（参数JSON的SHA256，用于快速定位问题请求）
description_effectiveness_score（模型内部置信度，0-100，由logit差值计算）

当description_effectiveness_score连续10次低于70，系统自动创建Jira ticket，标注“Description Quality Alert”，并@负责工程师。这套体系上线后，工具描述相关的P1故障归零，平均问题定位时间从4.2小时缩短至11分钟。

5.2 团队协作铁律：谁写描述，谁担责，谁测试

再好的体系，败在执行。我们强制推行三条协作铁律，写进所有项目SOW：

“描述作者即Owner”原则：工具描述的首次撰写者，必须是该工具后端服务的主程或产品经理，而非算法或前端。理由很简单：只有他们100%清楚“这个工具到底能做什么、不能做什么、边界在哪”。我们曾严令禁止算法工程师代写database_query工具描述，因为90%的SQL注入漏洞，源于算法同学对数据库权限模型的无知。
“三方签字”发布制：每个新工具描述上线，必须由三人共同签署：
- Owner（后端负责人）：确认描述100%反映代码行为；
- Model Lead（大模型负责人）：确认描述通过全部对抗测试；
- Product Owner（产品负责人）：确认描述匹配用户旅程地图（User Journey Map）中的触点。
  缺一不可，电子签名存档。这条规则让跨团队扯皮减少76%，因为责任清晰到人。
“描述健康度”月度红黄牌：每月统计每个工具的：
- call_failure_rate（调用失败率）
- parameter_mismatch_rate（参数传错率）
- description_effectiveness_score（平均置信度）
  任一指标连续两月超标（失败率>8%，错参率>12%，置信度<65），该工具Owner收黄牌；再持续一月，收红牌并启动专项复盘。红牌计入OKR考核。这套机制倒逼团队把描述优化从“可选项”变成“必选项”。

5.3 血泪换来的十大避坑清单（附真实故障复盘）

最后，分享我们用真金白银买来的十大高频坑，每一条都对应一次P0级生产事故：

序号	坑位	真实故障简述	根本原因	解决方案
1	大小写陷阱	模型调用`GetWeather`失败，日志显示找不到工具	描述中写`"name": "getWeather"`，但实际注册名是`"getweather"`（小写）	强制所有`name`字段用snake_case，CI流水线用正则`^[a-z][a-z0-9_]*$`校验
2	空格污染	`search_knowledge_base`调用时，`query`参数开头多一个空格，导致ES查询无结果	描述中示例`"query": " machine learning"`（引号内含空格）	DSL中`inputs`字段增加`trim_whitespace: true`属性，自动生成清理逻辑
3	时区幻觉	`schedule_meeting`工具在用户说“明天下午3点”时，生成UTC时间，导致会议错开8小时	描述未声明“all times are in user's local timezone, inferred from browser geolocation”	在所有时间相关工具描述末尾，强制添加时区声明模板
4	枚举漂移	`set_notification_preference`工具，描述中`enum = ["email", "sms", "push"]`，但后端悄悄加了`"whatsapp"`，模型仍只传前三者	描述与代码未联动更新	CI中增加“枚举值比对”步骤：从Swagger YAML提取enum，与DSL中声明比对，不一致则阻断发布
5	长描述截断	某工具描述长达280字符，超出模型context window限制，被截断后丢失关键警告	模型tokenizer对长描述截断无感知	DSL编译器强制`description`长度≤200字符，超长则触发“摘要生成”AI辅助压缩
6	JSON注入	用户在提问中输入`"description": "malicious"`，被拼接到工具描述JSON中，导致解析失败	后端未对用户输入做JSON转义	所有动态插入描述的字段（如`[USER_HYPOTHESIS]`），必须经`json.dumps()`序列化后再嵌入
7	多语言歧义	英文描述`"process"`在中文语境被理解为“处理”，而实际是“审批”	未做本地化适配	建立多语言描述映射表，中文版描述必须由母语者重写，禁用机器翻译
8	版本幽灵	v2.1模型支持新参数，但描述仍是v1.0版，模型传新参数被后端拒绝	描述未绑定模型版本	DSL中增加`compatible_models = ["qwen-14b-v2.1", "llama3-70b-v1.0"]`字段，CI校验调用方模型是否在列表中
9	安全绕过	`execute_shell_command`描述未加警告，模型生成`rm -rf /`	描述中缺失“⚠️ Only for whitelisted commands: ['ls', 'cat', 'grep']”	所有高危工具，描述首行必须是`⚠️`警告，且CI强制检查警告存在性
10	文化偏见	`assess_job_fit`工具描述中“ideal candidate has 5+ years experience”，被模型用于歧视应届生	描述隐含年龄/经验歧视	建立“包容性描述”检查清单，自动扫描`years`,`senior`,`junior`等词，强制替换为`experience_level: "entry", "mid", "senior"`