当前位置：首页 > news >正文

开源大模型驱动的查询规划：函数调用式Query Planning实战

news 2026/6/7 8:26:50

1. 项目概述：当查询规划遇上开源大模型与函数调用

“Query Planning using Open Source LLMs and Function Calling”——这个标题乍看像学术论文的副标题，但在我过去三年深度参与数十个企业级数据智能项目的过程中，它其实是一条正在快速落地的工程化路径：用可本地部署、可审计、可定制的开源大语言模型，替代传统数据库查询优化器中僵化的规则引擎与代价估算模块，让查询计划生成过程具备语义理解力、上下文感知力和动态决策力。核心关键词——“Query Planning”（查询规划）、“Open Source LLMs”（开源大语言模型）、“Function Calling”（函数调用）——三者不是简单拼接，而是构成了一种新型数据处理范式：LLM 不再是问答终端，而是嵌入在查询执行链路中的“智能调度中枢”。

我第一次在真实生产环境中验证这条路，是在为一家区域医疗信息平台做慢查询治理时。他们每天有上万条跨电子病历、检验报告、药品库存三张宽表的自然语言查询，原系统依赖 PostgreSQL 的EXPLAIN+ 手动 SQL 重写，DBA 每周要花 20 小时人工干预。我们用 Llama-3-8B-Instruct 作为底座，配合一套轻量级函数注册机制，将get_table_schema、estimate_join_cardinality、suggest_index_on_column等 7 个数据库元操作封装为可调用函数，让模型在生成执行计划前，主动“查资料”“算代价”“问DBA”。结果是：92% 的自然语言查询首次生成即达性能基线，平均响应延迟从 8.4 秒压到 1.7 秒，且所有推理过程完全运行在客户内网 Kubernetes 集群中，模型权重、提示词、函数定义全部版本可控。这说明什么？Query Planning 不再是 DBA 的专属领域，而正成为 LLM 工程师与数据工程师协同重构数据栈的关键切口。

适合谁来读这篇？如果你是正在评估如何把 LLM 落地到真实数据场景的工程师，不是想做个“Chat with Your Database”的玩具 Demo，而是要解决“为什么这条 SQL 跑得慢”“怎么让非技术人员也能安全提复杂分析需求”“如何让 BI 工具自动生成高效率的底层查询”这类问题；如果你已经试过 LangChain 的 SQLAgent 但发现它在多表关联、空值处理、分区裁剪等细节上频频翻车；或者你手头正有一台 4×A10G 的服务器，想跑一个真正能干活的开源模型而非纯演示——那这篇就是为你写的。它不讲 Transformer 架构原理，不堆砌 benchmark 数据，只聚焦一件事：如何把开源 LLM 变成你数据库的“外挂优化器”，且每一步都经得起生产环境拷问。

2. 整体设计思路：为什么必须放弃“端到端生成SQL”的幻觉？

2.1 传统方案的三大死穴：从 LangChain SQLAgent 到 Text-to-SQL SOTA 模型

在动手写第一行代码前，我花了整整两周时间复现了当前主流的三类方案，并在医疗数据集（含 12 张表、平均字段数 28、存在 5 类业务约束逻辑）上做了压力测试。结果很明确：纯文本生成 SQL 的路径，在真实复杂查询面前是不可靠的。这不是模型能力问题，而是任务本质决定的。

第一类是 LangChain / LlamaIndex 的 SQLAgent。它典型流程是：用户输入 → LLM 生成 SQL → 执行 → 报错 → LLM 根据错误日志反思重写。我在测试中构造了 156 条含“近30天门诊量环比下降超15%的科室TOP5”这类带时间窗口、百分比计算、排名嵌套的查询，成功率仅 38%。失败主因有两个：一是模型对LAG()窗口函数的语法泛化能力差，常生成PREV()这类不存在的函数；二是当执行报 “column not found” 时，模型无法区分是表别名写错、字段名拼写错误，还是真的字段不存在——它没有“查表结构”的能力，只能瞎猜。

第二类是微调专用 Text-to-SQL 模型，如 PICARD（基于 T5）、RAT-SQL（基于 BERT）。它们在 Spider 数据集上能达到 70%+ 的 exact match，但一到我们的真实库就崩盘。原因在于：Spider 是干净的人工构造 schema，而我们的医疗库有大量t_patient_info_2023_q3这样的按季度分表，有is_deleted tinyint(1)这种用整数代替布尔的遗留字段，还有create_time datetime DEFAULT CURRENT_TIMESTAMP这种带默认值的字段。模型没见过这些模式，微调数据又难覆盖，结果就是生成的 SQL 常漏掉WHERE is_deleted = 0或写错分表名。

第三类是“LLM + RAG”方案，把建表语句、索引定义、历史慢查询日志喂给向量库，让 LLM 检索后生成 SQL。听起来很美，但实测发现两个硬伤：一是检索精度低，当用户问“哪些医生开的抗生素处方最多”，RAG 很可能召回“药品字典表结构”而非“处方明细表关联逻辑”；二是生成过程不可控，模型可能把检索到的“CREATE INDEX idx_drug_code ON t_prescription (drug_code)”直接当成 SQL 执行，导致 DDL 误操作。

提示：所有失败案例都指向同一个结论——让 LLM 直接输出完整 SQL，等于让它同时扮演“数据库架构师”“SQL 语法学家”“执行计划优化师”三个角色，而它的强项只是“语言模式匹配”。必须解耦。

2.2 我们的三层架构设计：LLM 做决策，函数做执行，人做兜底

基于上述教训，我们彻底重构了技术栈，形成清晰的三层职责划分：

顶层：LLM 作为 Query Planner（查询规划器）
它的唯一输出不是 SQL，而是一个结构化的Plan Object，包含steps: [ { "action": "JOIN", "tables": ["t_patient", "t_prescription"], "on_condition": "t_patient.patient_id = t_prescription.patient_id" }, { "action": "FILTER", "column": "t_prescription.create_time", "op": ">=", "value": "2024-01-01" } ]。注意，这里没有 SQL 关键字，只有语义动作。LLM 只需理解“JOIN 是把两张表连起来”“FILTER 是筛选条件”，无需掌握INNER JOIN ... ON ... WHERE ...的语法细节。
中层：Function Calling 作为 Execution Bridge（执行桥接层）
我们预定义了 9 个核心函数，每个函数对应一个确定性、幂等性的数据库元操作：
- get_table_columns(table_name: str) → List[Column]：返回字段名、类型、是否主键、是否索引
- get_table_row_count(table_name: str) → int：获取表行数（通过SELECT reltuples FROM pg_class WHERE relname = 'xxx'）
- estimate_join_selectivity(left_col: str, right_col: str) → float：基于列 NDV（不同值数量）估算连接选择率
- suggest_optimal_join_order(tables: List[str]) → List[str]：用贪心算法按行数从小到大排序
- check_index_exists(table: str, columns: List[str]) → bool
- ……（其余函数见 3.2 节）
LLM 在生成 Plan Object 前，会根据当前步骤需要，主动调用这些函数获取实时数据。比如当 Plan 步骤是{"action": "JOIN", "tables": ["t_patient", "t_prescription"]}时，模型会先调用get_table_row_count("t_patient")和get_table_row_count("t_prescription")，再调用suggest_optimal_join_order(...)，最后才决定 JOIN 顺序。整个过程像一个经验丰富的 DBA 在纸上推演。
底层：Database Executor（数据库执行器）
它接收 Plan Object，将其编译为最终 SQL。关键点在于：编译是确定性的、可验证的。比如FILTER动作永远编译为WHERE column op value，GROUP_BY动作永远加GROUP BY子句。编译器内置了 12 条校验规则，例如“若 FILTER 字段不在 SELECT 列表中，且未出现在 GROUP BY 中，则自动加入 GROUP BY”——这是传统 LLM 无法稳定做到的细节。

这套设计带来的直接收益是：可解释性、可调试性、可审计性全部拉满。当某条查询性能不佳，你可以清晰看到是 Planner 决策错了（比如选了全表扫描而非索引），还是函数返回的数据不准（比如get_table_row_count未及时更新统计信息），而不是面对一长串 SQL 干瞪眼。

2.3 为什么坚持用开源 LLM？闭源 API 的三个不可承受之重

有人会问：既然目标是 Query Planning，为什么不用 GPT-4 Turbo？它函数调用能力更强，上下文更长。我的答案很直接：在数据密集型场景，闭源 API 是生产环境的定时炸弹。

第一是成本不可控。我们测算过：医疗平台日均 2 万次查询规划请求，若全走 GPT-4 Turbo（输入 2000 tokens，输出 300 tokens），月账单约 $12,000。而用 Llama-3-8B-Instruct 量化后（AWQ 4-bit），单卡 A10G 每秒可处理 18 次请求，4 卡集群月电费不到 $300。更关键的是，当业务增长 10 倍，开源方案只需加机器，闭源方案账单直接翻 10 倍，财务根本无法审批。

第二是延迟不可接受。GPT-4 Turbo P95 延迟在 1200ms 左右，而我们本地 Llama-3-8B 的 P95 是 210ms。在 BI 工具中，用户拖拽一个时间范围组件，后台要实时生成 5~8 个关联查询的 Plan，1200ms 的延迟会让交互明显卡顿。我们做过 AB 测试：当规划延迟 > 500ms，用户放弃率上升 47%。

第三是合规与安全红线。医疗数据严禁出域，所有表结构、字段注释、样本数据都属于敏感信息。即使使用 Azure OpenAI，其 SLA 也明确写着“客户数据可能用于模型改进”（详见 Azure OpenAI Service Terms Section 5.2）。而开源模型，从权重下载、量化、部署到监控，全程在客户内网闭环，审计报告可随时出具。

所以，我们的选型逻辑非常务实：不追求 SOTA，只追求“够用、可控、可维护”。Llama-3-8B-Instruct 在函数调用稳定性（我们测试了 5000 次调用，JSON 格式错误率 < 0.3%）、中文理解（医疗术语如“门特病种”“DRG 分组”识别准确率 91%）、推理速度之间取得了最佳平衡。后续升级到 Qwen2-7B 或 DeepSeek-V2，也是同一条路径——换模型，不换架构。

3. 核心细节解析：函数设计、提示工程与模型微调的实战取舍

3.1 函数设计原则：宁少勿多，宁简勿繁，宁确定勿模糊

函数不是越多越好，而是越精准越可靠。我们最初设计了 18 个函数，经过两个月灰度，砍掉了 9 个，最终保留 9 个。砍掉的标准就一条：该函数的输出是否能被 100% 验证？举几个真实砍掉的例子：

generate_sql_from_plan(plan: dict) → str：看似合理，但它是把“编译”逻辑又塞回了 LLM，违背了分层原则。砍掉，改由确定性编译器实现。
explain_query_performance(sql: str) → dict：依赖数据库EXPLAIN输出，而不同 PG 版本、不同配置下输出格式差异极大（有的带Buffers:，有的不带），LLM 解析极易出错。砍掉，改为前端直接调用EXPLAIN (FORMAT JSON)并渲染。
recommend_partition_strategy(table: str) → str：分区策略涉及存储、运维、备份等多维度权衡，没有唯一最优解。砍掉，改为 DBA 在管理后台手动配置。

最终保留的 9 个函数，全部满足“输入确定、输出确定、副作用为零”：

函数名	输入参数	输出示例	关键设计点
`get_table_columns`	`table_name: str`	`[{"name": "patient_id", "type": "BIGINT", "is_pk": true, "is_indexed": true}]`	强制返回完整字段列表，避免 LLM 因字段缺失而误判；`is_indexed`字段通过`pg_indexes`表实时查询，非缓存
`get_table_row_count`	`table_name: str`	`1245890`	不返回估算值，用`reltuples`字段（PG 统计信息），精度误差 < 5%，且比`COUNT(*)`快 3 个数量级
`estimate_join_selectivity`	`left_col: str, right_col: str`	`0.023`	基于 NDV 计算：`selectivity = 1 / max(ndv_left, ndv_right)`，NDV 从`pg_stats`获取，比模型凭空猜测靠谱 10 倍
`suggest_optimal_join_order`	`tables: List[str]`	`["t_dept", "t_doctor", "t_prescription"]`	贪心算法：按`get_table_row_count`结果升序排列，简单有效，避免复杂 DP 算法引入不确定性
`check_index_exists`	`table: str, columns: List[str]`	`true`	精确匹配：检查`pg_index`中`indkey`是否完全包含输入列，支持联合索引识别
`get_column_ndv`	`table: str, column: str`	`892`	独立接口：为`estimate_join_selectivity`提供原子能力，避免函数职责过重
`get_table_comment`	`table_name: str`	`"患者基本信息表，含身份证号、联系方式等"`	业务语义注入：字段注释是 LLM 理解业务的关键，必须提供
`get_column_statistics`	`table: str, column: str`	`{"min": "2020-01-01", "max": "2024-06-30", "null_ratio": 0.02}`	统计信息直给：避免 LLM 自己估算时间范围或空值率
`list_all_tables`	无参数	`["t_patient", "t_prescription", "t_drug"]`	Schema 发现入口：让 LLM 知道“有哪些表可用”，是规划起点

注意：所有函数的 Python 实现都遵循同一范式——无状态、无外部依赖、100% 基于 PostgreSQL 系统表查询。这意味着你可以把它无缝迁移到任何支持pg_catalog的数据库（如 Greenplum、EDB），只需改连接字符串。这是我们刻意为之的“可移植性设计”。

3.2 提示工程：不是写得越长越好，而是让 LLM 明白“它不知道什么”

很多人以为函数调用提示词就是罗列函数定义。错。真正的难点在于：如何让 LLM 主动、恰当地发起函数调用，而不是硬着头皮自己编？我们迭代了 17 个版本提示词，最终收敛到一个极简但高效的结构：

你是一名专业的数据库查询规划器。你的任务是将用户的自然语言查询，分解为一系列确定性的执行步骤（Plan），每个步骤调用一个预定义函数来获取必要信息。请严格遵守以下规则： 1. 【禁止】直接生成 SQL、描述数据库内部机制、或给出主观建议。 2. 【必须】在生成任何 Plan 步骤前，先调用函数确认事实。例如： - 想知道某表有哪些字段？先调用 get_table_columns。 - 想知道两表连接哪个更高效？先调用 get_table_row_count 和 estimate_join_selectivity。 - 不确定某字段是否存在？先调用 get_table_columns。 3. 【必须】Plan 步骤只包含 action（JOIN/FILTER/GROUP_BY 等）、tables、columns、conditions 等语义字段，绝不出现 SQL 关键字。 4. 【必须】如果一次调用不足以决策（如需比较多个表的行数），可连续调用，但每次只调用一个函数。 现在开始。用户查询："{query}"

这个提示词的精妙之处在于第 2 条——用具体例子告诉 LLM “什么时候该调用”，而不是抽象说“请调用函数”。我们对比过：去掉例子的版本，函数调用率仅 41%；加上后，提升到 89%。因为 LLM 是模式匹配机器，它需要看到“想...先调用...”这样的行为模板。

另一个关键技巧是“认知缺口提示”。我们在用户查询后，追加一句：（注意：你无法直接访问数据库，所有信息必须通过函数调用获取）。这句话看似废话，实则至关重要。它在 LLM 的“工作记忆”中植入了一个强约束：“我不知道”是常态，“我去查”是本能。没有这句话，模型常会自信地编造t_patient.id存在，而实际字段名是t_patient.patient_id。

我们还做了个反直觉的设计：在提示词末尾，不放函数定义列表，而是放在单独的 system message 中。原因是：Llama-3 对长上下文中的函数定义容易“过载”，当函数列表超过 7 个，它会混淆get_table_columns和get_table_comment的参数。拆开后，主提示词专注逻辑，system message 专注工具，各司其职。

3.3 模型微调：为什么我们只做了 2 小时 LoRA，且只训 3 个样本？

坦白说，我对“微调大模型提升 Text-to-SQL”的宣传一直持怀疑态度。不是技术不行，而是 ROI 太低。我们尝试过用 QLoRA 微调 Llama-3-8B 在 Spider 数据集上，指标涨了 2.3%，但上线后在真实医疗查询上，反而下降了 1.8%——因为 Spider 的分布和我们业务差距太大。

所以，我们的微调策略极其克制：只针对“函数调用稳定性”这一个维度，且只用真实业务中高频出错的 3 个 case 做监督。这 3 个 case 是：

用户问：“近一周各科室门诊量排名”，LLM 错误地调用了get_table_row_count("t_dept")（想查科室表行数），而正确动作应是get_table_columns("t_dept")（确认科室名称字段）和get_table_columns("t_visit")（确认就诊时间字段）。
用户问：“处方金额大于 500 元的抗生素使用情况”，LLM 生成了{"action": "FILTER", "column": "amount", "op": ">", "value": "500"}，但没调用get_table_columns确认amount字段在t_prescription表中是否存在（实际在t_prescription_detail表）。
用户问：“对比心内科和呼吸科的平均处方数”，LLM 直接生成了{"action": "JOIN", "tables": ["t_dept", "t_prescription"]}，但没调用suggest_optimal_join_order，导致 JOIN 顺序错误（大表t_prescription在前）。

我们用 Axolotl 框架，对 Llama-3-8B 做了 2 小时 LoRA 微调（rank=64, lora_alpha=128），训练数据就是这 3 个 case 的“错误输出 → 正确输出”映射。效果立竿见影：在 500 条线上 query 的 A/B 测试中，函数调用准确率从 86.2% 提升到 94.7%，Plan 生成首次成功率从 73% 提升到 89%。

实操心得：微调不是万能药，而是“止痛针”。它解决的是特定场景下的顽固 bug，不是通用能力提升。把精力花在写好函数、设计好提示词、做好编译器校验上，ROI 高得多。

4. 实操过程详解：从零部署一个可运行的 Query Planner

4.1 环境准备：4 卡 A10G 集群上的最小可行配置

我们不推荐在笔记本上跑这个项目——不是因为模型大，而是因为函数调用需要稳定、低延迟的数据库连接。以下是我们生产环境的最小可行配置（已验证可支撑日均 5 万次规划请求）：

硬件：4 × NVIDIA A10G（24GB VRAM），32 核 CPU，128GB RAM，千兆内网
软件栈：
- OS：Ubuntu 22.04 LTS
- Python：3.10.12（必须，因 vLLM 0.4.2 不支持 3.11+）
- Model Runtime：vLLM 0.4.2（推理加速，支持 PagedAttention）
- Web Server：FastAPI 0.111.0（轻量、异步、OpenAPI 友好）
- Database：PostgreSQL 14.10（开启pg_stat_statements扩展用于监控）

安装命令一行到位（复制粘贴即可）：

# 创建虚拟环境 python3.10 -m venv queryplanner-env source queryplanner-env/bin/activate # 安装核心依赖（注意顺序！vLLM 必须在 transformers 之前） pip install --upgrade pip pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install vllm==0.4.2 pip install transformers==4.41.2 pip install fastapi==0.111.0 pip install psycopg2-binary==2.9.7 pip install pydantic==2.7.1 pip install python-dotenv==1.0.1

注意：vLLM 0.4.2 是目前最稳定的版本。我们试过 0.5.0，它在 AWQ 量化模型加载时偶发 CUDA context 错误，回退到 0.4.2 后 0 故障运行 92 天。

4.2 模型量化与加载：用 AWQ 4-bit 在 A10G 上跑 Llama-3-8B

Llama-3-8B-Instruct 原始 FP16 模型约 15GB，单卡 A10G 装不下。我们采用 AWQ（Activation-aware Weight Quantization）4-bit 量化，实测精度损失 < 0.5%，显存占用降至 4.2GB，单卡可同时加载 2 个实例（用于 A/B 测试）。

量化步骤（全程离线，不联网）：

# 1. 下载原始模型（HuggingFace 镜像站，国内可直达） git lfs install git clone https://hf-mirror.com/meta-llama/Meta-Llama-3-8B-Instruct llama3-8b-instruct # 2. 安装 awq 模块 pip install autoawq # 3. 量化（耗时约 25 分钟，CPU 即可） python -c " from awq import AutoAWQForCausalLM from transformers import AutoTokenizer model_path = './llama3-8b-instruct' quant_path = './llama3-8b-instruct-awq' # 加载并量化 model = AutoAWQForCausalLM.from_pretrained(model_path, **{'low_cpu_mem_usage': True}) tokenizer = AutoTokenizer.from_pretrained(model_path) # 量化配置 quant_config = { 'zero_point': True, 'q_group_size': 128, 'w_bit': 4, 'version': 'GEMM' } model.quantize(tokenizer, quant_config=quant_config) # 保存 model.save_quantized(quant_path) tokenizer.save_pretrained(quant_path) "

加载到 vLLM 的代码（llm_engine.py）：

from vllm import LLM, SamplingParams from vllm.model_executor.input_metadata import InputMetadata # 初始化 LLM 引擎（关键参数！） llm = LLM( model="./llama3-8b-instruct-awq", # 量化后路径 tokenizer="./llama3-8b-instruct-awq", tensor_parallel_size=4, # 4 卡并行 gpu_memory_utilization=0.9, # 显存利用率，留 10% 给函数调用 max_model_len=4096, # 最大上下文，够用即可，省显存 dtype="auto", # 自动选择 float16/bfloat16 enforce_eager=False, # 开启图优化 seed=42 ) # 采样参数（函数调用关键！） sampling_params = SamplingParams( temperature=0.1, # 低温，保证确定性 top_p=0.95, max_tokens=1024, stop=["<|eot_id|>"], # Llama-3 的 EOS token skip_special_tokens=True, spaces_between_special_tokens=False )

实操心得：gpu_memory_utilization=0.9是血泪教训。设成 0.95，当并发请求突增，vLLM 会因显存不足触发 OOM Killer，整个服务重启。0.9 是经过 3 轮压测后的黄金值。

4.3 函数注册与调用编排：FastAPI 中的 9 个原子操作

所有函数都封装在database_functions.py中，以标准 Python 函数形式存在，便于单元测试：

import psycopg2 from typing import List, Dict, Any # 全局数据库连接池（生产环境务必用 connection pool！） conn_pool = psycopg2.pool.ThreadedConnectionPool( minconn=5, maxconn=20, host="pg-prod.internal", database="medical_db", user="query_planner", password="your_secure_password" ) def get_table_columns(table_name: str) -> List[Dict[str, Any]]: conn = conn_pool.getconn() try: with conn.cursor() as cur: cur.execute(""" SELECT column_name AS name, data_type AS type, CASE WHEN column_name = ANY( SELECT array_agg(column_name) FROM information_schema.key_column_usage kcu WHERE kcu.table_name = %s AND kcu.constraint_name LIKE '%pk%' ) THEN true ELSE false END AS is_pk, EXISTS ( SELECT 1 FROM pg_indexes pi WHERE pi.tablename = %s AND pi.indexdef LIKE '%' || %s || '%' ) AS is_indexed FROM information_schema.columns WHERE table_name = %s ORDER BY ordinal_position """, (table_name, table_name, table_name, table_name)) return [dict(zip([col[0] for col in cur.description], row)) for row in cur.fetchall()] finally: conn_pool.putconn(conn) # 其余 8 个函数同理，此处省略...

在 FastAPI 路由中，我们用openai-compatible接口暴露函数调用能力（main.py）：

from fastapi import FastAPI, HTTPException, Depends from pydantic import BaseModel from typing import Optional, List, Dict, Any import json app = FastAPI(title="Query Planner API") class FunctionCallRequest(BaseModel): function_name: str arguments: Dict[str, Any] @app.post("/v1/chat/completions") async def chat_completions(request: FunctionCallRequest): # 1. 校验函数名是否存在 if request.function_name not in ["get_table_columns", "get_table_row_count", ...]: raise HTTPException(status_code=400, detail=f"Unknown function: {request.function_name}") # 2. 动态调用函数 try: func = globals()[request.function_name] result = func(**request.arguments) # 3. 返回 OpenAI 兼容格式（供 vLLM 调用） return { "id": f"chatcmpl-{uuid.uuid4().hex}", "object": "chat.completion", "created": int(time.time()), "model": "llama3-8b-instruct-awq", "choices": [{ "index": 0, "message": { "role": "assistant", "content": json.dumps(result, ensure_ascii=False), "function_call": { "name": request.function_name, "arguments": json.dumps(request.arguments, ensure_ascii=False) } }, "finish_reason": "function_call" }] } except Exception as e: raise HTTPException(status_code=500, detail=str(e))

这样，vLLM 就能通过标准 HTTP 调用这些函数，整个链路完全符合 OpenAI Function Calling 协议，未来可无缝切换到其他模型。

4.4 完整 Query Planning 流程：一次请求的 7 个关键阶段

以用户查询“显示近30天各科室的平均处方金额，按金额降序排列”为例，完整流程如下（所有日志来自真实生产环境）：

阶段 1：Prompt 构建（耗时 12ms）
将用户查询、系统提示、函数定义组装成 vLLM 输入。关键点：get_table_columns函数定义被注入，但arguments字段为空，等待 LLM 填充。

阶段 2：LLM 首次推理（耗时 183ms）
vLLM 返回：{"action": "FILTER", "column": "create_time", "op": ">=", "value": "2024-06-01"}，并附带函数调用请求：{"function_name": "get_table_columns", "arguments": {"table_name": "t_visit"}}。
→ LLM 识别出需要“就诊时间”字段，先查t_visit表结构。

阶段 3：函数调用执行（耗时 8ms）
FastAPI 调用get_table_columns("t_visit")，返回 12 个字段，其中create_time类型为TIMESTAMP WITHOUT TIME ZONE，dept_id存在。

阶段 4：Prompt 更新（耗时 5ms）
将函数返回结果插入 Prompt，形成新上下文：“t_visit表有字段：visit_id,patient_id,dept_id,create_time（TIMESTAMP）...”

阶段 5：LLM 第二次推理（耗时 211ms）
vLLM 返回：{"action": "JOIN", "tables": ["t_visit", "t_dept"], "on_condition": "t_visit.dept_id = t_dept.dept_id"}，并调用get_table_columns("t_dept")。
→ LLM 确认科室表存在dept_name字段，用于最终展示。

阶段 6：二次函数调用（耗时 6ms）
get_table_columns("t_dept")返回dept_id,dept_name,dept_code。

阶段 7：Plan 编译与 SQL 生成（耗时 14ms）
编译器接收 Plan：[{"action":"FILTER",...}, {"action":"JOIN",...}]，输出最终 SQL：

SELECT d.dept_name, AVG(p.amount) AS avg_amount FROM t_visit v JOIN t_dept d ON v.dept_id = d.dept_id JOIN t_prescription p ON v.visit_id = p.visit_id WHERE v.create_time >= '2024-06-01' GROUP BY d.dept_name ORDER BY avg_amount DESC LIMIT 10;

→ 全程耗时 439ms，P95 延迟 512ms，符合 BI 工具交互要求。

5. 常见问题与排查技巧实录：那些文档里不会写的坑

5.1 函数调用死循环：当 LLM 陷入“查表→查字段→查表”的无限递归

现象：某次上线后，监控发现 3% 的请求耗时 > 10s，日志显示 LLM 在反复调用get_table_columns和list_all_tables，像在迷宫里打转。

根因分析：我们发现一个隐藏陷阱——当用户查询含模糊词如“相关科室”，LLM 会先调用list_all_tables，得到["t_dept", "t_doctor", "t_patient"]，然后对每个表调用get_table_columns，试图找“相关”字段。但所有表都没有叫related_dept的字段，于是它又调用list_all_tables……形成循环。

解决方案：我们在编译器层加了“调用次数熔断”机制：