当前位置：首页 > news >正文

如何让LLM输出指定字段的数据类型

news 2026/7/8 3:07:58

一、业务场景

很多情况下我们利用LLM处理信息，并希望其返回包含固定字段的数据，如字典(dict)或者JSON文本。但单纯依靠prompt保证LLM输出预期的格式，尤其是模型需要进行复杂推理或生成较长文本时。

二、解决方案

截止到撰文日期，推荐的方案应该是结合Pydantic库（不了解的小伙伴可自行检索了解）使用结构化输出(Structured Output)功能。

目前主流的大模型供应商（如 OpenAI, Anthropic, Google, Azure AI）以及开源框架（如 LangChain, LlamaIndex, Instructor）都提供了原生支持。它们会在底层修改解码策略或进行后处理校验，确保返回的对象直接就是符合你定义的 Pydantic 模型。

下面以OpenAI为例介绍使用方法：

from openai import OpenAI, APIError from pydantic import BaseModel, ValidationError # 定义Pydantic类 class LLM_Response(BaseModel): reportname: str reportid: int reporttime: str client = OpenAI(api_key="your-key", base_url="base-url") try: completion = client.beta.chat.completions.parse( model="gpt-4o-2024-08-06", # 或其他支持该功能的模型 messages=[ {"role": "system", "content": "你是一个专业的人工智能助手。"}, {"role": "user", "content": your_prompt} ], response_format=LLM_Response, # 直接传入自定义Pydantic 类 ) # 直接获取解析好的对象，如果解析失败会抛出异常，不会返回错误的字符串 parsed_response = completion.choices[0].message.parsed print(parsed_response.reportname) # 情况1：模型返回了JSON，但内容不符合Pydantic模型定义 except ValidationError as e: print("数据验证失败（Pydantic ValidationError）:") print(e.errors()) # 打印具体错误，方便调试 # 情况2：OpenAI API层面的错误（如速率限制、鉴权失败、服务器错误等） except APIError as e: print(f"API 请求错误：{e.statuis_code} - {e.message}") raise # 情况3：其他未知错误（如网络中断、本地代码错误） except Exception as e: print(f"发生未知错误：{type(e).__name__} - {str(e)}") raise

但即使使用了上述方法，模型还是有可能未按指定格式输出导致Pydantic模型验证失败，因此我们可以进一步结合instructor库使用。

instructor是一个轻量级库，专门用于让任何LLM输出结构化数据。它会自动重试：如果模型输出的JSON有误，它会捕获错误，把错误信息返回给模型让其修正，直到成功为止。

import instructor from openai import OpenAI from pydantic import BaseModel # 将 OpenAI 客户端 patch 为 instructor 模式 client = instructor.from_openai(OpenAI(api_key="your-key", base_url="your-base-url")) # ... (定义你的 Pydantic 模型) ... response = client.chat.completions.create( model="gpt-4o", # 也可以是本地模型地址 response_model=LLM_Respose, # 指定返回模型 messages=[ {"role": "user", "content": "your-prompt")} ], max_retries=3 # 如果格式错误，自动重试3次 ) # response 已经是验证通过的 LLM_Respose 对象

结合结构化输出和instructor库使得模型最后的结构化输出更加稳定，当然由于LLM是概率模型，极端情况下也可能出现重试几次仍然没有输出预期结果的情况，无法100%保证。

查看全文

http://www.jsqmd.com/news/543808/