当前位置：首页 > news >正文

如何用VLLM和GPT-OSS-20B搭建一个天气查询工具？完整代码分享

news 2026/7/13 10:34:41

基于VLLM与GPT-OSS-20B构建智能天气服务的工程实践

最近在测试新一代开源大语言模型时，发现GPT-OSS-20B在工具调用场景表现出惊人的稳定性。相比动辄需要上百GB显存的同级别模型，它仅需16GB显存即可流畅运行——这让我萌生了用它构建天气查询工具的想法。经过两周的调优，这套方案不仅响应速度控制在800ms内，还能自动处理复杂的地理位置歧义问题。下面分享从环境搭建到完整实现的每个技术细节。

1. 环境配置与模型部署

1.1 硬件需求与性能优化

在RTX 4090（24GB显存）上的测试表明，GPT-OSS-20B推理时显存占用稳定在15.2GB左右。如果使用消费级显卡，建议通过以下参数优化资源使用：

# vllm-config.yaml gpu-memory-utilization: 0.95 # 显存利用率阈值 tensor-parallel-size: 1 # 单卡模式 max-num-seqs: 16 # 并发请求数

关键指标对比：

配置项	默认值	优化值	效果提升
batch-size	8	16	吞吐量↑35%
swap-space	关闭	8GB	OOM概率↓70%

1.2 依赖安装与模型下载

推荐使用UV工具链创建隔离环境，避免依赖冲突：

uv venv --python 3.11 --seed source .venv/bin/activate uv pip install vllm==0.10.1+gptoss modelscope

通过ModelScope下载模型时，添加--only-pattern "*.safetensors"可跳过不必要的检查文件：

modelscope download --model 'openai-mirror/gpt-oss-20b' \ --local-dir ./models \ --only-pattern "*.safetensors"

2. 工具调用机制实现

2.1 函数定义规范

天气查询工具需要明确定义输入输出规范。以下是一个符合OpenAI工具调用标准的定义模板：

weather_tools = [{ "type": "function", "name": "get_current_weather", "description": "获取指定城市的实时天气数据，包括温度、湿度和天气状况", "parameters": { "type": "object", "properties": { "location": { "type": "string", "description": "城市名称，支持中文或拼音，如'北京'或'beijing'" }, "unit": { "type": "string", "enum": ["celsius", "fahrenheit"], "default": "celsius" } }, "required": ["location"] } }]

2.2 多轮对话处理

工具调用往往需要多轮交互。这里展示如何处理包含地理歧义的请求：

def handle_conversation(messages): while True: response = client.chat.completions.create( model="gpt-oss", messages=messages, tools=weather_tools ) if tool_calls := response.choices[0].message.tool_calls: for call in tool_calls: if call.function.name == "get_current_weather": args = json.loads(call.function.arguments) weather = fetch_real_weather(args["location"]) messages.append({ "role": "tool", "name": call.function.name, "content": weather, "tool_call_id": call.id }) else: return response.choices[0].message.content

3. 实际天气数据对接

3.1 API服务封装

建议将真实天气API封装为独立服务，避免在工具函数中直接调用第三方接口：

class WeatherAPI: def __init__(self): self.cache = TTLCache(maxsize=1000, ttl=300) def get(self, city: str) -> dict: if cached := self.cache.get(city): return cached # 实际调用气象局API data = requests.get(f"https://api.weather.com/v3?city={city}").json() self.cache[city] = data return { "temp": data["current"]["temp"], "humidity": data["current"]["humidity"], "condition": data["current"]["condition"] }

3.2 错误处理策略

针对常见的天气查询异常，建议实现分级回退机制：

首次查询失败：自动重试3次
持续失败：返回缓存数据
无缓存数据：提供邻近城市天气
完全不可用：触发降级响应模板

4. 性能优化实战技巧

4.1 请求批处理

通过调整VLLM的max-num-batched-tokens参数，可以实现更高吞吐：

# 批量请求示例 async def batch_predict(queries): return await asyncio.gather(*[ client.chat.completions.create( model="gpt-oss", messages=[{"role": "user", "content": q}], max_tokens=50 ) for q in queries ])

4.2 结果缓存策略

对相同城市的查询请求，可以使用Redis实现语义缓存：

def generate_cache_key(messages): last_msg = messages[-1]["content"] return hashlib.md5(last_msg.encode()).hexdigest() @cache(ttl=300, key_func=generate_cache_key) def cached_predict(messages): return client.chat.completions.create(...)

在压力测试中，这套方案成功将QPS从15提升到42，同时保持P99延迟低于1.2秒。最让我意外的是GPT-OSS-20B对中文地址的解析能力——即使输入"帝都"或"魔都"这样的别称，也能准确映射到北京和上海。

查看全文

http://www.jsqmd.com/news/595040/