当前位置：首页 > news >正文

Phi-4-mini-reasoning实操手册：用app.py扩展REST API支持批量请求

news 2026/7/18 23:07:53

Phi-4-mini-reasoning实操手册：用app.py扩展REST API支持批量请求

1. 项目概述

Phi-4-mini-reasoning是微软推出的3.8B参数轻量级开源模型，专为数学推理、逻辑推导和多步解题等强逻辑任务设计。这款模型主打"小参数、强推理、长上下文、低延迟"的特点，特别适合需要高效推理能力的应用场景。

关键参数：

模型大小：7.2GB
显存占用：约14GB
上下文长度：128K tokens
部署日期：2026-03-27

2. 环境准备

2.1 硬件要求

GPU：建议RTX 4090 24GB或更高配置
显存：至少14GB可用显存
内存：建议32GB以上

2.2 软件依赖

确保已安装以下组件：

pip install transformers==4.40.0 pip install gradio==6.10.0 pip install torch==2.8.0

3. 基础API使用

3.1 单次请求示例

默认的app.py提供了基础的单次请求支持：

import requests url = "http://localhost:7860/api/generate" headers = {"Content-Type": "application/json"} data = { "prompt": "解释相对论的基本概念", "max_new_tokens": 256 } response = requests.post(url, headers=headers, json=data) print(response.json())

3.2 参数说明

参数	默认值	说明
prompt	必填	输入提示文本
max_new_tokens	512	最大生成token数
temperature	0.3	生成随机性控制
top_p	0.85	核采样阈值
repetition_penalty	1.2	重复惩罚系数

4. 扩展批量请求支持

4.1 修改app.py

我们需要扩展app.py以支持批量请求处理。以下是关键修改部分：

from fastapi import FastAPI, Request from typing import List import uvicorn app = FastAPI() @app.post("/api/batch_generate") async def batch_generate(request: Request): data = await request.json() prompts = data.get("prompts", []) results = [] for prompt in prompts: # 使用模型处理每个prompt output = model.generate( prompt, max_new_tokens=data.get("max_new_tokens", 512), temperature=data.get("temperature", 0.3), top_p=data.get("top_p", 0.85), repetition_penalty=data.get("repetition_penalty", 1.2) ) results.append(output) return {"results": results}

4.2 批量请求示例

import requests url = "http://localhost:7860/api/batch_generate" headers = {"Content-Type": "application/json"} data = { "prompts": [ "计算圆的面积，已知半径r=5", "解释量子纠缠现象", "写一个Python函数计算斐波那契数列" ], "max_new_tokens": 256 } response = requests.post(url, headers=headers, json=data) print(response.json())

5. 性能优化建议

5.1 批处理大小控制

建议批处理大小不超过4个请求
可根据GPU显存调整批处理大小

5.2 超时设置

# 客户端设置超时 response = requests.post(url, headers=headers, json=data, timeout=60)

5.3 异步处理

对于大量请求，建议实现队列系统：

from concurrent.futures import ThreadPoolExecutor executor = ThreadPoolExecutor(max_workers=4) def process_prompt(prompt): # 处理单个prompt return model.generate(prompt) @app.post("/api/async_batch") async def async_batch(request: Request): data = await request.json() prompts = data.get("prompts", []) with ThreadPoolExecutor() as executor: results = list(executor.map(process_prompt, prompts)) return {"results": results}