当前位置：首页 > news >正文

大模型部署六种方式：从Ollama到vLLM的选型实战指南

news 2026/7/4 11:09:40

1. 项目概述：为什么“六种方式”不是噱头，而是真实存在的部署光谱

你是不是也经历过这样的时刻：刚在Hugging Face上下载完一个7B参数的模型，兴冲冲想本地跑起来，结果卡在了第一步——连环境都装不全？pip install vllm报错CUDA版本不匹配；ollama拉镜像慢得像在等快递签收；用Gradio搭个界面，前端一调后端就跨域报错；好不容易用FastAPI写好接口，一并发请求就内存爆满……这不是你技术不行，而是大模型部署这件事，本身就不是一道单选题，而是一张覆盖不同硬件、不同场景、不同团队能力的立体光谱。

“大模型部署全攻略：六种方式，总有一款适合你”这个标题里的“六种”，不是凑数，也不是营销话术。它对应的是六条真实存在、被成百上千个团队验证过的落地路径，每一条背后都有明确的取舍逻辑：你要的是极致吞吐还是最低延迟？是开箱即用还是深度可控？是个人玩具还是生产服务？是ARM笔记本还是A100集群？vLLM、SGLang、Ollama、Gradio、FastAPI、Docker Compose——这些热词不是孤立的工具名，而是六种不同粒度的“部署原子”。vLLM解决的是GPU显存和计算效率的硬骨头；SGLang把推理逻辑从Python里解放出来，用类SQL语法写提示工程；Ollama是给非工程师准备的“一键安装包”，屏蔽了CUDA、NCCL这些黑盒；Gradio是快速验证想法的“白板”，三行代码就能让老板看到效果；FastAPI是构建企业级API的“钢筋水泥”，支撑高并发、鉴权、监控；Docker Compose则是把所有这些零件严丝合缝组装起来的“总装线”。

我过去三年带过17个AI项目落地，从高校实验室的树莓派4B跑Phi-3，到金融客户私有云上用8卡V100部署Qwen2-72B，踩过的坑比写的代码还多。最深的体会是：没有“最好的部署方式”，只有“最不拖累你当前目标的方式”。今天这篇，不讲虚的原理，不堆术语，就用你明天就能抄作业的实操细节、参数选择依据、避坑口诀，把这六种方式掰开揉碎。无论你是刚学完Python的实习生，还是负责架构选型的CTO，都能在这里找到属于你的那一款。

2. 六种部署方式的核心定位与选型逻辑

2.1 为什么必须先理解“部署光谱”，而不是直接上手？

很多人一上来就问：“vLLM和Ollama哪个更好？” 这问题本身就有陷阱。就像问“螺丝刀和电钻哪个更好”——取决于你要拧的是木板上的自攻钉，还是混凝土墙上的膨胀螺栓。大模型部署的底层矛盾，从来不是工具优劣，而是资源约束、交付节奏、维护成本、扩展需求这四股力量的动态博弈。我们先画一张“部署光谱图”，横轴是“控制粒度”，纵轴是“上手门槛”，六个点就是六种方式的真实坐标：

部署方式	控制粒度（高→低）	上手门槛（低→高）	典型适用场景	硬件敏感度	团队技能要求
Ollama	极低（黑盒）	极低（`ollama run qwen:7b`）	个人实验、教学演示、快速原型	低（CPU/GPU自动适配）	零Python基础
Gradio	低（封装UI层）	低（`gr.Interface(fn=xxx)`）	内部工具、客户POC、非技术用户交互	中（依赖后端模型服务）	Python基础+1小时
FastAPI	中（暴露API层）	中（需写路由/校验/异常）	生产API、集成到现有系统、需要鉴权/日志	高（需手动管理模型加载）	Python后端开发经验
vLLM	高（控制推理引擎）	高（需调参/理解PagedAttention）	高吞吐服务、低延迟响应、GPU资源紧张	极高（强依赖CUDA/cuDNN）	CUDA/PyTorch底层经验
SGLang	极高（控制推理逻辑+调度）	极高（需学SGLang DSL）	复杂工作流（如RAG+Agent）、多步推理编排	极高（同vLLM）	编译器/调度系统背景
Docker Compose	最高（定义完整运行时）	中高（YAML语法+网络配置）	多服务协同、CI/CD、环境一致性保障	中（容器化隔离）	DevOps基础

这张表不是让你死记硬背，而是帮你建立决策直觉。比如，你是个独立开发者，想用MacBook Pro M3芯片跑一个本地知识库助手，目标是“今天下午三点前让同事能用上”，那Ollama+Gradio组合就是最优解——Ollama自动处理Metal加速，Gradio三行代码生成Web界面，全程不用碰终端命令。但如果你是电商公司的AI平台组，要为千万级用户提供实时商品推荐生成服务，那vLLM+FastAPI+Docker Compose就是铁三角：vLLM榨干A100显存，FastAPI做流量网关和熔断，Docker Compose确保灰度发布零差错。

提示：选型时永远先问自己三个问题：
我的第一版MVP必须在多少小时内上线？（决定是否跳过vLLM调参）
未来三个月内，QPS会从10涨到1000吗？（决定是否现在就设计异步队列）
谁来维护这个服务？是我一个人，还是轮值的SRE团队？（决定日志/监控/告警的复杂度）

2.2 Ollama：给非工程师的“大模型安卓系统”

Ollama常被误解为“玩具”，但它其实是目前最接近“操作系统”定位的部署方案。它的核心价值不是性能，而是抽象层级足够高，把CUDA版本、模型量化格式、GPU内存分配这些90%的开发者根本不想碰的脏活，全部封装进一个二进制里。你可以把它理解成大模型领域的Android：你不用关心高通骁龙8 Gen3怎么调度NPU，只要APP能调用Camera API就行。

它的技术底座其实很扎实：底层用的是llama.cpp的GGUF量化引擎（所以支持CPU推理），但通过Go语言重写了服务层，实现了跨平台二进制分发。当你执行ollama run qwen:7b时，Ollama做的远不止是下载模型——它会：

自动检测本地GPU（NVIDIA/AMD/Apple Silicon），选择最优后端（CUDA/Metal/Vulkan）
根据GPU显存大小，动态选择量化级别（Q4_K_M/Q5_K_S）
启动一个轻量HTTP服务（默认http://localhost:11434），暴露OpenAI兼容的/v1/chat/completions接口
内置模型缓存机制，避免重复下载

这就是为什么“ollama下载慢怎么办”成为高频搜索词——因为Ollama默认从官方仓库拉取，而国内网络对GitHub Releases的连接不稳定。解决方案不是换源，而是理解它的缓存机制：Ollama的模型文件实际存储在~/.ollama/models/blobs/下，是一个个SHA256命名的二进制块。你完全可以用curl -L https://xxx/qwen2-7b.Q4_K_M.gguf -o ~/.ollama/models/blobs/sha256-xxxx手动下载，再用ollama create qwen:7b -f Modelfile注册。Modelfile内容极简：

FROM ./qwen2-7b.Q4_K_M.gguf PARAMETER num_ctx 4096 PARAMETER stop "user:" PARAMETER stop "assistant:"

这样，你既绕过了网络限制，又获得了完全可控的模型版本。

实操心得：Ollama在Windows上有个隐藏巨坑——默认安装路径在C:\Users\XXX\AppData\Local\Programs\Ollama\，而模型缓存目录却在C:\Users\XXX\.ollama\。如果C盘空间不足，直接mklink /J "C:\Users\XXX\.ollama" "D:\ollama_cache"建符号链接，比改注册表安全十倍。

2.3 Gradio：三分钟让老板看到效果的“魔法白板”

Gradio不是部署工具，而是降低认知摩擦的协作界面。它的存在意义，是让数据科学家写的model.generate()函数，能被产品经理、销售、法务这些完全不懂代码的人，用鼠标点几下就试出来效果。所以它的设计哲学是“最小必要交互”：不提供RESTful API文档，不支持JWT鉴权，甚至不内置数据库——因为这些都会拖慢“让想法快速可视化”的核心目标。

Gradio的底层其实是个精巧的WebSocket服务器。当你写gr.Interface(fn=chat_fn, inputs="text", outputs="text")时，Gradio在后台做了三件事：

启动一个Flask/Werkzeug服务（默认http://localhost:7860）
自动生成HTML表单，绑定输入框和输出框
建立浏览器到服务端的长连接，把用户输入序列化为JSON，调用你的Python函数，再把返回值实时渲染

正因为如此，“gradio cors”成为高频问题——Gradio默认只允许同源请求，而你在Vue项目里用fetch('http://localhost:7860/api/predict')必然失败。解决方案不是改Gradio源码，而是用反向代理绕过浏览器同源策略。Nginx配置只需三行：

location /api/ { proxy_pass http://localhost:7860/; proxy_set_header Origin ""; add_header 'Access-Control-Allow-Origin' '*'; }

更关键的是，Gradio的launch()方法有share=True参数，它会通过Cloudflare Tunnel给你生成一个临时公网URL（如https://xxx.gradio.live）。这个URL背后，Gradio启动了一个ngrok-like的隧道进程，把本地端口映射到Cloudflare边缘节点。虽然免费版有速率限制，但对内部演示已绰绰有余。

注意：Gradio 4.x版本开始强制要求HTTPS，share=True生成的URL必须用https://访问。如果你在局域网内用IP访问，浏览器会因混合内容（HTTP页面加载HTTPS资源）而报错。此时必须用server_name="0.0.0.0"+server_port=7860，再配合公司内网DNS解析，彻底规避HTTPS。

2.4 FastAPI：生产环境的“API钢筋水泥”

如果说Gradio是毛坯房，FastAPI就是精装交付的标准间。它不提供任何模型推理能力，但提供了构建高可用API所需的一切基础设施：自动OpenAPI文档、Pydantic数据校验、异步I/O、依赖注入、中间件链。当你需要把大模型服务接入现有风控系统、计费平台、审计日志时，FastAPI就是那个不可替代的“承重墙”。

FastAPI的性能优势来自两个底层设计：

Starlette异步框架：所有I/O操作（数据库查询、HTTP调用、文件读写）都用async/await，避免GIL阻塞。实测在单核CPU上，处理100个并发请求时，FastAPI比Flask快3.2倍。
Pydantic V2结构化校验：请求体自动转换为Python类型对象，错误直接返回422状态码和详细字段错误信息，省去90%的手动if not request.json.get("prompt")判断。

一个典型的生产级FastAPI服务结构如下：

# main.py from fastapi import FastAPI, Depends, HTTPException, BackgroundTasks from pydantic import BaseModel from typing import List, Optional import asyncio app = FastAPI( title="Qwen2-72B Inference API", docs_url="/docs", # Swagger UI redoc_url=None, # 关闭ReDoc ) class ChatRequest(BaseModel): messages: List[dict] temperature: float = 0.7 max_tokens: int = 1024 @app.post("/v1/chat/completions") async def chat_completion(request: ChatRequest): # 这里调用vLLM或Ollama的客户端 try: response = await call_vllm_api(request) # 异步调用 return {"choices": [{"message": {"content": response}}]} except Exception as e: raise HTTPException(status_code=500, detail=str(e)) # 添加健康检查端点 @app.get("/health") def health_check(): return {"status": "ok", "timestamp": int(time.time())}

关键点在于call_vllm_api()的实现。这里绝不能用requests.post()同步调用，必须用httpx.AsyncClient()，否则整个FastAPI的异步优势荡然无存。实测对比：同步调用vLLM服务时，并发100请求平均耗时2.3秒；改用httpx.AsyncClient()后，降到0.8秒——因为100个HTTP请求被并发发出，而不是排队等待。

实操心得：FastAPI的BackgroundTasks常被误用。很多人以为它能“后台执行耗时任务”，但其实它只是把函数放到事件循环中执行，仍会阻塞当前请求。真正需要异步任务（如日志上报、消息队列投递），必须用Celery或Redis Queue，否则高并发下FastAPI会因事件循环过载而假死。

2.5 vLLM：GPU显存的“空间管理大师”

vLLM不是更快的PyTorch，而是重新发明了GPU显存的使用方式。它的核心创新PagedAttention，灵感来自操作系统的虚拟内存管理。传统Transformer推理中，每个请求的KV Cache像一块连续内存，导致大量碎片——就像Windows XP时代，一个程序占着1GB内存，但其中300MB是零散小块，无法被其他程序利用。vLLM则把KV Cache切成固定大小的“页”（Page），每个页4KB，用类似页表的结构管理，让不同请求的KV Cache可以共享同一块物理显存。

这就解释了为什么vLLM能实现24倍吞吐提升：不是算得更快，而是让GPU显存利用率从35%提升到92%。当你用vllm.LLM(model="Qwen2-72B")初始化时，vLLM做的第一件事是计算最优Page Size和Block Size。公式很简单：

Block Size =max(16, min(128, GPU显存GB * 16))
（例如24GB A100 → Block Size = 384，但上限128，所以取128）
Page Size =Block Size * head_dim * num_kv_heads * 2（2是FP16字节）

所以，--block-size 128不是随便设的，而是根据你的GPU型号算出来的。A100用128，RTX 4090用64，Jetson Orin用32——设错会导致显存浪费或OOM。

vLLM的另一个杀手锏是Continuous Batching（连续批处理）。传统方式是等齐一批请求才送入GPU，vLLM则让新请求随时插入正在运行的批次。这需要精确的时间片调度，所以vLLM内置了一个轻量级调度器，用--max-num-seqs 256控制最大并发请求数。这个值不是越大越好：实测在A100上，设为256时吞吐最高；但设为512时，因调度开销增大，吞吐反而下降7%。

注意：vLLM的--quantization awq参数常被滥用。AWQ量化需要模型原始权重，而Ollama导出的GGUF文件已做过一次量化。强行用AWQ再量化，会导致精度暴跌。正确做法是：用HuggingFace原生模型（如Qwen/Qwen2-72B）+ AWQ，或用Ollama GGUF +--dtype half（半精度）。

2.6 SGLang：让大模型“思考过程”可编程的DSL

SGLang不是vLLM的竞品，而是它的“高级驾驶辅助系统”。vLLM解决了“怎么算得快”，SGLang解决了“怎么算得聪明”。它的核心思想是：把大模型的推理流程，从隐式的黑盒，变成显式的、可调试的程序。比如，一个标准RAG流程，在传统写法里是：

# 伪代码 retrieved_docs = vector_db.search(query) prompt = f"基于以下资料回答：{retrieved_docs}\n问题：{query}" response = model.generate(prompt)

而在SGLang里，你写的是：

@sglang.function def rag_flow(s, query: str): retrieved_docs = s.retrieve(vector_db, query) s += f"基于以下资料回答：{retrieved_docs}\n问题：{query}" s += "答案：" response = s.gen(max_tokens=512) return response

这段代码会被SGLang编译成一个DAG（有向无环图），每个节点是一个推理步骤，边是数据流。SGLang Runtime会自动优化这个DAG：把retrieve步骤并行化，把gen步骤用vLLM加速，甚至在gen中途插入s.fork()创建分支，实现“同时生成多个答案并投票”。

SGLang的部署模式有两种：

Standalone Mode：直接启动SGLang服务（sglang.launch_server --model Qwen2-72B --port 30000），暴露OpenAI兼容API
vLLM Integration Mode：作为vLLM的插件，vllm.LLM(model="Qwen2-72B", enable_sglang=True)，此时SGLang只负责DAG编译，vLLM负责执行

后者才是生产首选。因为SGLang的DAG编译开销很小（毫秒级），但vLLM的执行效率极高。两者结合，既保留了vLLM的吞吐优势，又获得了SGLang的流程可控性。

实操心得：SGLang的@function装饰器不支持嵌套。你不能在一个@function里调用另一个@function。正确做法是用sglang.bind()把多个函数组合成流水线。这是为了保证DAG的静态可分析性——SGLang需要在执行前就确定所有节点，才能做全局优化。

2.7 Docker Compose：多服务协同的“总装线图纸”

Docker Compose不是可选项，而是现代AI服务的基础设施事实标准。单个vLLM服务再快，也无法解决“如何让前端、后端、向量库、监控系统协同工作”这个问题。Compose的docker-compose.yaml文件，本质上是一份声明式的服务装配说明书。

以一个典型RAG服务为例，它的Compose文件至少包含四个服务：

version: '3.8' services: # 1. vLLM推理服务（GPU节点） vllm: image: vllm/vllm-openai:latest deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu] command: > --model Qwen2-72B --tensor-parallel-size 2 --block-size 128 --max-num-seqs 256 --port 8000 # 2. 向量数据库（CPU节点） qdrant: image: qdrant/qdrant:latest volumes: - ./qdrant_data:/qdrant/storage # 3. FastAPI应用（CPU节点） api: build: ./api environment: - VLLM_URL=http://vllm:8000 - QDRANT_URL=http://qdrant:6333 depends_on: - vllm - qdrant # 4. Nginx反向代理（CPU节点） nginx: image: nginx:alpine ports: - "80:80" volumes: - ./nginx.conf:/etc/nginx/nginx.conf

关键点在于depends_on和网络配置。depends_on只保证启动顺序，不保证服务就绪。所以FastAPI的main.py里必须有健壮的重试逻辑：

import time import requests from tenacity import retry, stop_after_attempt, wait_fixed @retry(stop=stop_after_attempt(30), wait=wait_fixed(2)) def wait_for_vllm(): try: resp = requests.get("http://vllm:8000/health") resp.raise_for_status() except Exception as e: print(f"Waiting for vllm: {e}") raise

此外，docker-compose --profile gradio up -d中的--profile是神功能。你可以把Gradio服务定义在profiles: ["gradio"]下，这样docker-compose up -d只启核心服务，docker-compose --profile gradio up -d才额外启动Gradio——完美区分生产环境和演示环境。

注意：Docker Desktop在Windows/Mac上默认只分配2GB内存给Linux VM，而vLLM启动72B模型至少需要32GB。必须在Docker Desktop设置里把内存调到64GB，否则docker-compose up会卡在Starting vllm ...，日志里全是CUDA out of memory。

3. 六种方式的组合实战：从个人玩具到企业级服务

3.1 场景一：个人开发者，MacBook Pro M3芯片，部署Qwen2-7B做本地知识库

这是最典型的入门场景。硬件限制明确：M3芯片无CUDA，只有Apple Metal；内存统一内存架构（Unified Memory），GPU和CPU共享内存；目标是“今天下班前能用上”。

错误路径：试图编译vLLM for macOS，或用Docker Desktop跑Linux容器——M3的ARM64架构和Rosetta 2转译会让一切变得缓慢且不可靠。

正确组合：Ollama + Gradio + local LlamaIndex

步骤详解：

安装Ollama：直接官网下载.pkg安装包，双击安装。验证ollama list应为空。

下载并量化模型：Ollama默认下载Q4_K_M量化版，但M3对Q5_K_S支持更好。手动下载：

curl -L https://huggingface.co/TheBloke/Qwen2-7B-Instruct-GGUF/resolve/main/qwen2-7b-instruct.Q5_K_S.gguf \ -o ~/.ollama/models/blobs/sha256-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

创建Modelfile：

FROM ./qwen2-7b-instruct.Q5_K_S.gguf PARAMETER num_ctx 8192 PARAMETER stop "<|im_end|>" PARAMETER stop "<|im_start|>" TEMPLATE """<|im_start|>system {{ .System }}<|im_end|> <|im_start|>user {{ .Prompt }}<|im_end|> <|im_start|>assistant """

构建模型：ollama create qwen2:7b-instruct -f Modelfile

启动Gradio界面：

import ollama import gradio as gr def chat(message, history): response = ollama.chat( model='qwen2:7b-instruct', messages=[{'role': 'user', 'content': message}] ) return response['message']['content'] gr.ChatInterface(chat).launch(server_name="0.0.0.0", server_port=7860)

解决Gradio CORS：由于是本地访问，直接在Gradiolaunch()中加share=False, server_name="0.0.0.0"，用http://localhost:7860访问即可。

实测效果：M3 Max芯片上，Q5_K_S量化版首token延迟1.2秒，后续token 80ms，完全满足个人知识库交互需求。整个过程耗时23分钟，其中18分钟花在下载模型上。

实操心得：Mac上Ollama的Metal后端有个隐藏开关——在~/.ollama/config.json里添加{"metal": true}，否则默认用CPU推理，速度慢10倍。这个配置项官方文档从未提及，是社区踩坑总结。

3.2 场景二：创业公司，4台A100 80G服务器，部署Qwen2-72B支持1000QPS

这是典型的“性能压榨”场景。硬件资源充足，但成本敏感；团队有Python后端经验，但无CUDA专家；目标是“两周内上线，支持业务方灰度测试”。

错误路径：直接用transformers+pipeline部署，或用单机vLLM——前者吞吐不足，后者无法水平扩展。

正确组合：vLLM + FastAPI + Docker Compose + Redis Queue

架构设计：

vLLM集群：4台A100，每台部署2个vLLM实例（--tensor-parallel-size 2），共8个推理节点
FastAPI网关：1台CPU服务器，做负载均衡、鉴权、限流、日志
Redis Queue：1台Redis服务器，做请求缓冲，应对流量峰值
Prometheus+Grafana：监控vLLM的num_requests_running、gpu_cache_usage等核心指标

关键配置：

vLLM启动命令（每台A100）：

python -m vllm.entrypoints.openai.api_server \ --model Qwen2-72B \ --tensor-parallel-size 2 \ --pipeline-parallel-size 1 \ --block-size 128 \ --max-num-seqs 256 \ --port 8000 \ --host 0.0.0.0 \ --enable-chunked-prefill \ --gpu-memory-utilization 0.95

--gpu-memory-utilization 0.95是精髓——vLLM默认只用90%，设为0.95能多塞进约5%的请求，实测在A100上稳定运行。

FastAPI的负载均衡逻辑：

from fastapi import Depends import httpx import random # 预定义vLLM节点列表 VLLM_NODES = [ "http://vllm-node1:8000", "http://vllm-node2:8000", # ... 共8个 ] async def get_vllm_client(): node = random.choice(VLLM_NODES) # 简单轮询 async with httpx.AsyncClient(base_url=node) as client: yield client

Docker Compose的健康检查：

healthcheck: test: ["CMD", "curl", "-f", "http://localhost:8000/health"] interval: 30s timeout: 10s retries: 3

实测结果：8个vLLM节点，1000QPS下平均延迟320ms，P99延迟890ms，GPU显存利用率91.3%。当某台A100宕机时，FastAPI自动剔除故障节点，QPS短暂跌至850，30秒内恢复。

注意：vLLM的--enable-chunked-prefill必须开启。它把长上下文的prefill阶段切成小块，避免单次计算超时。Qwen2-72B的8K上下文，不开此参数时prefill耗时2.1秒，开启后降到0.7秒。

3.3 场景三：企业IT部门，Windows Server 2019，部署MinerU2.5-Pro-2605-1.2B供Claude调用

这是最棘手的企业环境场景。Windows Server无原生CUDA支持；IT策略禁止安装Docker Desktop；Claude客户端要求OpenAI兼容API；模型是冷门的MinerU系列，HuggingFace上只有PyTorch权重。

错误路径：试图在Windows上编译vLLM，或用WSL2——IT部门会以“安全合规”为由否决。

正确组合：Ollama Windows版 + FastAPI Wrapper + IIS反向代理

技术要点：

Ollama for Windows已原生支持CUDA（需手动安装NVIDIA驱动），但MinerU模型不在Ollama官方库。解决方案：用ollama create命令从本地GGUF文件构建。
FastAPI Wrapper不直接调用模型，而是作为Ollama的HTTP代理，把Claude的请求转发给http://localhost:11434/api/chat，再把响应转换为OpenAI格式。
IIS反向代理解决Windows服务暴露问题，且自带SSL卸载和IP白名单。

步骤：

在Windows Server上安装Ollama：下载OllamaSetup.exe，勾选“Add to PATH”，安装后重启。

转换MinerU模型为GGUF：在Linux机器上用llama.cpp的convert-hf-to-gguf.py脚本：

python convert-hf-to-gguf.py opendatalab/mineru2.5-pro-2605-1.2b --outfile mineru2.5.Q4_K_M.gguf

上传GGUF到Windows服务器，创建Modelfile：

FROM ./mineru2.5.Q4_K_M.gguf PARAMETER num_ctx 4096 PARAMETER stop "<|eot|>" TEMPLATE """<|im_start|>system {{ .System }}<|im_end|> <|im_start|>user {{ .Prompt }}<|im_end|> <|im_start|>assistant """

构建模型：ollama create mineru2.5:1.2b -f Modelfile

编写FastAPI Wrapper：

from fastapi import FastAPI, Request import httpx app = FastAPI() @app.post("/v1/chat/completions") async def openai_compatible(request: Request): body = await request.json() # 转换OpenAI格式为Ollama格式 ollama_messages = [] for msg in body["messages"]: ollama_messages.append({ "role": msg["role"], "content": msg["content"] }) async with httpx.AsyncClient() as client: resp = await client.post( "http://localhost:11434/api/chat", json={ "model": "mineru2.5:1.2b", "messages": ollama_messages, "stream": False } ) ollama_resp = resp.json() # 转回OpenAI格式 return { "choices": [{ "message": {"content": ollama_resp["message"]["content"]} }] }

用IIS ARR模块配置反向代理：在IIS管理器中启用Application Request Routing，添加服务器代理规则，指向http://localhost:8000。

实测效果：Windows Server 2019 + RTX 6000 Ada，MinerU 1.2B模型首token延迟450ms，完全满足Claude客户端调用需求。整个部署过程IT部门仅需批准Ollama安装包，其余全在用户权限下完成。

实操心得：Windows上Ollama的--num-gpu参数无效，它自动检测GPU数量。若有多卡，需用CUDA_VISIBLE_DEVICES=0环境变量指定单卡，否则Ollama会尝试占用所有GPU，导致显存不足。

4. 常见问题与排查技巧实录

4.1 vLLM冷启动问题：为什么第一次请求慢得像在煮咖啡？

现象：vLLM服务启动后，第一个/v1/chat/completions请求耗时15秒以上，后续请求瞬间降至200ms。日志显示Initializing model...长时间无输出。

原因：vLLM的冷启动包含三个重量级步骤：

CUDA Context初始化：首次调用CUDA API时，驱动要建立GPU上下文，耗时3-5秒
模型权重加载与分片：72B模型权重约140GB，需从SSD读取并切分成Tensor Parallel分片，耗时6-8秒
KV Cache内存预分配：按--block-size和--max-num-seqs预分配显存页表，耗时2-3秒

解决方案不是“等它热起来”，而是主动预热：

# 在vLLM启动后，立即发送预热请求 import requests import time def warmup_vllm(): # 发送一个空请求触发CUDA初始化 requests.post("http://localhost:8000/generate", json={"prompt": " "}) time.sleep(1) # 发送一个真实请求填充KV Cache requests.post("http://localhost:8000/v1/chat/completions", json={ "model": "Qwen2-72B", "messages": [{"role": "user", "content": "Hello"}], "max_tokens": 1 }) if __name__ == "__main__": warmup_vllm()

更优雅的做法是用vLLM的--enforce-eager参数启动，它会禁用CUDA Graph优化，让所有计算图在启动时就编译好，冷启动时间从15秒降到3秒。代价是吞吐下降8%，但对于

查看全文

http://www.jsqmd.com/news/1121296/