当前位置：首页 > news >正文

vLLM-v0.17.1快速部署：Spring AI集成Qwen3.5，隐藏思考标签实战解析

news 2026/6/4 11:17:02

vLLM-v0.17.1快速部署：Spring AI集成Qwen3.5，隐藏思考标签实战解析

1. 项目背景与目标

在大型语言模型(LLM)的实际应用中，Qwen3.5等模型默认会输出<think>推理标签，展示模型的思考过程。然而在生产环境中，这些中间过程往往需要隐藏，只保留最终答案。本文将详细介绍如何通过vLLM-v0.17.1与Spring AI的集成，实现Qwen3.5模型的快速部署与思考标签的隐藏。

2. vLLM服务端部署

2.1 环境准备

确保您的服务器满足以下要求：

NVIDIA GPU（推荐RTX 3090及以上）
CUDA 11.8或更高版本
Python 3.9+
至少16GB显存（针对Qwen3.5-9B模型）

2.2 启动vLLM服务

使用以下命令启动vLLM服务端：

nohup python -m vllm.entrypoints.openai.api_server \ --model Qwen/Qwen3.5-9B \ --host 0.0.0.0 \ --port 11454 \ --served-model-name qwen3 \ --max-num-seqs 32 \ --max-model-len 262144 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --reasoning-parser qwen3 \ --uvicorn-log-level debug \ > ~/Documents/logs/vllm.log 2>&1 &

关键参数说明

参数	作用	必要性
`--reasoning-parser qwen3`	启用Qwen3.5推理解析	必须
`--tool-call-parser qwen3_coder`	匹配工具调用格式	必须
`--served-model-name qwen3`	客户端调用模型短名	推荐
`--max-model-len 262144`	最大上下文长度	可选

版本要求：vLLM版本必须≥0.6.4，本文使用v0.17.1已验证可用

3. Spring AI客户端集成

3.1 项目依赖配置

在Spring Boot项目的pom.xml中添加依赖：

<dependency> <groupId>org.springframework.ai</groupId> <artifactId>spring-ai-openai-spring-boot-starter</artifactId> <version>1.0.2</version> </dependency>

3.2 核心配置类

创建配置类设置OpenAI API参数：

@Configuration public class AiConfig { @Bean public OpenAiChatOptions chatOptions() { return OpenAiChatOptions.builder() .model("qwen3") // 与服务端--served-model-name一致 .temperature(0.7) .maxTokens(32768) .extraBody(Map.of( "chat_template_kwargs", Map.of("enable_thinking", false) )) .build(); } }

3.3 服务调用示例

实现简单的对话服务：

@Service public class ChatService { private final ChatClient chatClient; public ChatService(ChatClient chatClient) { this.chatClient = chatClient; } public String chat(String message) { Prompt prompt = new Prompt(message, chatOptions()); ChatResponse response = chatClient.call(prompt); return response.getResult().getOutput().getContent(); } }

4. 进阶功能实现

4.1 多模态支持

Qwen3.5支持图像理解，可通过以下方式实现：

public String analyzeImage(String imageUrl, String question) { Media media = new Media("image/png", new UrlResource(imageUrl)); UserMessage message = new UserMessage(question, List.of(media)); ChatResponse response = chatClient.call( new Prompt(message, chatOptions()) ); return response.getResult().getOutput().getContent(); }

4.2 流式响应处理

对于长文本生成，建议使用流式响应：

public Flux<String> streamChat(String message) { Prompt prompt = new Prompt(message, chatOptions()); return chatClient.stream(prompt) .map(response -> response.getResult().getOutput().getContent()); }

5. 常见问题排查

5.1 思考标签未隐藏

现象：输出仍包含<think>标签

解决方案：

确认vLLM版本≥0.6.4
检查启动命令包含--reasoning-parser qwen3
直接测试API端点：

curl http://localhost:11454/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "qwen3", "messages": [{"role": "user", "content": "Hello"}], "chat_template_kwargs": {"enable_thinking": false} }'

5.2 性能优化建议

批处理请求：利用vLLM的连续批处理特性
量化模型：考虑使用GPTQ或AWQ量化减少显存占用
张量并行：多GPU环境下启用--tensor-parallel-size

6. 总结与最佳实践

6.1 关键配置要点

环节	配置项	值/方法
服务端	vLLM版本	≥0.6.4
服务端	启动参数	`--reasoning-parser qwen3`
客户端	模型名称	与`--served-model-name`一致
客户端	隐藏思考	`.extraBody({"enable_thinking": false})`