当前位置：首页 > news >正文

Qwen3-VL-8B一键部署Java集成指南：SpringBoot后端服务开发

news 2026/4/6 2:21:27

Qwen3-VL-8B一键部署Java集成指南：SpringBoot后端服务开发

最近在星图GPU平台上试用了Qwen3-VL-8B模型，一键部署确实方便。但部署好之后，怎么把它集成到咱们自己的Java后端项目里，让它真正跑起来，这可能才是开发者更关心的事。今天我就结合自己的经验，聊聊怎么在SpringBoot项目里，把这个多模态大模型的能力封装成服务，让你能快速开发出具备视觉理解能力的智能应用。

1. 环境准备与项目搭建

在开始集成之前，咱们得先把基础环境准备好。这里假设你已经按照星图平台的指引，成功部署了Qwen3-VL-8B模型的服务端，并且拿到了API的访问地址和端口。

1.1 创建SpringBoot项目

如果你还没有现成的项目，可以用Spring Initializr快速创建一个。我习惯用IDEA自带的创建工具，或者直接去官网生成。

核心依赖咱们需要这几个：

Spring Boot Starter Web：开发RESTful API必备
Spring Boot Starter Test：写测试用
Lombok：简化代码，少写getter/setter
OkHttp或Apache HttpClient：用来调用Qwen3-VL的HTTP API，我个人更喜欢OkHttp，用起来顺手

你的pom.xml里大概会是这样：

<dependencies> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> </dependency> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-test</artifactId> <scope>test</scope> </dependency> <dependency> <groupId>org.projectlombok</groupId> <artifactId>lombok</artifactId> <optional>true</optional> </dependency> <dependency> <groupId>com.squareup.okhttp3</groupId> <artifactId>okhttp</artifactId> <version>4.12.0</version> </dependency> </dependencies>

1.2 配置模型服务连接

模型部署好后，会有一个服务地址，比如http://你的服务器IP:端口。咱们得把这个配置到项目里，方便管理和修改。

在application.yml或者application.properties里加上：

# application.yml 示例 qwen: vl: base-url: http://192.168.1.100:8000 # 替换成你的实际地址 timeout: 30000 # 超时时间，单位毫秒 max-retries: 3 # 失败重试次数

然后创建一个配置类来读取这些配置：

import lombok.Data; import org.springframework.boot.context.properties.ConfigurationProperties; import org.springframework.stereotype.Component; @Data @Component @ConfigurationProperties(prefix = "qwen.vl") public class QwenVLConfig { private String baseUrl; private Integer timeout = 30000; private Integer maxRetries = 3; }

这样配置就完成了，后面用的时候直接注入这个配置类就行。

2. 封装Qwen3-VL Java客户端

直接裸调HTTP API太原始了，咱们得封装一个客户端，让后面的业务代码用起来更舒服。

2.1 设计请求响应模型

首先得定义清楚咱们要和模型服务交互的数据结构。Qwen3-VL支持多模态输入，所以请求体得能同时处理文本和图片。

import lombok.Data; import java.util.List; @Data public class QwenVLRequest { // 模型名称，如果服务端只部署了一个模型，这个可以省略 private String model = "qwen3-vl-8b"; // 消息列表，支持多轮对话 private List<Message> messages; // 生成参数 private Double temperature = 0.7; // 温度参数，控制随机性 private Integer maxTokens = 1024; // 最大生成token数 private Boolean stream = false; // 是否流式输出 @Data public static class Message { private String role; // user 或 assistant private List<Content> content; @Data public static class Content { private String type; // text 或 image_url private String text; // 当type=text时使用 private ImageUrl imageUrl; // 当type=image_url时使用 @Data public static class ImageUrl { private String url; // 图片URL，支持base64或http链接 } } } }

响应模型相对简单些：

import lombok.Data; import java.util.List; @Data public class QwenVLResponse { private String id; private String object; private Long created; private String model; private List<Choice> choices; private Usage usage; @Data public static class Choice { private Integer index; private Message message; private String finishReason; } @Data public static class Message { private String role; private String content; } @Data public static class Usage { private Integer promptTokens; private Integer completionTokens; private Integer totalTokens; } }

2.2 实现HTTP客户端

有了数据模型，接下来实现实际的HTTP调用。这里我用OkHttp，你也可以用别的HTTP客户端。

import com.fasterxml.jackson.databind.ObjectMapper; import lombok.extern.slf4j.Slf4j; import okhttp3.*; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.stereotype.Component; import java.io.IOException; import java.util.concurrent.TimeUnit; @Slf4j @Component public class QwenVLClient { @Autowired private QwenVLConfig config; @Autowired private ObjectMapper objectMapper; private final OkHttpClient httpClient; public QwenVLClient() { this.httpClient = new OkHttpClient.Builder() .connectTimeout(30, TimeUnit.SECONDS) .readTimeout(30, TimeUnit.SECONDS) .writeTimeout(30, TimeUnit.SECONDS) .build(); } public QwenVLResponse chatCompletion(QwenVLRequest request) throws IOException { // 构建请求体 String requestBody = objectMapper.writeValueAsString(request); RequestBody body = RequestBody.create( requestBody, MediaType.parse("application/json") ); // 构建HTTP请求 Request httpRequest = new Request.Builder() .url(config.getBaseUrl() + "/v1/chat/completions") // 假设API路径是这个 .post(body) .addHeader("Content-Type", "application/json") .build(); // 执行请求 try (Response response = httpClient.newCall(httpRequest).execute()) { if (!response.isSuccessful()) { throw new IOException("请求失败: " + response.code() + " " + response.message()); } String responseBody = response.body().string(); return objectMapper.readValue(responseBody, QwenVLResponse.class); } } // 添加重试机制的版本 public QwenVLResponse chatCompletionWithRetry(QwenVLRequest request) throws IOException { int retries = 0; IOException lastException = null; while (retries <= config.getMaxRetries()) { try { return chatCompletion(request); } catch (IOException e) { lastException = e; retries++; log.warn("第{}次请求失败，准备重试: {}", retries, e.getMessage()); if (retries <= config.getMaxRetries()) { try { Thread.sleep(1000 * retries); // 指数退避 } catch (InterruptedException ie) { Thread.currentThread().interrupt(); throw new IOException("重试被中断", ie); } } } } throw new IOException("重试" + config.getMaxRetries() + "次后仍然失败", lastException); } }

这个客户端封装了基本的HTTP调用，还加了重试机制，网络不太稳定的时候能自动重试几次。

3. 设计RESTful API服务层

客户端封装好了，现在咱们要在它上面再包一层，做成标准的RESTful API，这样前端或者其他服务调用起来就方便了。

3.1 设计API接口

根据常见的业务场景，我设计了这么几个接口：

import org.springframework.web.bind.annotation.*; import org.springframework.web.multipart.MultipartFile; @RestController @RequestMapping("/api/qwen-vl") public class QwenVLController { @Autowired private QwenVLService qwenVLService; /** * 文本对话接口 */ @PostMapping("/chat") public ApiResponse<String> chat(@RequestBody ChatRequest request) { try { String response = qwenVLService.chat(request.getMessages(), request.getTemperature()); return ApiResponse.success(response); } catch (Exception e) { return ApiResponse.error(e.getMessage()); } } /** * 图片理解接口 */ @PostMapping("/analyze-image") public ApiResponse<String> analyzeImage( @RequestParam("image") MultipartFile imageFile, @RequestParam(value = "question", required = false) String question) { try { String response = qwenVLService.analyzeImage(imageFile, question); return ApiResponse.success(response); } catch (Exception e) { return ApiResponse.error(e.getMessage()); } } /** * 多模态对话接口（文本+图片） */ @PostMapping("/multimodal-chat") public ApiResponse<String> multimodalChat(@RequestBody MultimodalChatRequest request) { try { String response = qwenVLService.multimodalChat(request); return ApiResponse.success(response); } catch (Exception e) { return ApiResponse.error(e.getMessage()); } } // 请求参数类 @Data public static class ChatRequest { private List<QwenVLRequest.Message> messages; private Double temperature = 0.7; } @Data public static class MultimodalChatRequest { private String text; private List<String> imageUrls; // 图片URL列表 private List<String> imageBase64s; // 图片base64列表 private Double temperature = 0.7; } // 统一的API响应格式 @Data public static class ApiResponse<T> { private boolean success; private String message; private T data; private Long timestamp; public static <T> ApiResponse<T> success(T data) { ApiResponse<T> response = new ApiResponse<>(); response.setSuccess(true); response.setMessage("success"); response.setData(data); response.setTimestamp(System.currentTimeMillis()); return response; } public static <T> ApiResponse<T> error(String message) { ApiResponse<T> response = new ApiResponse<>(); response.setSuccess(false); response.setMessage(message); response.setTimestamp(System.currentTimeMillis()); return response; } } }

3.2 实现业务逻辑层

控制器只是接收请求，真正的业务逻辑咱们放在Service层：

import lombok.extern.slf4j.Slf4j; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.stereotype.Service; import org.springframework.web.multipart.MultipartFile; import java.util.ArrayList; import java.util.Base64; import java.util.List; @Slf4j @Service public class QwenVLService { @Autowired private QwenVLClient qwenVLClient; /** * 纯文本对话 */ public String chat(List<QwenVLRequest.Message> messages, Double temperature) throws IOException { QwenVLRequest request = new QwenVLRequest(); request.setMessages(messages); request.setTemperature(temperature); QwenVLResponse response = qwenVLClient.chatCompletionWithRetry(request); if (response.getChoices() != null && !response.getChoices().isEmpty()) { return response.getChoices().get(0).getMessage().getContent(); } throw new RuntimeException("模型返回结果为空"); } /** * 图片分析 */ public String analyzeImage(MultipartFile imageFile, String question) throws IOException { // 将图片转换为base64 String base64Image = Base64.getEncoder().encodeToString(imageFile.getBytes()); String imageUrl = "data:image/jpeg;base64," + base64Image; // 构建消息 List<QwenVLRequest.Message> messages = new ArrayList<>(); List<QwenVLRequest.Message.Content> contents = new ArrayList<>(); // 如果有问题，先添加文本 if (question != null && !question.trim().isEmpty()) { QwenVLRequest.Message.Content textContent = new QwenVLRequest.Message.Content(); textContent.setType("text"); textContent.setText(question); contents.add(textContent); } // 添加图片 QwenVLRequest.Message.Content imageContent = new QwenVLRequest.Message.Content(); imageContent.setType("image_url"); QwenVLRequest.Message.Content.ImageUrl imageUrlObj = new QwenVLRequest.Message.Content.ImageUrl(); imageUrlObj.setUrl(imageUrl); imageContent.setImageUrl(imageUrlObj); contents.add(imageContent); QwenVLRequest.Message message = new QwenVLRequest.Message(); message.setRole("user"); message.setContent(contents); messages.add(message); // 调用模型 QwenVLRequest request = new QwenVLRequest(); request.setMessages(messages); QwenVLResponse response = qwenVLClient.chatCompletionWithRetry(request); if (response.getChoices() != null && !response.getChoices().isEmpty()) { return response.getChoices().get(0).getMessage().getContent(); } throw new RuntimeException("模型返回结果为空"); } /** * 多模态对话 */ public String multimodalChat(QwenVLController.MultimodalChatRequest request) throws IOException { List<QwenVLRequest.Message> messages = new ArrayList<>(); List<QwenVLRequest.Message.Content> contents = new ArrayList<>(); // 添加文本 if (request.getText() != null && !request.getText().trim().isEmpty()) { QwenVLRequest.Message.Content textContent = new QwenVLRequest.Message.Content(); textContent.setType("text"); textContent.setText(request.getText()); contents.add(textContent); } // 添加图片URL if (request.getImageUrls() != null) { for (String url : request.getImageUrls()) { QwenVLRequest.Message.Content imageContent = new QwenVLRequest.Message.Content(); imageContent.setType("image_url"); QwenVLRequest.Message.Content.ImageUrl imageUrlObj = new QwenVLRequest.Message.Content.ImageUrl(); imageUrlObj.setUrl(url); imageContent.setImageUrl(imageUrlObj); contents.add(imageContent); } } // 添加base64图片 if (request.getImageBase64s() != null) { for (String base64 : request.getImageBase64s()) { QwenVLRequest.Message.Content imageContent = new QwenVLRequest.Message.Content(); imageContent.setType("image_url"); QwenVLRequest.Message.Content.ImageUrl imageUrlObj = new QwenVLRequest.Message.Content.ImageUrl(); imageUrlObj.setUrl("data:image/jpeg;base64," + base64); imageContent.setImageUrl(imageUrlObj); contents.add(imageContent); } } QwenVLRequest.Message message = new QwenVLRequest.Message(); message.setRole("user"); message.setContent(contents); messages.add(message); // 调用模型 QwenVLRequest vlRequest = new QwenVLRequest(); vlRequest.setMessages(messages); vlRequest.setTemperature(request.getTemperature()); QwenVLResponse response = qwenVLClient.chatCompletionWithRetry(vlRequest); if (response.getChoices() != null && !response.getChoices().isEmpty()) { return response.getChoices().get(0).getMessage().getContent(); } throw new RuntimeException("模型返回结果为空"); } }

4. 高级功能与优化建议

基础功能跑通之后，咱们可以考虑加一些高级功能，让服务更稳定、更好用。

4.1 异步调用与并发控制

模型推理有时候比较耗时，如果同步调用，可能会阻塞线程。咱们可以用Spring的异步功能来优化。

import org.springframework.scheduling.annotation.Async; import org.springframework.scheduling.annotation.EnableAsync; import org.springframework.stereotype.Service; import java.util.concurrent.CompletableFuture; @Service @EnableAsync public class AsyncQwenVLService { @Autowired private QwenVLService qwenVLService; /** * 异步文本对话 */ @Async public CompletableFuture<String> chatAsync(List<QwenVLRequest.Message> messages, Double temperature) { try { String result = qwenVLService.chat(messages, temperature); return CompletableFuture.completedFuture(result); } catch (Exception e) { CompletableFuture<String> future = new CompletableFuture<>(); future.completeExceptionally(e); return future; } } /** * 异步图片分析 */ @Async public CompletableFuture<String> analyzeImageAsync(MultipartFile imageFile, String question) { try { String result = qwenVLService.analyzeImage(imageFile, question); return CompletableFuture.completedFuture(result); } catch (Exception e) { CompletableFuture<String> future = new CompletableFuture<>(); future.completeExceptionally(e); return future; } } }

然后在配置类里配置线程池：

import org.springframework.context.annotation.Configuration; import org.springframework.scheduling.annotation.AsyncConfigurer; import org.springframework.scheduling.concurrent.ThreadPoolTaskExecutor; import java.util.concurrent.Executor; @Configuration public class AsyncConfig implements AsyncConfigurer { @Override public Executor getAsyncExecutor() { ThreadPoolTaskExecutor executor = new ThreadPoolTaskExecutor(); executor.setCorePoolSize(10); // 核心线程数 executor.setMaxPoolSize(50); // 最大线程数 executor.setQueueCapacity(100); // 队列容量 executor.setThreadNamePrefix("qwen-vl-async-"); executor.initialize(); return executor; } }

4.2 请求限流与熔断

如果并发量比较大，或者模型服务不太稳定，咱们可以加个限流和熔断。

用Resilience4j来实现：

<!-- 在pom.xml中添加依赖 --> <dependency> <groupId>io.github.resilience4j</groupId> <artifactId>resilience4j-spring-boot2</artifactId> <version>2.1.0</version> </dependency> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-aop</artifactId> </dependency>

然后给Service方法加注解：

import io.github.resilience4j.ratelimiter.annotation.RateLimiter; import io.github.resilience4j.circuitbreaker.annotation.CircuitBreaker; @Service public class ProtectedQwenVLService { @Autowired private QwenVLService qwenVLService; /** * 限流：每秒最多10个请求 * 熔断：失败率超过50%时打开断路器 */ @RateLimiter(name = "qwenVLRateLimiter") @CircuitBreaker(name = "qwenVLCircuitBreaker", fallbackMethod = "fallback") public String protectedChat(List<QwenVLRequest.Message> messages, Double temperature) throws IOException { return qwenVLService.chat(messages, temperature); } // 熔断降级方法 public String fallback(List<QwenVLRequest.Message> messages, Double temperature, Throwable t) { log.warn("模型服务熔断，返回降级结果", t); return "系统繁忙，请稍后重试"; } }

4.3 结果缓存

对于一些重复的请求，可以加缓存来提升响应速度，减少模型调用。

import org.springframework.cache.annotation.Cacheable; import org.springframework.cache.annotation.EnableCaching; @Service @EnableCaching public class CachedQwenVLService { @Autowired private QwenVLService qwenVLService; /** * 缓存图片分析结果 * 用图片的MD5作为缓存key */ @Cacheable(value = "imageAnalysis", key = "#imageFile.originalFilename + ':' + #question") public String cachedAnalyzeImage(MultipartFile imageFile, String question) throws IOException { return qwenVLService.analyzeImage(imageFile, question); } /** * 缓存文本对话结果 */ @Cacheable(value = "chat", key = "#messages.hashCode() + ':' + #temperature") public String cachedChat(List<QwenVLRequest.Message> messages, Double temperature) throws IOException { return qwenVLService.chat(messages, temperature); } }

记得在配置里开启缓存：

spring: cache: type: caffeine caffeine: spec: maximumSize=1000,expireAfterWrite=10m

5. 实际使用示例

理论讲完了，咱们看看具体怎么用。我写几个常见的业务场景示例。

5.1 商品图片智能描述

电商场景里，经常需要给商品图片生成描述。用咱们封装好的服务，几行代码就能搞定。

@RestController @RequestMapping("/api/ecommerce") public class EcommerceController { @Autowired private QwenVLService qwenVLService; @PostMapping("/generate-product-description") public ApiResponse<String> generateProductDescription(@RequestParam("image") MultipartFile imageFile) { try { // 构建问题，让模型生成商品描述 String question = "请详细描述这张图片中的商品，包括商品类型、颜色、材质、特点等，生成一段吸引人的商品描述文案。"; String description = qwenVLService.analyzeImage(imageFile, question); return ApiResponse.success(description); } catch (Exception e) { return ApiResponse.error("生成描述失败: " + e.getMessage()); } } @PostMapping("/extract-product-attributes") public ApiResponse<Map<String, String>> extractProductAttributes(@RequestParam("image") MultipartFile imageFile) { try { String question = "请从图片中提取商品属性，包括：颜色、材质、尺寸、风格、适用场景。请用JSON格式返回，例如：{\"颜色\": \"红色\", \"材质\": \"棉质\", \"尺寸\": \"M\", \"风格\": \"休闲\", \"适用场景\": \"日常穿搭\"}"; String response = qwenVLService.analyzeImage(imageFile, question); // 解析JSON响应 ObjectMapper mapper = new ObjectMapper(); Map<String, String> attributes = mapper.readValue(response, new TypeReference<Map<String, String>>() {}); return ApiResponse.success(attributes); } catch (Exception e) { return ApiResponse.error("提取属性失败: " + e.getMessage()); } } }

5.2 多轮对话客服系统

客服场景需要多轮对话，咱们可以维护对话历史。

@Service public class CustomerService { @Autowired private QwenVLService qwenVLService; // 用ConcurrentHashMap存储用户对话历史（生产环境建议用Redis） private final Map<String, List<QwenVLRequest.Message>> conversationHistory = new ConcurrentHashMap<>(); /** * 处理用户消息 */ public String handleUserMessage(String userId, String userMessage, MultipartFile imageFile) throws IOException { // 获取或创建对话历史 List<QwenVLRequest.Message> history = conversationHistory.getOrDefault(userId, new ArrayList<>()); // 构建用户消息 List<QwenVLRequest.Message.Content> userContents = new ArrayList<>(); if (userMessage != null && !userMessage.trim().isEmpty()) { QwenVLRequest.Message.Content textContent = new QwenVLRequest.Message.Content(); textContent.setType("text"); textContent.setText(userMessage); userContents.add(textContent); } if (imageFile != null) { String base64Image = Base64.getEncoder().encodeToString(imageFile.getBytes()); String imageUrl = "data:image/jpeg;base64," + base64Image; QwenVLRequest.Message.Content imageContent = new QwenVLRequest.Message.Content(); imageContent.setType("image_url"); QwenVLRequest.Message.Content.ImageUrl imageUrlObj = new QwenVLRequest.Message.Content.ImageUrl(); imageUrlObj.setUrl(imageUrl); imageContent.setImageUrl(imageUrlObj); userContents.add(imageContent); } QwenVLRequest.Message userMessageObj = new QwenVLRequest.Message(); userMessageObj.setRole("user"); userMessageObj.setContent(userContents); history.add(userMessageObj); // 调用模型 QwenVLRequest request = new QwenVLRequest(); request.setMessages(history); QwenVLResponse response = qwenVLClient.chatCompletionWithRetry(request); String assistantResponse = response.getChoices().get(0).getMessage().getContent(); // 保存助手回复到历史 QwenVLRequest.Message assistantMessage = new QwenVLRequest.Message(); assistantMessage.setRole("assistant"); List<QwenVLRequest.Message.Content> assistantContents = new ArrayList<>(); QwenVLRequest.Message.Content textContent = new QwenVLRequest.Message.Content(); textContent.setType("text"); textContent.setText(assistantResponse); assistantContents.add(textContent); assistantMessage.setContent(assistantContents); history.add(assistantMessage); // 限制历史长度，避免token超限 if (history.size() > 10) { history = history.subList(history.size() - 10, history.size()); } conversationHistory.put(userId, history); return assistantResponse; } /** * 清空用户对话历史 */ public void clearConversationHistory(String userId) { conversationHistory.remove(userId); } }

5.3 文档图片内容提取

办公场景里，经常需要从图片里提取文字信息。

@Service public class DocumentService { @Autowired private QwenVLService qwenVLService; /** * 提取图片中的文字内容 */ public String extractTextFromImage(MultipartFile imageFile) throws IOException { String question = "请提取图片中的所有文字内容，保持原文格式和顺序。"; return qwenVLService.analyzeImage(imageFile, question); } /** * 分析表格图片并转换为结构化数据 */ public List<Map<String, String>> extractTableFromImage(MultipartFile imageFile) throws IOException { String question = "请识别图片中的表格，并以JSON数组格式返回，每个对象代表一行数据。例如：[{\"姓名\": \"张三\", \"年龄\": \"25\", \"部门\": \"技术部\"}, ...]"; String response = qwenVLService.analyzeImage(imageFile, question); try { ObjectMapper mapper = new ObjectMapper(); return mapper.readValue(response, new TypeReference<List<Map<String, String>>>() {}); } catch (Exception e) { // 如果JSON解析失败，返回原始文本 log.warn("JSON解析失败，返回原始文本", e); Map<String, String> fallback = new HashMap<>(); fallback.put("content", response); return Collections.singletonList(fallback); } } /** * 识别图片中的关键信息 */ public Map<String, Object> analyzeDocument(MultipartFile imageFile, String documentType) throws IOException { String question; switch (documentType) { case "invoice": question = "请识别这张发票的关键信息，包括：发票号码、开票日期、销售方、购买方、金额、税额、价税合计。"; break; case "receipt": question = "请识别这张收据的关键信息，包括：商户名称、消费日期、消费项目、金额、支付方式。"; break; case "id_card": question = "请识别这张身份证的关键信息，包括：姓名、性别、民族、出生日期、住址、身份证号码。"; break; default: question = "请提取图片中的所有关键信息。"; } String response = qwenVLService.analyzeImage(imageFile, question); Map<String, Object> result = new HashMap<>(); result.put("documentType", documentType); result.put("extractedInfo", response); result.put("timestamp", System.currentTimeMillis()); return result; } }

6. 部署与测试建议

代码写完了，怎么部署和测试呢？我分享几个实用的建议。

6.1 本地测试

先在本机跑起来试试。启动SpringBoot应用后，可以用Postman或者curl测试接口。

# 测试文本对话 curl -X POST http://localhost:8080/api/qwen-vl/chat \ -H "Content-Type: application/json" \ -d '{ "messages": [ { "role": "user", "content": [ { "type": "text", "text": "你好，请介绍一下你自己" } ] } ], "temperature": 0.7 }' # 测试图片分析（需要先准备一张图片） curl -X POST http://localhost:8080/api/qwen-vl/analyze-image \ -F "image=@/path/to/your/image.jpg" \ -F "question=请描述这张图片的内容"

6.2 性能测试

用JMeter或者简单的多线程测试一下并发性能：

import org.junit.jupiter.api.Test; import org.springframework.boot.test.context.SpringBootTest; import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; import java.util.concurrent.TimeUnit; @SpringBootTest public class PerformanceTest { @Autowired private QwenVLService qwenVLService; @Test void testConcurrentRequests() throws InterruptedException { int threadCount = 10; int requestsPerThread = 10; ExecutorService executor = Executors.newFixedThreadPool(threadCount); for (int i = 0; i < threadCount; i++) { executor.submit(() -> { for (int j = 0; j < requestsPerThread; j++) { try { // 构造简单的测试请求 List<QwenVLRequest.Message> messages = new ArrayList<>(); List<QwenVLRequest.Message.Content> contents = new ArrayList<>(); QwenVLRequest.Message.Content textContent = new QwenVLRequest.Message.Content(); textContent.setType("text"); textContent.setText("测试消息 " + j); contents.add(textContent); QwenVLRequest.Message message = new QwenVLRequest.Message(); message.setRole("user"); message.setContent(contents); messages.add(message); String response = qwenVLService.chat(messages, 0.7); System.out.println("响应: " + response.substring(0, Math.min(50, response.length()))); } catch (Exception e) { System.err.println("请求失败: " + e.getMessage()); } } }); } executor.shutdown(); executor.awaitTermination(5, TimeUnit.MINUTES); } }

6.3 生产部署建议

配置管理：把模型服务的地址、超时时间等配置放在配置中心，方便动态调整
监控告警：加上Prometheus监控，关注请求成功率、响应时间等指标
日志记录：详细记录请求和响应，方便排查问题
健康检查：定期检查模型服务是否可用
负载均衡：如果有多台模型服务实例，可以加个负载均衡

@Component public class ModelHealthChecker { @Autowired private QwenVLClient qwenVLClient; @Scheduled(fixedDelay = 60000) // 每分钟检查一次 public void checkModelHealth() { try { // 发送一个简单的测试请求 List<QwenVLRequest.Message> messages = new ArrayList<>(); List<QwenVLRequest.Message.Content> contents = new ArrayList<>(); QwenVLRequest.Message.Content textContent = new QwenVLRequest.Message.Content(); textContent.setType("text"); textContent.setText("你好"); contents.add(textContent); QwenVLRequest.Message message = new QwenVLRequest.Message(); message.setRole("user"); message.setContent(contents); messages.add(message); QwenVLRequest request = new QwenVLRequest(); request.setMessages(messages); request.setMaxTokens(10); qwenVLClient.chatCompletion(request); log.info("模型服务健康检查通过"); } catch (Exception e) { log.error("模型服务健康检查失败", e); // 可以触发告警 } } }