当前位置：首页 > news >正文

Spring AI企业级集成：从限流策略到高可用架构

news 2026/5/23 11:18:10

一、为什么要限流

大模型API的限流（Rate Limiting）是生产环境中最容易被忽视的风险点。超过限制后轻则请求被拒，重则账户被封。

限流的两重意义：

保护你的应用不被突发流量冲垮
保护你的钱包不被意外耗尽

二、分层限流架构

┌─────────────────────────────────────────────────────────────┐ │ 分层限流架构 │ ├─────────────────────────────────────────────────────────────┤ │ 第一层：客户端限流（控制对模型API的调用频率） │ │ ↓ │ │ 第二层：应用层限流（控制业务逻辑触发AI调用的条件） │ │ ↓ │ │ 第三层：兜底降级（模型不可用时的保底方案） │ └─────────────────────────────────────────────────────────────┘

三、第一层：客户端限流

使用Resilience4j实现令牌桶限流：

@ConfigurationpublicclassRateLimiterConfig{@BeanpublicRateLimiterrateLimiter(){returnRateLimiter.of("ai-api",RateLimiterConfig.custom().limitRefreshPeriod(Duration.ofSeconds(1))// 每秒刷新.limitForPeriod(10)// 每秒10个请求.timeoutDuration(Duration.ofMillis(500))// 等待超时.build());}}@ServicepublicclassAiService{@AutowiredprivateRateLimiterrateLimiter;@AutowiredprivateChatClientchatClient;publicStringchat(Stringprompt){// 尝试获取令牌rateLimiter.acquirePermission();returnchatClient.prompt().user(prompt).call().content();}}

四、第二层：应用层限流

不是所有请求都需要调用大模型：

4.1 意图识别前置

publicStringchat(Stringmessage){// 先用规则判断是否需要调用大模型Stringintent=intentClassifier.classify(message);if("greeting".equals(intent)){return"你好！有什么可以帮你的？";}if("faq".equals(intent)){// 查FAQ缓存Stringcached=faqCache.get(message);if(cached!=null){returncached;}}// 只有必要时才调用大模型returncallAiModel(message);}

4.2 语义缓存

@ServicepublicclassSemanticCacheService{privateMap<String,CachedResponse>cache=newConcurrentHashMap<>();publicOptional<String>get(Stringprompt){// 计算语义相似度for(Map.Entry<String,CachedResponse>entry:cache.entrySet()){if(semanticSimilarity(prompt,entry.getKey())>0.95){log.info("命中语义缓存: {}",entry.getKey());returnOptional.of(entry.getValue().response);}}returnOptional.empty();}publicvoidput(Stringprompt,Stringresponse){if(cache.size()>10000){// LRU淘汰evictOldest();}cache.put(prompt,newCachedResponse(response,System.currentTimeMillis()));}}

五、第三层：兜底降级

@ServicepublicclassAiServiceWithFallback{publicStringchatWithFallback(Stringmessage){try{returnchatClient.prompt().user(message).call().content();}catch(RateLimitExceptione){log.warn("触发限流，尝试降级方案");returngetFallbackResponse(message);}catch(ApiExceptione){log.error("API调用失败: {}",e.getMessage());returngetFallbackResponse(message);}catch(Exceptione){log.error("未知错误: {}",e.getMessage());return"服务暂时繁忙，请稍后重试";}}privateStringgetFallbackResponse(Stringmessage){// 返回预设的友好提示return"当前服务繁忙，请稍后重试或联系客服。";}}

六、高可用架构设计

6.1 多模型供应商

@ConfigurationpublicclassMultiModelConfig{@Bean@PrimarypublicChatClientprimaryChatClient(ChatModelprimaryModel){returnChatClient.builder(primaryModel).build();}@BeanpublicChatClientbackupChatClient(ChatModelbackupModel){returnChatClient.builder(backupModel).build();}}@ServicepublicclassResilientAiService{@Autowired@Qualifier("primaryChatClient")privateChatClientprimaryClient;@Autowired@Qualifier("backupChatClient")privateChatClientbackupClient;publicStringchat(Stringmessage){try{returnprimaryClient.prompt().user(message).call().content();}catch(Exceptione){log.warn("主模型调用失败，切换到备用模型");returnbackupClient.prompt().user(message).call().content();}}}

6.2 消息队列异步处理

@ServicepublicclassAsyncAiService{@AutowiredprivateMessageQueuemq;@AutowiredprivateChatClientchatClient;publicStringsubmitTask(Stringmessage){StringtaskId=UUID.randomUUID().toString();// 异步提交mq.send("ai-tasks",newTask(message,taskId));returntaskId;}@KafkaListener(topics="ai-tasks")publicvoidprocessTask(Tasktask){Stringresult=chatClient.prompt().user(task.getMessage()).call().content();// 推送结果mq.send("ai-results",newResult(task.getTaskId(),result));}}

七、监控与告警

@ComponentpublicclassAiMetrics{// 调用成功率@MetricprivateDoublesuccessRate;// P99响应延迟@Timed(value="ai.call.latency",percentiles={0.5,0.95,0.99})publicStringcallAi(Stringmessage){returnchatClient.prompt().user(message).call().content();}// Token消耗@Counted(name="token.consumed")privatevoidrecordToken(inttokens){metrics.record("token.total",tokens);}}

企业级集成建议

在实际项目中，通过API聚合平台（如weelinking等）可以简化多模型供应商的管理，这类平台通常提供统一的限流策略、熔断机制和监控告警，有助于构建高可用的AI服务架构。

总结

层次	作用	实现方式
客户端限流	控制对API的调用频率	Resilience4j令牌桶
应用层限流	减少不必要的AI调用	缓存+意图识别
兜底降级	保证服务可用性	预设回复+备用模型
异步处理	削峰填谷	消息队列