当前位置：首页 > news >正文

一次会员积分系统架构评审：从本地缓存到多级缓存的取舍之路

news 2026/7/16 1:05:31

问题背景：业务目标与失败症状

2026 年 3 月初，我们启动了新会员积分系统的架构设计评审。业务目标是支撑日均 5000 万积分变更请求，峰值 QPS 达到 8000，同时保证积分余额强一致性，延迟不超过 200ms。初期方案采用“本地缓存 + MySQL 主从”架构，上线后第 3 天即出现严重问题：积分查询平均响应时间飙升至 1.2 秒，数据库 CPU 持续 90% 以上，且出现多起积分余额不一致的客诉。

监控显示，本地缓存命中率仅 38%，大量请求穿透至数据库。更糟的是，由于本地缓存未设置过期策略，部分节点在重启后加载了旧数据，导致积分回滚。此时，架构组紧急召开评审会，重新评估方案。

错误直觉：本地缓存“快”就等于“对”

最初方案认为：“积分查询是读多写少，本地缓存能极大降低数据库压力，性能肯定没问题。”这一直觉忽略了三个关键边界条件：

数据一致性边界：本地缓存无法感知其他节点的更新，除非引入广播机制或强制失效，否则必然存在脏读风险。
缓存命中率边界：积分查询具有强用户维度局部性，但用户行为随机性强，本地缓存容量有限（通常几十 MB），难以覆盖热点用户。
故障恢复边界：节点重启后本地缓存为空，冷启动阶段大量请求直接打穿数据库，形成雪崩。

此外，团队误以为“加锁能解决一致性问题”，在积分变更时对本地缓存加 synchronized，结果导致写性能骤降，TPS 从 1200 降至 400，反而加剧了系统瓶颈。

正确方案：多级缓存 + 异步双写 + 一致性兜底

经过评审会多轮推演，最终确定采用“Redis 多级缓存 + 本地缓存二级加速 + 异步双写 + 一致性兜底”的混合架构。核心设计如下：

1. 缓存层级设计

一级缓存（Redis Cluster）：存储全量用户积分数据，采用 Hash 结构按 user_id 分片，设置 TTL 为 30 分钟，避免长期脏数据。
二级缓存（Caffeine 本地缓存）：仅缓存 Top 10% 热点用户积分，容量限制为 1000 条，采用 W-TinyLFU 算法提升命中率。
缓存更新策略：积分变更时，先更新数据库，再异步删除 Redis 和本地缓存（非同步删除，避免写放大）。

2. 一致性保障机制

双删延迟队列：积分更新后，发送延迟 500ms 的消息到 RocketMQ，消费端再次删除缓存，解决“先更新 DB 再删缓存”可能出现的并发脏读。
版本号兜底：Redis 中存储积分值的同时，增加 version 字段。查询时若本地缓存 version 低于 Redis，则强制刷新。
熔断降级：当 Redis 超时或不可用时，自动降级为直查数据库，并记录异常日志，避免系统雪崩。

3. 性能优化细节

批量读取：使用 Redis Pipeline 批量获取多个用户积分，减少网络往返。
本地缓存预热：每日凌晨基于昨日活跃用户 Top 1000 预加载本地缓存，提升冷启动命中率。
读写分离：积分查询走 Redis 从库，写操作走主库，降低主库压力。

4. 落地效果

上线后监控数据显示：

平均响应时间从 1.2s 降至 85ms
数据库 QPS 从 8000 降至 1200
缓存命中率提升至 92%
积分不一致问题归零

技术补丁包

多级缓存架构设计原理：通过 Redis 作为一级缓存保障全局一致性，本地缓存作为二级缓存提升热点数据访问速度，形成分层防护。设计动机：解决单一本地缓存命中率低、一致性难保障的问题，同时避免全量依赖 Redis 带来的网络开销。边界条件：本地缓存容量需根据热点用户比例合理设置，避免 OOM；Redis 需配置合理 TTL 防止长期脏数据。落地建议：优先使用 Caffeine 实现本地缓存，结合 Redis Cluster 分片部署，缓存更新采用“先 DB 后删缓存 + 延迟双删”策略。
缓存双删与一致性兜底原理：在更新数据库后，先删除缓存，再通过延迟消息二次删除，解决并发场景下“读旧写新”导致的脏读问题。设计动机：传统“先删缓存再更新 DB”在高并发下仍可能读到旧值，双删机制通过时间窗口隔离风险。边界条件：延迟时间需大于业务最大处理时延（通常 300-500ms），消息需保证至少一次投递。落地建议：使用 RocketMQ 延迟消息实现双删，配合版本号机制做最终一致性校验，避免依赖单一删除动作。
本地缓存预热与淘汰策略原理：基于历史访问日志识别热点用户，在系统低峰期预加载其积分数据到本地缓存，提升命中率。设计动机：冷启动阶段缓存为空是性能瓶颈主因，预热可显著降低数据库穿透压力。边界条件：预热数据量不宜过大，避免占用过多堆内存；需定期更新预热列表，适应业务变化。落地建议：使用定时任务每日凌晨执行预热，结合 Prometheus 监控缓存命中率动态调整预热策略。
Redis 批量操作与 Pipeline 优化原理：将多个独立的 GET 请求合并为一次 Pipeline 执行，减少网络往返次数，提升吞吐量。设计动机：积分查询常涉及多个用户（如首页展示多个会员信息），串行请求延迟高。边界条件：Pipeline 内命令数不宜过多（建议 ≤ 100），避免单次响应过大或超时。落地建议：在 Spring Data Redis 中使用RedisTemplate.executePipelined()实现批量操作，配合连接池优化性能。
熔断降级与故障隔离原理：当 Redis 响应超时或不可用时，自动切换至数据库直查，并限制查询频率，防止数据库被打崩。设计动机：缓存层故障不应导致整个系统不可用，需具备快速降级能力。边界条件：降级期间需记录详细日志，便于后续恢复；数据库需配置限流策略，避免突发流量冲击。落地建议：集成 Resilience4j 或 Sentinel 实现熔断，设置超时阈值为 200ms，失败率超过 50% 时触发降级。

查看全文

http://www.jsqmd.com/news/553561/