当前位置：首页 > news >正文

单体架构演进SOA的实战路径与组织适配

news 2026/6/16 23:54:29

1. 项目概述：这不是一次“升级”，而是一场系统级的生存重构

“一个架构的演化1——从All in One到SOA实践”，光看标题，很多人会下意识觉得这是篇讲技术演进的理论文章，甚至可能联想到PPT里常见的“单体→微服务→云原生”三步走路线图。但我在一线带过17个中大型系统重构项目，亲手拆过3个运行超8年的Java单体（最大一个含217个Spring MVC Controller、432张表、日均调用量1.2亿），最深的体会是：All in One不是“起点”，而是历史压缩包；SOA不是“目标”，而是组织能力与系统复杂度达成新平衡的临界点。这个标题里的“1”，不是序号，是切口——它切开的是业务增长、团队扩张、故障频次、发布节奏这四股力量在系统肌理上撕扯出的第一道裂痕。我见过太多团队把SOA当成技术选型问题：换Dubbo还是Spring Cloud？用ZooKeeper还是Nacos？结果半年后发现，服务边界划得再漂亮，接口文档更新比需求变更慢三天，跨服务事务靠Excel对账，监控告警全靠人工盯日志。真正卡住脖子的，从来不是RPC框架，而是“谁为这个接口的SLA负责”“这个数据库字段改了要不要通知下游”“测试环境怎么模拟支付成功回调”这些藏在技术表皮下的协作契约。所以这篇内容，不讲抽象原则，只复盘我们2019年在某省级政务服务平台做的那次真实迁移：从一个打包成war包、部署在4台Tomcat上的All in One系统，逐步演进为6个核心SOA服务、12个支撑服务、通过统一API网关对外暴露的架构。它解决的实际问题是：上线新功能平均耗时从14天压到3.2天，生产环境重大故障率下降68%，运维同学从每天救火5次变成每周做2次容量规划。如果你正被“改一个按钮要测整站”“加个短信功能要协调3个组”“凌晨三点因为订单服务挂了全员上线”这类问题困扰，那这个演化过程里的每一个决策点、每一次踩坑、每一条血泪经验，都值得你逐字读完。

2. 架构演化的底层动因：当“能跑”不再等于“能活”

2.1 All in One的黄金时代与隐性债务

All in One（单体架构）绝非技术落后的代名词。2015年我们接手那个政务平台时，它就是典型的All in One：前端用JSP+jQuery，后端Spring MVC+MyBatis，所有模块（用户中心、事项申报、材料上传、进度查询、电子证照）打在一个war包里，部署在4台物理机的Tomcat集群上。当时选择它，是经过精密计算的务实决策：

开发效率碾压级优势：新增一个“身份证OCR识别”功能，从需求评审到上线，前端调用后端Controller方法，后端直接连本地MySQL，全程不用写任何接口文档、不用配服务注册、不用处理跨进程通信异常。我试过，一个资深Java工程师单日可交付完整功能（含单元测试），而同期其他团队用SOA方案做类似功能，平均耗时4.7人日。
运维成本极低：当时整个平台只有2名运维，他们只需要维护4台Tomcat的JVM参数、MySQL主从同步状态、Nginx负载均衡权重。没有服务发现心跳检测、没有链路追踪埋点、没有熔断降级配置——这些词在当时根本不存在于他们的工作清单里。
一致性保障天然：所有业务逻辑在一个JVM进程内执行，数据库事务ACID由MySQL原生保证。比如“用户提交申请→生成受理编号→扣减额度→发送短信”这一串操作，用一个@Transactional注解就搞定，不用考虑Saga模式、TCC补偿、本地消息表这些后来才头疼的概念。

但这种“能跑”的舒适区，本质是用时间换空间积累技术债。到2018年底，系统开始出现三个无法忽视的征兆：

提示：这三个征兆不是孤立现象，而是同一枚硬币的两面——业务复杂度指数级增长，而系统承载能力线性爬升。

第一，编译与启动时间突破临界点。war包体积从最初的42MB膨胀到318MB，本地IDEA编译一次需8分23秒，CI服务器全量构建耗时22分钟。更致命的是，Tomcat热部署失败率高达37%，每次修改一个Controller方法，有近四成概率触发类加载器泄漏，必须重启整个实例。这意味着，开发人员平均每修改3次代码，就要中断一次调试流程去等重启。

第二，故障影响面失控。2018年9月一次线上事故：材料上传模块的PDF解析组件存在内存泄漏，导致单台Tomcat堆内存10分钟内涨满，触发Full GC。由于所有模块共享同一个JVM，用户中心、进度查询等无关功能全部响应超时。监控显示，故障期间“用户登录成功率”从99.99%暴跌至41.2%，而问题根源只是上传模块里一个未关闭的PdfReader对象。这彻底暴露了All in One的阿喀琉斯之踵：一个模块的缺陷，就是全系统的死刑判决书。

第三，团队协作熵增不可逆。当时开发团队扩至32人，按业务域分为5个小组。但代码库只有一个Git主干，每次合并代码前必须手动协调：A组改了用户中心的密码加密算法，B组正在重写事项申报的校验规则，C组优化了数据库连接池——三方代码在同一个UserService.java文件里打架。我们统计过，2018年Q3因代码冲突导致的发布回滚占总回滚次数的64%，平均每次冲突解决耗时2.8小时。这时候，“能跑”已经和“能活”脱钩了。

2.2 SOA不是技术方案，而是组织能力的镜像

很多团队一提SOA就立刻打开搜索引擎查“SOA架构图”，但真正决定演进成败的，从来不是技术栈，而是组织能否匹配新架构的协作范式。我们当时做了件反直觉的事：先冻结所有新功能开发，用6周时间只做一件事——梳理业务语义边界。

为什么这么做？因为SOA的核心不是“把代码拆开”，而是“把责任切分清楚”。我们拉着业务方、产品经理、各模块负责人，用实体关系图（ERD）和用例图（Use Case Diagram）交叉验证，最终定义出6个高内聚、低耦合的服务域：

用户身份服务（USS）：只管账号注册/登录/权限校验，绝不碰用户头像上传、实名认证材料存储；
事项管理服务（SMS）：只管事项分类、办理时限、法定依据，绝不处理用户提交的具体申请数据；
申请受理服务（ARS）：只管生成受理编号、记录提交时间、触发初审流程，绝不校验材料内容是否合规；
材料中心服务（MCS）：只管文件存储、版本控制、OCR识别结果返回，绝不判断该材料属于哪个事项；
进度跟踪服务（PTS）：只管状态流转、节点时间戳、超期预警，绝不修改申请单数据；
电子证照服务（ESS）：只管证照生成、签章、下载链接时效，绝不参与审批逻辑。

这个划分过程极其痛苦。比如“实名认证”该归USS还是MCS？争论持续了3天。最后拍板依据是：如果某个功能变更，需要同时修改两个以上服务的代码，那这个功能就划错了边界。实名认证涉及身份证照片存储（MCS）、姓名身份证号比对（USS）、认证状态回写（USS），但核心动作是“验证身份真实性”，所以归属USS，MCS只提供文件存储API，USS调用它完成验证闭环。

注意：SOA服务边界的黄金法则是“单一职责+业务语义完整”。宁可多拆出一个“地址解析服务”，也不要让“用户服务”既管收货地址又管发票抬头——前者可通过API组合实现，后者必然导致数据库表耦合。

这次边界梳理直接催生了我们的第一个SOA基础设施：服务契约管理中心。它不是技术组件，而是一套强制流程：每个服务对外提供的API，必须用OpenAPI 3.0规范描述，包含请求参数、响应结构、错误码、SLA承诺（如“99.9%请求在200ms内返回”），且所有契约变更必须经架构委员会签字确认。这个看似繁琐的机制，后来成为我们规避“接口地狱”的关键防线——2019年全年，因接口不兼容导致的联调失败次数为0。

3. 演化路径设计：拒绝“大爆炸”，坚持“渐进式外科手术”

3.1 为什么坚决不用“停服重构”？

2019年初，有合作方建议我们采用“大爆炸式重构”：停掉所有线上服务，用3个月时间重写为SOA架构，再一次性切换。这个方案被我们当场否决。原因很现实：政务平台不允许停服，法定要求7×24小时可用；更重要的是，我们手头没有一支能同时驾驭6个服务开发、测试、部署的“超级团队”。当时32人的开发团队里，有12人只熟悉JSP+Servlet，对Spring Boot连起步都没迈过。

我们选择了一条更笨、但风险可控的路：以“流量切分”为杠杆，用6个月完成平滑过渡。核心策略是“旧系统不动，新服务生长，流量逐步迁移”，具体分三阶段：

第一阶段：能力外溢（第1-2月）
目标：让新服务具备最小可用能力，且不干扰旧系统。
操作：

在现有All in One系统中，用Spring Boot新建一个独立Module（命名为user-auth-service），只实现最基础的JWT令牌签发与校验；
通过Nginx配置，将所有/api/v2/auth/**路径的请求转发至此Module，其余路径仍走老Tomcat；
此Module不连接老系统数据库，而是新建一张auth_tokens表，用Redis缓存令牌状态；
关键设计：老系统所有需要鉴权的Controller，改为HTTP调用此Module的/validate接口，而非本地方法调用。

效果：我们验证了新服务的部署、监控、日志体系，且用户无感知。此时新服务QPS仅23，但它的存在证明了“服务化”可以脱离旧系统独立存活。

第二阶段：核心剥离（第3-4月）
目标：将高频、高价值、低依赖的业务模块迁出。
操作：

选定“事项管理服务（SMS）”作为首个剥离对象。它只依赖静态数据（事项分类字典），不依赖用户数据或材料数据；
将老系统中ItemCategoryService.java等12个类整体迁移，重构为Spring Cloud微服务，使用Nacos注册中心；
前端页面不做改动，所有对事项分类的AJAX请求，由Nginx重写URL，指向新服务API；
老系统中对应代码保留，但添加@Deprecated注解，并在日志中打印“此接口已迁移至SMS服务，请调用新地址”；

效果：事项管理模块的平均响应时间从840ms降至210ms（新服务用Elasticsearch替代了MySQL模糊查询），且当新服务因网络抖动超时时，Nginx自动回退到老系统接口，实现无缝降级。

第三阶段：流量接管（第5-6月）
目标：让新服务承担100%生产流量，老系统退为备用。
操作：

对每个已迁移服务，编写自动化流量对比脚本：随机抽取1000个真实请求，分别发给新老服务，比对响应体、HTTP状态码、耗时；
当连续7天对比准确率≥99.99%、平均耗时优于老系统20%以上时，触发流量切换；
切换非简单开关，而是分批次：先开放5%流量给新服务，观察30分钟监控指标（错误率、P95延迟、GC频率），达标后再放10%，直至100%；
老系统不立即下线，而是进入“影子模式”：所有请求仍发给它，但不返回结果，只用于审计和灾备。

效果：整个切换过程最长单次耗时47分钟（事项管理服务），期间用户零感知。而老系统在影子模式下，帮我们发现了2个隐藏数据不一致问题：一个是事项分类缓存刷新机制缺陷，另一个是字典表编码规则在新老系统间存在微小差异。

3.2 技术选型背后的生存逻辑

SOA落地不是技术炫技，而是用最低成本解决最痛问题。我们的技术栈选择，每一项都带着明确的“止痛针”属性：

服务注册中心：Nacos（非ZooKeeper或Eureka）
理由：ZooKeeper需要额外维护3节点集群，Eureka 2.x已停止维护。Nacos同时支持服务发现与配置中心，且控制台界面直观——这对当时连Docker都不熟的运维团队至关重要。我们实测，Nacos在500服务实例规模下，心跳检测延迟稳定在120ms内，远低于Eureka默认的30秒续约窗口。
API网关：自研轻量网关（非Kong或Spring Cloud Gateway）
理由：Kong需要Lua开发插件，学习成本高；Spring Cloud Gateway依赖Spring生态，而我们部分老服务是Node.js写的。最终用Go写了2000行代码的网关，只做三件事：JWT校验（调用USS服务）、路由转发（查Nacos）、限流（令牌桶算法）。它内存占用<30MB，QPS轻松扛住2万，足够覆盖当时全部流量。
分布式事务：TCC模式（非Seata或RocketMQ事务）
理由：Seata需要修改数据库驱动，RocketMQ事务要求所有服务接入MQ。我们选择TCC，因为它的核心是“Try-Confirm-Cancel”三个本地事务方法，老系统改造最小。例如“用户提交申请”场景：Try阶段冻结用户额度并生成预受理单，Confirm阶段正式创建申请单并扣减额度，Cancel阶段释放冻结额度。所有逻辑都在各自服务内完成，不引入新中间件。
监控体系：Prometheus+Grafana（放弃ELK）
理由：ELK擅长日志分析，但我们最急需的是实时指标。Prometheus拉取各服务暴露的/metrics端点，Grafana配置23个核心看板（如“各服务P95延迟TOP10”“Nacos注册实例健康率”“网关5xx错误率”）。运维同学反馈：“以前查故障要翻3个系统日志，现在看Grafana一个面板就能定位”。

实操心得：技术选型的终极标准是“团队能否在72小时内掌握并排障”。我们曾测试过Istio服务网格，虽然功能强大，但配置复杂度导致首次故障排查耗时17小时——这违背了SOA“提升稳定性”的初衷，果断弃用。

4. 核心环节实现：从代码到生产的12个生死细节

4.1 服务拆分的“血肉”：如何让接口真正解耦？

拆服务不是把代码文件夹剪切粘贴。我们总结出接口解耦的三个硬性检查点，每个都必须通过才能发布：

数据库隔离检查：新服务必须拥有独立数据库实例（哪怕只是逻辑库），严禁跨库JOIN。例如用户服务（USS）的users表和事项服务（SMS）的items表，即使业务上强关联，也必须通过API调用获取对方数据。我们用MySQL Proxy拦截所有SQL，一旦检测到SELECT * FROM sms.items JOIN uss.users，立即阻断并告警。
DTO契约固化检查：服务间传输对象必须是纯POJO，禁止传递Hibernate Entity或Spring MVC的@RequestBody绑定对象。例如USS返回用户信息，必须定义UserDTO类，字段明确为id, name, mobile, authStatus，而不能直接返回UserEntity（它包含hibernateLazyInitializer等JPA代理字段，序列化会崩溃）。
错误码体系检查：每个服务定义自己的错误码范围（如USS：10000-10999，SMS：20000-20999），且错误码必须携带业务语义。禁止出现“50001：系统错误”这种通用码，必须是“10001：手机号格式不正确”“10002：用户未实名认证”。前端根据错误码做精准提示，而非弹窗“请稍后重试”。

我们为此开发了契约扫描工具：在CI流水线中，自动解析所有@RestController的Swagger注解，校验DTO类是否符合命名规范（必须含DTO后缀）、错误码是否在服务范围内、SQL语句是否含跨库关键词。这个工具拦截了73%的违规提交，成为质量守门员。

4.2 流量迁移的“手术刀”：Nginx配置的魔鬼细节

Nginx不仅是反向代理，更是我们流量调度的中枢神经。以下是我们生产环境的真实配置片段，每个参数都有血泪教训：

upstream sms_service { server 10.0.1.10:8080 max_fails=3 fail_timeout=30s; server 10.0.1.11:8080 max_fails=3 fail_timeout=30s; keepalive 32; # 关键！保持长连接，避免频繁建连消耗 } server { listen 80; location /api/v2/items/ { # 阶段式灰度：通过请求头X-Canary控制 if ($http_x_canary = "sms-v2") { proxy_pass http://sms_service; break; } # 默认走老系统，但添加Header标识 proxy_set_header X-Service-Source "legacy"; proxy_pass http://legacy_tomcat; } # 新服务专用路径，用于内部调用 location /internal/sms/ { proxy_pass http://sms_service; proxy_set_header X-Internal-Call "true"; # 标识内部调用，跳过鉴权 } }

关键细节解析：

max_fails=3 fail_timeout=30s：当某台服务实例连续3次健康检查失败（默认HTTP 200），Nginx将其从可用列表剔除30秒。这个值我们调优过：设为1会导致网络抖动误判，设为5则故障发现太慢。3次是平衡点。
keepalive 32：每个worker进程与上游服务保持最多32个空闲长连接。实测发现，当并发连接数超过此值，Nginx会新建TCP连接，导致TIME_WAIT堆积。我们通过ss -s | grep "TCP:"监控，确保time_wait数量稳定在200以下。
X-Canary灰度头：不依赖Cookie或IP，而是由前端在请求头注入。这样灰度策略完全由服务端控制，前端无需改代码。我们用它实现了“5%用户走新服务”的精准控制。
/internal/sms/专用路径：新服务之间调用走此路径，绕过JWT校验（因内部调用已通过服务间证书认证），降低30%平均延迟。

注意：Nginx配置必须配合服务端健康检查。我们在每个Spring Boot服务中暴露/actuator/health端点，返回{"status":"UP","details":{"db":"UP","redis":"UP"}}，Nginx定期GET此接口判断实例状态。曾因忘记在USS服务中配置Redis健康检查，导致Nginx误判服务宕机，流量全切到老系统——那次事故让我们把健康检查纳入所有服务的强制模板。

4.3 分布式事务的“保命符”：TCC的Confirm/Cancel幂等设计

TCC模式最大的陷阱是Confirm和Cancel操作的非幂等性。我们吃过亏：一次支付回调，因网络重试导致Confirm方法被执行两次，用户被重复扣款。解决方案是引入“事务日志表”：

CREATE TABLE tcc_transaction_log ( id BIGINT PRIMARY KEY AUTO_INCREMENT, transaction_id VARCHAR(64) NOT NULL COMMENT '全局事务ID', service_name VARCHAR(32) NOT NULL COMMENT '服务名', action_type ENUM('TRY','CONFIRM','CANCEL') NOT NULL COMMENT '动作类型', status ENUM('SUCCESS','FAILED','PENDING') DEFAULT 'PENDING', create_time DATETIME DEFAULT CURRENT_TIMESTAMP, UNIQUE KEY uk_txid_action (transaction_id, action_type) );

核心逻辑：

Try阶段：插入action_type='TRY'记录，status='SUCCESS'；
Confirm阶段：先INSERT IGNORE插入action_type='CONFIRM'记录，若主键冲突（说明已执行过），则直接返回成功；否则执行扣款逻辑，再更新记录状态；
Cancel阶段：同理，用INSERT IGNORE保证幂等。

这个设计让Confirm/Cancel的重复执行成本趋近于零——一次INSERT IGNORE耗时<0.5ms，而重复扣款的业务损失是无法估量的。我们要求所有TCC接口必须在此表中留痕，DBA每天巡检status='FAILED'的记录，2小时内必须人工介入。

4.4 监控告警的“最后一公里”：从指标到行动的闭环

监控不是看数字，而是建立“指标异常→根因定位→自动修复”的流水线。我们Grafana看板中，最关键的不是CPU使用率，而是这3个指标：

指标名称	计算公式	告警阈值	处置动作
服务间调用失败率	`sum(rate(http_client_requests_total{status=~"5.."}[5m])) by (service, uri)`/`sum(rate(http_client_requests_total[5m])) by (service, uri)`	>0.5%持续5分钟	自动触发`curl -X POST http://alert-bot/notify?service={service}&uri={uri}`，企业微信推送负责人
Nacos实例健康率	`count(up{job="nacos-server"} == 1)`/`count(up{job="nacos-server"})`	<95%	自动执行`kubectl scale deploy nacos-server --replicas=3`扩容
网关P95延迟突增	`histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, handler))`	较昨日同期上涨200%	自动调用`/actuator/refresh`刷新网关路由缓存

特别说明“网关P95延迟突增”的处置逻辑：我们发现83%的延迟突增源于路由缓存失效（如Nacos服务实例上下线触发缓存重建），此时强制刷新缓存比重启网关快10倍。这个自动化脚本上线后，P95延迟>1s的故障平均恢复时间从23分钟缩短至47秒。

5. 常见问题与排查技巧实录：那些没写在文档里的真相

5.1 典型问题速查表

问题现象	根本原因	排查步骤	解决方案	我们的实测耗时
新服务上线后，老系统日志疯狂打印“Connection refused”	老系统代码中硬编码了新服务地址（如`http://localhost:8080`），而新服务实际部署在`10.0.1.10`	1.`grep -r "localhost:8080" /opt/tomcat/webapps/ROOT/WEB-INF/classes/` 2. 检查`application.properties`中是否有`sms.service.url`配置项	统一使用Nacos配置中心管理所有服务地址，老系统通过`@Value("${sms.service.url}")`注入	12分钟（首次）→ 2分钟（后续）
Nacos控制台显示服务已注册，但网关调用返回404	Nacos中服务名大小写不一致（如注册为`user-auth-service`，网关配置为`userAuthService`）	1.`curl http://nacos:8848/nacos/v1/ns/instance/list?serviceName=user-auth-service` 2. 比对返回JSON中的`serviceName`字段	所有服务名强制小写+中划线，CI流水线加入命名检查脚本	8分钟
TCC事务中，Cancel操作执行后，数据库数据未回滚	Cancel方法中未开启事务，或事务传播级别错误（如设为`SUPPORTS`）	1. 在Cancel方法上加`@Transactional` 2. 查看日志中是否有`Transaction rolled back because it has been marked as rollback-only`	统一使用`@Transactional(propagation = Propagation.REQUIRED)`，并在方法入口打印`TransactionSynchronizationManager.isActualTransactionActive()`	15分钟（首次）→ 3分钟（后续）
Grafana看板中，服务P95延迟突然飙升至5s，但单机监控正常	网络层面问题：交换机ACL策略限制了服务间通信端口	1.`telnet 10.0.1.10 8080`（从网关机器） 2.`tcpdump -i eth0 port 8080 -w debug.pcap`抓包分析	联系网络组开放`10.0.1.0/24`网段间`8000-9000`端口	42分钟（跨部门协调）

5.2 独家避坑技巧

“服务雪崩”的预判指标：不要等错误率飙升才行动。我们监控一个隐藏指标——服务间调用的P999延迟。当某服务P999延迟超过其P95的5倍时（如P95=200ms，P999>1000ms），说明尾部延迟已失控，大概率是数据库慢查询或GC风暴前兆。此时立即触发jstack线程快照分析，80%的雪崩事故可提前30分钟拦截。
Nacos配置中心的“自杀式更新”防护：曾有同事误操作，将database.url配置成jdbc:mysql://localhost:3306，导致所有服务连自己本机MySQL。我们在Nacos客户端加了白名单校验：配置值必须匹配正则^jdbc:mysql://\d+\.\d+\.\d+\.\d+:\d+/\w+$，否则启动失败并打印FATAL: Invalid database URL detected!。这个简单的正则，避免了3次重大事故。
灰度发布的“安全气囊”设计：除了Nginx灰度，我们在每个服务中内置FeatureToggle开关。例如USS服务中，auth.canary.enabled=true时才启用新JWT算法。这个开关由Nacos配置，运维可在1秒内关闭，比重启服务快100倍。我们把它称为“一键熔断”，是灰度发布的生命线。
日志追踪的“灵魂三问”：所有服务日志必须包含traceId、spanId、service三个字段。但更重要的是，在每个关键方法入口，打印"START [method] with params: {params}"，出口打印"END [method] cost {ms}ms"。我们发现，90%的性能问题，靠这两行日志就能定位到具体方法，无需全链路追踪。

6. 演化后的现实：SOA不是终点，而是新挑战的起点

做完这次演化，我们拿到了漂亮的KPI：发布周期缩短68%，故障率下降68%，但团队很快发现，SOA带来的新问题比All in One更棘手。比如“跨服务数据一致性”——用户修改手机号后，事项服务、材料服务里的关联数据何时更新？我们尝试过消息队列最终一致性，结果因消息积压导致数据延迟达2小时；也试过定时任务轮询，但增加了数据库压力。最后妥协方案是：核心数据（如手机号）变更时，同步调用下游服务的/update-user-info接口，超时则记入死信队列人工处理。这违背了SOA“异步解耦”原则，却是业务可接受的折中。

还有“分布式调试”之痛。以前在Tomcat里打断点，所有变量一目了然；现在一个请求横跨5个服务，每个服务日志分散在不同机器。我们不得不自研轻量级链路追踪：在网关生成traceId，通过HTTP Header透传，每个服务在日志开头打印[traceId:abc123]，再用ELK的traceId字段聚合。这套方案花了3人日开发，却让平均故障定位时间从47分钟降到8分钟。

最深刻的体会是：架构演化的终点，从来不是某种技术形态，而是团队对“复杂性”的掌控力达到新平衡。All in One时代，我们用加班来消化复杂性；SOA时代，我们用流程、工具、契约来驯服它。现在回头看那个标题里的“1”，它确实只是开始——后面还有“2：从SOA到事件驱动”，“3：从事件驱动到Serverless”，但每一步的驱动力，都不再是技术潮流，而是业务在真实世界里抛来的新问题。就像我们上周刚收到的需求：“用户提交申请后，要实时推送进度到微信小程序”。这个需求背后，是消息推送服务、微信API网关、用户设备绑定关系三个新模块的诞生。而我的第一反应不再是查技术文档，而是打开Confluence，新建一页《进度推送服务契约》，写下第一条：“本服务不负责用户设备Token的存储与更新，该能力由用户身份服务（USS）提供”。因为我知道，真正的架构演化，永远始于一句清晰的“这个，不归我管”。

查看全文

http://www.jsqmd.com/news/1026363/