当前位置：首页 > news >正文

阿里二面挂了！被问“1000 万短信 1 小时发完，怎么设计线程池？”，面试官：你管这叫线程池调优？

news 2026/5/12 14:56:38

千万级推送不仅考参数调优，更考架构防御！本文拆解 1000 万短信 1 小时发完的真实现场：从黄金公式，到动态监控调优，再到防止 OOM 的“生产级”拒绝策略。文末附带 P7 级面试套路模板，助你扫平线程池深坑。

写在开头

前两天有个在大厂搬砖的兄弟找我吐槽，说面试挂在了“线程池”上。

面试官没问那些死记硬背的原理，直接抛了一个业务题：

“我们要发 618 营销短信，1000 万条，要求 1 小时内发完。你打算怎么设计线程池？核心参数给多少？拒绝策略选哪个？”

这哥们想都没想：“简单啊，算一下 1 小时 3600 秒，每秒发 2800 条。直接搞个 FixedThreadPool，线程数开到 500，队列给大点不就行了？”

面试官冷笑一声，连追三问：

“FixedThreadPool 默认队列是 LinkedBlockingQueue，长度是 Integer.MAX_VALUE，千万级数据还没发完，内存就 OOM 了，你负责？”
“如果短信网关限流了，你的任务积压在队列里，应用重启任务全丢了怎么办？”
“你怎么证明你配的线程数是最优的？是拍脑袋想的，还是有数据支撑？”

他瞬间原地石化。

其实，这道题考的是“高并发下的资源掌控力”。今天 Fox带你拆解线程池的 3 种实战境界。

在大厂规范里，严禁使用 Executors.newFixedThreadPool 或 newCachedThreadPool。

Fox的结论：生产环境必须手动创建 ThreadPoolExecutor，且必须配合有界队列。

面试官问你线程数给多少，千万别直接说 200 或 500。你要先问：“这任务是 CPU 密集型还是 IO 密集型？”

短信推送涉及网络调用，属于典型的IO 密集型。

根据经验公式：

实战落地：对于千万级推送，通常 W/C 很大，建议初始线程数设置为起步，并根据压测调整。

参数是“死”的，流量是“活”的。大厂 P7 的标准做法是：动态线程池。

Fox 提示：业内著名的开源项目 Hippo4J 或 DynamicTp 就是干这个的，面试时提一句加分不少。

当 1000 万数据涌入，线程池满了，拒绝策略（RejectedExecutionHandler）选哪个？

AbortPolicy（默认）：直接抛异常，千万别选，数据直接丢了。
CallerRunsPolicy（推荐）：让提交任务的线程（比如主线程）自己去执行。这其实是一种“天然的背压（Backpressure）”。主线程去发短信了，它就没空再去数据库捞新任务，从而减缓了任务产生速度，给线程池喘息的机会。

很多同学应该还记得我写过：CallerRunsPolicy（回退给调用者执行）是个坑，因为它会阻塞主线程。但是！在千万级推送这种“离线批量场景”下，这个“坑”反而成了神技。

在线 Web 场景（避坑）：如果是处理用户请求，绝对不能用它，否则 Tomcat 线程被占满，整个网站直接卡死。
离线批量场景（神器）：我们从 DB 里捞千万级数据往线程池塞。如果池子满了，触发 CallerRunsPolicy，让“捞数据的线程”自己去发短信。
高阶奥义：天然背压（Backpressure）。当“生产者”被迫去干“消费者”的活儿时，它就没空去 DB 捞新数据了。这会自动减缓任务产生的速度，给线程池喘息的时间，彻底规避 OOM 风险。