当前位置：首页 > news >正文

聊聊大模型推理系统之 Laser：从“整块执行”到“按需分层”，看Laser如何重新定义LLM调度单元

news 2026/7/5 11:53:59

Laser 的研究不仅是一项技术突破，更指明了未来 LLM 服务系统的重要演进方向。随着大模型应用场景日益多元化，从实时对话到后台批处理，单一的 SLO 保障模式已不再适用。Laser 所倡导的层级别调度理念，为构建弹性、高效、可定制的下一代 AI 推理基础设施提供了坚实的技术路线。

在大模型推理服务日益成为 AI 基础设施的今天，如何高效支撑多 SLO（Service-Level Objective，服务等级目标）混合负载，已成为工业界和学术界共同关注的核心挑战。

最新发表于PPoPP'26（ACM SIGPLAN 并行编程原理与实践年会）的研究《Laser: Unlocking Layer-Level Scheduling for Efficient Multi-SLO LLM Serving》提出了一种突破性方案——Laser系统，通过引入层级别调度（Layer-Level Scheduling）机制，在维持相同 SLO 达标率的前提下，将服务吞吐量（goodput）提升超过 1.67 倍。这项由中山大学团队完成的工作，为下一代 LLM 服务架构提供了全新思路。

论文标题：Laser: Unlocking Layer-Level Scheduling for Efficient Multi-SLO LLM Serving
论文链接：https://dl.acm.org/doi/pdf/10.1145/3774934.3786413

核心看点

当前主流的大语言模型（LLM）服务系统普遍采用迭代级别调度（Iteration-Level Scheduling），即以一次完整前向传播（遍历所有 Transformer 层）为最小调度单元。这种粗粒度方式在面对具有不同延迟要求的混合请求（如聊天机器人要求快首响、代码补全要求低生成延迟）时，显得力不从心，容易造成资源浪费或 SLO 违规。

Laser系统的核心突破在于，它将调度粒度从“整次迭代”细化到“单个 Transformer 层”，并设计了两大关键技术：层级别分块预填充（Layer-Level Chunked Prefill）和层级别解码批处理（Layer-Level Decode Batching）。前者允许在预填充阶段动态切换和合并请求，后者则能为不同 SLO 的请求定制每轮迭代执行的层数。配合跨实例的智能调度策略，Laser 在真实场景中实现了高达 1.67 倍的吞吐量提升，同时保持 90%以上的 SLO 达标率。

研究背景

现代 LLM 服务通常分为两个阶段：预填充（Prefill）阶段并行处理整个输入提示以生成首个 token，以及解码（Decode）阶段自回归地逐个生成后续 token。为了提升 GPU 利用率，业界广泛采用连续批处理（Continuous Batching）技术，但其调度粒度仍停留在“迭代”层面。

这一设计在多 SLO 工作负载下暴露了严重问题。在预填充阶段，长提示会阻塞对延迟敏感的新请求（即“队头阻塞”），而短提示又难以充分利用计算资源。在解码阶段，系统被迫为所有请求采用统一的批大小和生成速度，无法兼顾高响应性（小批）和高吞吐（大批）的需求。因此，亟需一种更细粒度、更灵活的调度机制来释放 LLM 服务的潜能。

Laser 的创新切入点正是打破“迭代”这一传统调度边界，深入到Transformer模型内部的层（Layer）结构，实现真正意义上的按需、分层执行。

核心贡献

1. 方法创新：提出层级别调度框架

Laser 首次将 LLM 推理的调度单元从“迭代”下沉到“层”。在预填充阶段，它实现了层级别分块预填充，能够在任意层边界处暂停当前请求，优先处理新到达的高优先级请求，并能将多个小请求动态合并成更大的计算块，从而减少平均首 token 时间（TTFT）超过 10%。在解码阶段，层级别解码批处理允许系统为每个请求独立决定每轮迭代执行多少层，例如，对宽松 SLO 的请求执行 2 层/轮，从而在同一时间内服务更多请求。

2. 系统协同：构建双层级优化架构

在方法创新的基础上，团队进一步验证了跨实例协同的重要性。Laser 采用预填充-解码分离架构，并设计了全局控制器（Global Controller）。该控制器在预填充阶段倾向于将异构 SLO 请求混合调度以利用松弛时间；而在解码阶段，则通过基于 SLO 分组的分配策略，将相似 SLO 的请求聚集到同一实例，最大化批处理效率。这种“内实例精细调度+外实例智能分发”的双层设计，是实现端到端性能提升的关键。

3. 实证成果：全面超越 SOTA 基线

实验在Qwen-14B/32B和Llama-3-70B等主流大模型上进行，对比了Sarathi-Serve和DistServe等最先进系统。结果显示，Laser 在多种负载下均显著优于基线：

吞吐量（Goodput）最高提升68.9% （Qwen-32B）；
在集群规模受限（<8 GPU）时，甚至能实现1.23 倍的吞吐增益；
当 SLO 要求极为严格（0.8 倍基准）时，其优势更为突出，吞吐量可达 DistServe 的1.08 倍和 Sarathi-Serve 的6.25 倍。

此外，其底层的模块化延迟建模方法预测准确率高达94.6%~98.6% ，为高效调度提供了可靠依据。

行业意义

该工作与当前业界追求的高资源利用率和绿色计算趋势高度契合。通过更精细的资源编排，Laser 能在不增加硬件投入的情况下，显著提升单位算力的服务能力，有效降低 AI 服务的碳足迹。可以预见，这一思想将推动云原生 AI 平台、边缘大模型部署乃至自动驾驶等对实时性与效率有极致要求的产业领域，加速其感知与决策系统的智能化升级。