当前位置: 首页 > news >正文

聊聊大模型推理系统之 Laser:从“整块执行”到“按需分层”,看Laser如何重新定义LLM调度单元

Laser 的研究不仅是一项技术突破,更指明了未来 LLM 服务系统的重要演进方向。随着大模型应用场景日益多元化,从实时对话到后台批处理,单一的 SLO 保障模式已不再适用。Laser 所倡导的层级别调度理念,为构建弹性、高效、可定制的下一代 AI 推理基础设施提供了坚实的技术路线。

在大模型推理服务日益成为 AI 基础设施的今天,如何高效支撑多 SLO(Service-Level Objective,服务等级目标)混合负载,已成为工业界和学术界共同关注的核心挑战。

最新发表于PPoPP'26(ACM SIGPLAN 并行编程原理与实践年会)的研究《Laser: Unlocking Layer-Level Scheduling for Efficient Multi-SLO LLM Serving》提出了一种突破性方案——Laser系统,通过引入层级别调度(Layer-Level Scheduling)机制,在维持相同 SLO 达标率的前提下,将服务吞吐量(goodput)提升超过 1.67 倍。这项由中山大学团队完成的工作,为下一代 LLM 服务架构提供了全新思路。

论文标题:Laser: Unlocking Layer-Level Scheduling for Efficient Multi-SLO LLM Serving

论文链接:https://dl.acm.org/doi/pdf/10.1145/3774934.3786413

核心看点

当前主流的大语言模型(LLM)服务系统普遍采用迭代级别调度(Iteration-Level Scheduling),即以一次完整前向传播(遍历所有 Transformer 层)为最小调度单元。这种粗粒度方式在面对具有不同延迟要求的混合请求(如聊天机器人要求快首响、代码补全要求低生成延迟)时,显得力不从心,容易造成资源浪费或 SLO 违规。

Laser系统的核心突破在于,它将调度粒度从“整次迭代”细化到“单个 Transformer 层”,并设计了两大关键技术:层级别分块预填充(Layer-Level Chunked Prefill)和层级别解码批处理(Layer-Level Decode Batching)。前者允许在预填充阶段动态切换和合并请求,后者则能为不同 SLO 的请求定制每轮迭代执行的层数。配合跨实例的智能调度策略,Laser 在真实场景中实现了高达 1.67 倍的吞吐量提升,同时保持 90%以上的 SLO 达标率。

研究背景

现代 LLM 服务通常分为两个阶段:预填充(Prefill)阶段并行处理整个输入提示以生成首个 token,以及解码(Decode)阶段自回归地逐个生成后续 token。为了提升 GPU 利用率,业界广泛采用连续批处理(Continuous Batching)技术,但其调度粒度仍停留在“迭代”层面。

这一设计在多 SLO 工作负载下暴露了严重问题。在预填充阶段,长提示会阻塞对延迟敏感的新请求(即“队头阻塞”),而短提示又难以充分利用计算资源。在解码阶段,系统被迫为所有请求采用统一的批大小和生成速度,无法兼顾高响应性(小批)和高吞吐(大批)的需求。因此,亟需一种更细粒度、更灵活的调度机制来释放 LLM 服务的潜能。

Laser 的创新切入点正是打破“迭代”这一传统调度边界,深入到Transformer模型内部的层(Layer)结构,实现真正意义上的按需、分层执行。

核心贡献

1. 方法创新:提出层级别调度框架

Laser 首次将 LLM 推理的调度单元从“迭代”下沉到“层”。在预填充阶段,它实现了层级别分块预填充,能够在任意层边界处暂停当前请求,优先处理新到达的高优先级请求,并能将多个小请求动态合并成更大的计算块,从而减少平均首 token 时间(TTFT)超过 10%。在解码阶段,层级别解码批处理允许系统为每个请求独立决定每轮迭代执行多少层,例如,对宽松 SLO 的请求执行 2 层/轮,从而在同一时间内服务更多请求。

2. 系统协同:构建双层级优化架构

在方法创新的基础上,团队进一步验证了跨实例协同的重要性。Laser 采用预填充-解码分离架构,并设计了全局控制器(Global Controller)。该控制器在预填充阶段倾向于将异构 SLO 请求混合调度以利用松弛时间;而在解码阶段,则通过基于 SLO 分组的分配策略,将相似 SLO 的请求聚集到同一实例,最大化批处理效率。这种“内实例精细调度+外实例智能分发”的双层设计,是实现端到端性能提升的关键。

3. 实证成果:全面超越 SOTA 基线

实验在Qwen-14B/32B和Llama-3-70B等主流大模型上进行,对比了Sarathi-Serve和DistServe等最先进系统。结果显示,Laser 在多种负载下均显著优于基线:

  • 吞吐量(Goodput)最高提升68.9% (Qwen-32B);
  • 在集群规模受限(<8 GPU)时,甚至能实现1.23 倍的吞吐增益;
  • 当 SLO 要求极为严格(0.8 倍基准)时,其优势更为突出,吞吐量可达 DistServe 的1.08 倍和 Sarathi-Serve 的6.25 倍。

此外,其底层的模块化延迟建模方法预测准确率高达94.6%~98.6% ,为高效调度提供了可靠依据。

行业意义

Laser 的研究不仅是一项技术突破,更指明了未来 LLM 服务系统的重要演进方向。随着大模型应用场景日益多元化,从实时对话到后台批处理,单一的 SLO 保障模式已不再适用。Laser 所倡导的层级别调度理念,为构建弹性、高效、可定制的下一代 AI 推理基础设施提供了坚实的技术路线。

该工作与当前业界追求的高资源利用率和绿色计算趋势高度契合。通过更精细的资源编排,Laser 能在不增加硬件投入的情况下,显著提升单位算力的服务能力,有效降低 AI 服务的碳足迹。可以预见,这一思想将推动云原生 AI 平台、边缘大模型部署乃至自动驾驶等对实时性与效率有极致要求的产业领域,加速其感知与决策系统的智能化升级。

论文链接:https://doi.org/10.1145/3774934.3786413

http://www.jsqmd.com/news/341735/

相关文章:

  • Nodejs毕设项目:基于nodejs的回忆小书屋小程序(源码+文档,讲解、调试运行,定制等)
  • MySQL之SQL语句执行过程详解
  • 2026年不锈钢螺旋筋瓦斯管质量好的厂家排名,你知道几家 - 工业品牌热点
  • 如何兼顾育儿与量子编码?单亲开发者的时间黑客
  • Zynq上UART/IIC/SPI的27个实验-第8课:PL AXI UARTLite 接收
  • 2026年真空上料机耐用型厂家排名,普非森助力企业生产 - myqiye
  • 剖析信誉好的惠姐装修专业公司,潮汕地区值得选的品牌 - mypinpai
  • 傲梅动态磁盘转换器3.2介绍及核心功能+工具分享
  • 测试脚本维护:AI减少技术债务的实操
  • 【2026-02-02】中年渴望
  • 2026年郑州口碑好的家政品牌企业推荐,专业家政机构全排名揭秘 - 工业推荐榜
  • nodejs+vue运动健康饮食健身追踪系统
  • vue2框架下如何优化大文件上传的方案总结?
  • 聊聊邦格公司敦煌徒步,导游讲解是否详细,口碑究竟怎么样 - myqiye
  • vue基于nodejs+vue的漫画动漫订阅系统天堂网31g9n442
  • jquery实现大文件分块上传的解决方案有哪些总结?
  • 大润发购物卡回收平台靠谱吗?避免陷阱的必备指南 - 团团收购物卡回收
  • Unity引擎程序员如何根据系统开发中遇到的痛点进行UI框架和UI组件的迭代
  • 大润发购物卡回收靠谱吗?揭秘最安全的回收平台选择 - 团团收购物卡回收
  • 大润发购物卡回收平台推荐:安全交易,0风险提现方法 - 团团收购物卡回收
  • nodejs+vue明星周边商城系统au72407e
  • 幻影飞驰:商用VR赛车旗舰,解锁极致竞速沉浸感
  • 2026国内最新硅酮胶生产厂家TOP5推荐:服务深度覆盖江苏、山东、济南、云南、成都等地,高端定制硅酮胶供应商权威榜单发布,多场景适配满足多元需求 - 品牌推荐2026
  • 2025年外用贴敷透皮贴厂家直销排行榜出炉,经皮给药贴/外用膏贴/外用贴剂/外用理疗贴/中医穴位贴敷外用贴敷透皮贴生产公司有哪些 - 品牌推荐师
  • nodejs+vue景区自行车租赁管理系统 og8s633w
  • 2026年GEO加盟合作公司评选:五家顶级服务商深度解析与采购指南 - 2026年企业推荐榜
  • 瓶子里装的“安心”,还是装的“误会”?膳食补充剂真能防癌吗
  • 隧道代理是什么?技术特点与实用场景全解析
  • 6 常用API篇
  • Ser-Ile-Lys-Val-Ala-Val