当前位置：首页 > news >正文

sysHAX PD分离技术详解：如何实现Prefill与Decode阶段的高效拆分

news 2026/6/30 17:55:59

sysHAX PD分离技术详解：如何实现Prefill与Decode阶段的高效拆分

【免费下载链接】sysHAXsysHAX Heterogeneous collaborative acceleration runtime项目地址: https://gitcode.com/openeuler/sysHAX

前往项目官网免费下载：https://ar.openeuler.org/ar/

在当今大语言模型推理场景中，如何充分利用异构计算资源是提升系统性能的关键挑战。openEuler社区的sysHAX异构协作加速运行时通过创新的PD分离技术，实现了Prefill与Decode阶段的高效拆分，为AI推理性能优化提供了全新的解决方案。本文将深入解析sysHAX PD分离技术的核心原理、实现机制和实际应用价值。

🚀 什么是PD分离技术？

PD分离技术是sysHAX系统的核心创新之一，它基于对LLM推理过程特性的深刻理解。在大语言模型的自回归文本生成过程中，推理可分为两个关键阶段：

Prefill阶段：对输入提示进行上下文编码，属于计算密集型任务
Decode阶段：逐token生成输出内容，属于访存密集型任务

传统推理系统通常将这两个阶段都放在GPU上执行，但sysHAX通过智能分析发现，Prefill阶段适合在高算力的GPU上执行，而Decode阶段更适合在具备高内存带宽和灵活调度能力的CPU上运行。

sysHAX架构图

🔧 PD分离技术实现原理

sysHAX的PD分离技术基于动态任务拆分与调度机制，具体实现包括以下几个关键组件：

1. 智能调度器

sysHAX的核心调度器位于src/core/scheduler.py，它负责根据实时系统状态做出智能调度决策。调度器通过监控GPU和CPU的负载情况，动态决定将Decode任务分配给哪个设备。

# 调度决策逻辑示例 def _make_decision(self) -> dict: # 根据GPU和CPU的吞吐量对比进行决策 if gpu_decode_throughout_per_batch >= cpu_decode_throughout_per_batch: use_cpu = False # 使用GPU else: use_cpu = True # 使用CPU return {"device": "CPU" if use_cpu else "GPU", "token_limit": 0}

2. 实时监控系统

系统监控器持续跟踪以下关键指标：

GPU和CPU的运行任务数量
各设备的吞吐量性能
系统资源利用率
任务排队状态

3. 动态负载均衡

sysHAX的负载均衡算法基于以下策略：

当GPU空闲时，优先使用GPU处理Decode任务
当CPU负载较低时，将Decode任务迁移到CPU
根据实时吞吐量对比动态调整任务分配

📊 PD分离性能优势

性能提升对比

通过PD分离技术，sysHAX能够实现以下性能优势：

场景	传统方案	sysHAX PD分离	提升幅度
高并发场景	GPU瓶颈明显	CPU分担Decode负载	30-50%
长文本生成	显存压力大	CPU处理Decode降低显存占用	40-60%
混合负载	资源利用不均	智能调度实现均衡	25-35%

资源利用率优化

GPU与CPU协作架构

如上图所示，sysHAX实现了GPU与CPU的高效协作：

GPU专注Prefill：充分利用GPU的高并行计算能力
CPU处理Decode：发挥CPU的高内存带宽优势
动态负载均衡：根据实时状态智能调整任务分配

🛠️ PD分离技术配置指南

基础配置

在config/config.example.yaml中，可以配置PD分离相关参数：

decider: # 是否开启自动PD offload auto_pd_offload: false # CPU最大并发量 cpu_max_batch_size: 20

部署步骤

GPU容器部署：所有Prefill请求路由到GPU
CPU容器部署：Decode请求由CPU和GPU共同处理
sysHAX服务启动：作为代理层智能调度请求

关键环境变量

# 启用自动PD分离 --enable-auto-pd-offload # CPU推理加速配置 INFERENCE_OP_MODE=fused OMP_NUM_THREADS=160 CUSTOM_CPU_AFFINITY=0-159

🎯 实际应用场景

场景一：高并发聊天服务

在在线聊天机器人场景中，大量用户同时请求会导致GPU资源紧张。通过PD分离技术，sysHAX可以将Decode任务智能分配到CPU，显著提升系统并发处理能力。

场景二：长文本生成

对于需要生成长篇文档的应用，传统方案容易遇到显存不足的问题。sysHAX的PD分离技术将Decode阶段迁移到CPU，有效缓解显存压力，支持更长的上下文长度。

场景三：混合负载环境

在同时处理多种类型推理任务的场景中，sysHAX能够根据任务特性动态调整资源分配，确保系统整体吞吐量最大化。

🔍 技术实现细节

1. 任务识别机制

sysHAX通过分析请求特征识别Prefill和Decode任务：

Prefill任务：包含完整的prompt输入
Decode任务：基于已有上下文的token生成

2. 调度算法优化

调度器采用多因素决策算法：

# 考虑因素包括： # 1. 设备当前负载 # 2. 历史吞吐量表现 # 3. 任务队列长度 # 4. 资源利用率指标

3. 性能监控与调优

系统内置完整的性能监控体系，实时收集和分析以下指标：

各设备吞吐量
任务处理延迟
资源使用率
调度决策准确率

📈 性能测试结果

根据实际测试数据，sysHAX PD分离技术在以下场景中表现优异：

测试环境配置

CPU：鲲鹏920系列（160核心）
GPU：NVIDIA A100
模型：DeepSeek-R1-Distill-Qwen-32B

性能提升数据

吞吐量提升：在混合负载场景下提升35%
延迟降低：高并发场景下P99延迟降低28%
资源利用率：CPU利用率从40%提升至75%

🚀 快速上手实践

步骤1：环境准备

确保系统满足以下要求：

openEuler 24.03 LTS SP1及以上
Python 3.9+
Docker 25.0.3+
NVIDIA GPU驱动

步骤2：容器部署

按照官方文档的指导部署GPU和CPU容器：

# GPU容器部署 docker run --name vllm_gpu --ipc="shareable" --gpus=all \ -p 8001:8001 hub.oepkgs.net/neocopilot/syshax/syshax-vllm-gpu:0.2.1 # CPU容器部署 docker run --name vllm_cpu --ipc container:vllm_gpu \ -p 8002:8002 hub.oepkgs.net/neocopilot/syshax/syshax-vllm-cpu:0.2.1

步骤3：sysHAX服务配置

# 初始化配置 syshax init syshax config services.gpu.port 8001 syshax config services.cpu.port 8002 syshax config decider.auto_pd_offload true # 启动服务 syshax run

步骤4：测试验证

使用curl命令测试PD分离效果：

curl http://0.0.0.0:8010/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{"model": "ds-32b", "messages": [{"role": "user", "content": "测试PD分离技术"}]}'