当前位置：首页 > news >正文

基于分层DRL的O-RAN网络切片资源分配：HiSO-CoMA框架解析

news 2026/7/16 0:56:29

1. 项目概述：当网络切片遇上深度强化学习

在5G迈向6G的演进道路上，网络切片（Network Slicing）早已不是个陌生的概念。简单来说，它就像在一张巨大的物理网络上，用软件定义的方式“切”出多个逻辑上独立、性能各异的虚拟网络。一个切片承载着超高清视频流，另一个则负责工厂里机械臂毫秒级的控制指令，还有一个可能专为海量物联网传感器设计。理想很丰满，但现实中的无线接入网（RAN）却是个充满不确定性的“战场”：用户四处移动、信道条件瞬息万变、不同业务的流量如潮汐般涨落。传统的、基于固定规则或静态优化的切片资源分配方案，在这种动态环境下常常力不从心，要么资源浪费严重，要么无法满足关键业务的服务等级协议（SLA），导致切片“承诺”的服务质量成了空头支票。

我最近深入研读并复现了一篇题为《HiSO-CoMA: 基于协作多智能体深度强化学习的O-RAN网络切片分层自优化框架》的前沿工作。这篇论文直指上述痛点，提出了一套相当精巧的解决方案。其核心思想是引入分层自优化和协作多智能体深度强化学习（DRL），让网络切片的管理从“静态配置”走向“动态智能”。更吸引我的是，它没有停留在理论仿真，而是紧密结合了开放无线接入网（O-RAN）的架构，并考虑了实际部署中无法回避的硬件损伤（HWI）问题，这使得整个框架的实用性大大增强。

简单来说，这个框架做了两件大事：

宏观统筹（切片间管理）：像一个总调度中心，根据VoNR（语音）、eMBB（增强移动宽带）、uRLLC（超可靠低时延通信）等不同切片实时的业务流量负载，动态调整分配给每个切片的总功率和总带宽预算。这部分工作在秒级的大时间尺度上进行。
微观优化（切片内管理）：在每个切片内部，像一个精明的管家，在毫秒级的小时间尺度上，为切片内的活跃用户精细分配功率、调整带宽份额，并优化波束成形方向，以对抗干扰、提升频谱效率。

而连接这两层的“大脑”，便是深度强化学习智能体。上层（切片间）采用协作多演员-评论家（CoMA2C）算法，下层（切片内）采用多智能体深度Q网络（MADQN）算法。两者协同工作，共同目标是在满足各切片SLA的前提下，最大化长期频谱效率。这套框架特别适合通信算法工程师、无线网络研发人员以及对AI赋能网络自动化（零接触网络，ZTN）感兴趣的研究者参考。它不仅提供了完整的系统建模和问题形式化方法，更重要的是，其基于DRL的求解思路和工程实现细节，对于我们将AI真正应用于复杂的网络优化问题具有很高的借鉴价值。

2. 核心设计思路与架构拆解

2.1 为什么是分层与双时间尺度？

在深入算法细节前，必须理解“分层”和“双时间尺度”设计的必要性。这是整个框架的骨架。

资源管理的天然层次性：无线资源管理（RRM）在切片场景下天然分为两层。切片间（Inter-Slice）资源分配决定的是“蛋糕怎么分”——把基站的总功率和总带宽这块大蛋糕，按需分给VoNR、eMBB、uRLLC等不同的业务切片。切片内（Intra-Slice）资源分配解决的是“分到的蛋糕怎么吃”——每个切片拿到自己的那份资源后，如何在其内部多个用户之间进行分配和调度，以达到该切片特定的QoS目标（如eMBB追求高吞吐量，uRLLC追求低时延高可靠）。

时间尺度的分离：这两种决策的频率和影响范围截然不同。

切片间决策（大时间尺度，如1秒）：调整的是宏观资源预算。频繁调整会导致系统不稳定，且信令开销巨大。决策应基于相对稳定的、周期较长的业务流量趋势变化。
切片内决策（小时间尺度，如0.5毫秒）：应对的是快速变化的信道条件、用户移动和瞬时业务需求。需要快速响应以保障用户体验。

因此，将问题解耦为两个时间尺度的优化子问题，不仅符合物理实际，也大幅降低了单次决策的复杂度，使得DRL智能体更容易学习和收敛。

2.2 系统模型与关键挑战建模

论文构建了一个下行多用户MISO（多输入单输出）系统模型，基站配备多天线，服务多个切片及其用户。这里有几个关键建模点，直接影响了后续算法设计：

信道模型：采用了平坦块衰落信道，并模拟了用户移动性（通过一阶复高斯马尔可夫过程建模小尺度衰落）。这意味着信道在一个时间块内不变，但块与块之间独立变化，这要求算法必须具备应对时变信道的能力。
多址接入技术：没有采用传统的正交多址（如OFDMA），而是引入了速率分割多址（RSMA）。这是6G的一项关键技术。其核心思想是将发给用户的消息拆分为“公共部分”和“私有部分”。基站发送一个叠加了所有用户公共流和各自私有流的信号。用户端先解码公共流（将其他私有流视为噪声），再利用串行干扰消除（SIC）技术消除公共流的影响，再解码自己的私有流。RSMA的优势在于能更灵活地管理用户间干扰，尤其在异构业务（高吞吐的eMBB和低时延的uRLLC）共存时，能取得比正交接入更好的性能和鲁棒性。
硬件损伤（HWI）建模：这是论文的一大亮点，也是很多理想化研究忽略的现实因素。作者明确建模了发射端（基站天线阵列）的失真噪声和接收端（用户设备）的自失真噪声。这些损伤会恶化信干噪比，尤其在采用低成本大规模天线时影响显著。任何不考虑HWI的算法在实际部署中性能都可能大打折扣。
优化问题形式化：最终的目标函数是最大化一个加权和：长期频谱效率 + 各切片的服务满意度（SSR）。约束条件则囊括了切片间（总功率、总带宽限制、最低保障资源）、切片内（用户功率非负、不超过切片预算、满足用户级SLA）以及RSMA特有的公共速率分割约束。这个问题被证明是非凸且NP难的，传统优化方法在动态环境下难以实时求解，这自然引出了DRL。

2.3 协作多智能体DRL的设计哲学

为什么用多智能体（Multi-Agent）而不是单智能体（Single-Agent）？

维度灾难：如果用一个超级智能体同时管理所有切片的所有用户的功率、波束成形，其观察空间和动作空间将异常庞大（状态维度=所有用户信道信息+队列状态+...，动作维度=所有用户的功率分配+波束方向选择...）。这会导致训练极其困难，收敛缓慢，且不易扩展。
分布式与可扩展性：采用多智能体架构，将任务分解。
- 在切片间，设计两个协作的智能体：一个专管功率分配（Agent_P），一个专管带宽分配（Agent_B）。它们共享全局奖励，协作学习如何为不同切片分配合适的资源预算。
- 在切片内，为每个切片部署一个独立的智能体（如Agent_eMBB, Agent_uRLLC）。每个智能体只关注自己切片内部的用户和资源，观察局部状态，做出局部决策。这大大降低了单个智能体的复杂度，并且便于未来增加新的切片类型——只需为新切片训练一个新的智能体即可，无需重构整个系统。

这种“中心化训练，分布式执行”的范式，既保证了全局目标的协同优化，又赋予了系统良好的模块化和可扩展性。

注意：在��片间采用A2C，在切片内采用DQN，并非随意选择。A2C属于策略梯度算法，适合连续或高维动作空间（如分配具体功率/带宽数值），且能学习随机策略，有助于探索。而切片内的资源分配（选择离散的功率等级和波束码本索引）天然是离散动作空间，DQN处理这类问题非常成熟高效。这种“异构算法”的组合是贴合问题特性的设计。

3. 分层自优化框架HiSO-CoMA详解

3.1 第一层：切片间协作管理（CoMA2C）

这一层运行在近实时RAN智能控制器（Near-RT RIC）上，符合O-RAN架构。其核心是CoMA2C（协作多A2C）方案。

3.1.1 状态、动作与奖励设计

状态（State）：非常简单，就是当前时刻各切片的业务流量负载（Traffic Load）λ_s。RIC通过E2接口从基站收集这些信息。状态向量为s = [λ_VoNR, λ_eMBB, λ_uRLLC]。这体现了“按需分配”的基本原则。
动作（Action）：两个智能体共同输出。
- 功率分配智能体：输出一个三维动作向量a_P = [P_VoNR_max, P_eMBB_max, P_uRLLC_max]，代表分配给三个切片的总功率预算，需满足总功率约束。
- 带宽分配智能体：输出a_B = [B_VoNR_max, B_eMBB_max, B_uRLLC_max]，代表分配给三个切片的总带宽预算，需满足总带宽约束。
奖励（Reward）：这是一个精心设计的团队奖励，引导智能体学习满足SLA的同时提升效率。其逻辑如下（见原论文Algorithm 1）：
1. 理想情况：如果所有切片的SSR都达到阈值且频谱效率低于100 bps/Hz，给予一个固定的中等正奖励（+10）。这鼓励智能体在满足SLA的基础上继续优化效率。
2. 超额完成：如果所有切片SSR达标且频谱效率高于100 bps/Hz，则在基础奖励上额外增加一个与超出部分成正比的奖励（+0.1*(η-100)）。这强烈激励智能体追求高性能。
3. 关键业务保障：如果uRLLC的SSR不达标（这是最不能容忍的），则奖励只与uRLLC的SSR表现正相关（10*(SSR_uRLLC - 0.7)）。这迫使智能体优先保障uRLLC这类关键业务。
4. 惩罚机制：如果VoNR或eMBB任一不达标（且uRLLC达标），则给予一个负奖励，其大小与表现最差的那个切片的SSR缺口成正比（-2*(1 - min(SSR_VoNR, SSR_eMBB))）。

3.1.2 核心创新：基于流量变化的触发式更新

这是论文降低网络开销的关键策略。传统的SOTA方法每个大时间步（如每秒）都强制进行切片间资源重分配，无论流量是否发生显著变化。这会产生大量不必要的信令和控制开销。

HiSO-CoMA框架引入了一个智能触发机制：

RIC持续监控各切片流量负载λ_s[t]。
在每个决策时刻t，计算每个切片流量相对于上一时刻的相对变化率Δλ_s[t]。
取所有切片中变化率的最大值Δ_max[t]。
只有当Δ_max[t]超过一个预设阈值∇_Th（例如10%）时，才触发CoMA2C智能体进行新的资源分配决策。否则，保持当前资源预算不变。

这样做的巨大优势：避免了“为调整而调整”的策略振荡，显著减少了RIC与基站之间、以及上下层智能体之间的协调信令，降低了系统开销，更符合“零接触”网络中高效自治的理念。同时，下层MADQN仍在持续运行，保障了切片内资源对快速变化的实时响应。

3.1.3 网络架构与训练

每个智能体（Agent_P, Agent_B）都采用A2C算法，包含一个Actor网络（输出动作策略）和一个Critic网络（评估状态价值）。为了解决部分可观测性问题（RIC无法获知完整的底层环境状态），Actor和Critic网络都采用了LSTM层，使其具备记忆历史状态序列的能力，从而更好地处理POMDP。

训练过程中，智能体根据当前流量状态做出分配决策，动作下发给下层MADQN执行，环境（网络）反馈奖励和新的状态。Critic网络计算时序差分误差（TD Error），用以更新Actor和Critic自身的网络参数。论文中使用了Dropout技术来防止过拟合。

3.2 第二层：切片内分布式管理（MADQN）

这一层运行在基站或分布式单元（DU）上，每个切片拥有自己独立的DQN智能体。

3.2.1 状态、动作与奖励设计

状态（State）：每个切片智能体只观察自己切片的局部信息，包括：
- 上一时刻公共流的功率、信干噪比（SINR）、分配速率。
- 上一时刻各用户私有流的功率、SINR、波束方向索引、可达速率。
- 当前时刻各用户的等效信道增益|h^H w|^2。这种局部观测极大降低了状态维度，利于快速决策。
动作（Action）：为了适配DQN，动作空间被离散化。
- 功率离散化：将切片获得的功率预算P_s_max均匀离散为N_L个等级，从0到P_s_max。
- 波束方向离散化：采用码本（Codebook）技术。预先生成一个包含B_code个波束成形向量的码本C_book，每个向量对应一个特定的波束方向。智能体从码本中选择一个索引。
- 因此，单个智能体的动作是一个三元组(p_c, p_p, c)，分别代表分配给公共流的功率、分配给某个用户私有流的功率、以及选择的波束码本索引。注意，这里假设每个时间步智能体主要为一个用户或一个资源块做决策，实际中可通过多轮决策或更复杂的设计服务多个用户。
奖励（Reward）：奖励函数设计为三个因子的乘积，并进行了裁剪以防止训练不稳定。r_js = clip( η_us * θ_us * δ_us, -μ, μ)
- η_us：该用户的频谱效率（速率/带宽）。
- θ_us：用户级SLA满足度惩罚因子。若SSR达标则为1，否则为max(0.1, SSR_us/SSR_Th)，即按比例打折。
- δ_us：最低速率满足度惩罚因子。若速率达标则为1，否则为max(0.1, Rate_us/Rate_Min)。这种乘性设计迫使智能体必须同时优化频谱效率、满足用户SLA和最低速率要求，任何一项不达标都会严重拉低奖励。

3.2.2 分布式训练与执行

每个切片智能体独立运行一个标准的DQN算法：

采用ε-greedy策略进行探索-利用。
使用经验回放缓冲区存储转移样本(s, a, r, s')。
采用双网络结构（当前Q网络和目标Q网络）来稳定训练。
从回放缓冲区中采样小批量数据，通过最小化均方误差损失来更新当前Q网络，并定期将当前网络参数软更新到目标网络。

这种分布式架构使得每个切片的优化可以并行进行，加快了决策速度，也使得不同切片可以学习适应其业务特性的专属策略（例如，uRLLC切片智能体会更倾向于选择低时延的调度和编码策略）。

3.3 双层次协同与整体工作流程

整个HiSO-CoMA框架的工作流程可以概括为以下步骤：

初始化：在近实时RIC部署CoMA2C智能体（Actor和Critic网络），在每个切片（基站侧）部署对应的MADQN智能体（DQN网络）。初始化所有网络参数、经验缓冲区等。
大时间步循环（CoMA2C）： a. RIC通过E2接口收集各切片流量负载λ_s[t]。 b. 计算最大流量变化率Δ_max[t]。 c. 若Δ_max[t] > ∇_Th，则： i. CoMA2C的Actor��络根据状态s[t]选择动作a_P[t],a_B[t]。 ii. 将新的功率和带宽预算P_s_max,B_s_max下发给对应切片的MADQN智能体。 iii. MADQN智能体在新的预算约束下开始新一轮的小时间步优化。 iv. 环境根据切片性能（SSR, 频谱效率）计算团队奖励r[t]。 v. CoMA2C的Critic网络计算TD误差，更新Actor和Critic网络参数。 d. 若Δ_max[t] ≤ ∇_Th，则CoMA2C不更新动作，下层MADQN继续使用上一周期的预算进行优化。RIC进入监控模式。
小时间步循环（MADQN）： a. 每个切片智能体观察其局部状态s_js[t]（信道信息、队列状态等）。 b. 根据ε-greedy策略，选择动作a_js[t]（功率分配、波束选择）。 c. 执行动作，基站进行信号传输。 d. 接收用户反馈，计算瞬时速率、时延，更新用户队列。 e. 根据公式计算奖励r_js[t]。 f. 将经验(s_js[t], a_js[t], r_js[t], s_js[t+1])存入回放缓冲区。 g. 从缓冲区采样，训练DQN网络，更新策略。
持续迭代：上述大小时间尺度的过程持续进行，智能体通过与环境的不断交互，学习到在动态、不确定的网络环境下，如何协同分配资源以实现全局目标的最优策略。

4. 仿真实验与性能深度剖析

论文通过大量的仿真实验验证了HiSO-CoMA框架的有效性。仿真设置了一个单基站多天线场景，覆盖240m×240m区域，服务VoNR、eMBB、uRLLC三个切片，用户随机分布并具有移动性。对比的基准算法包括：固定时间步更新的SOTA DRL方法、随机分配（RRA）、贪婪分配（GGA）、平均分配（EEA）以及一种文献[7]中的异构方法（SA2C-T，上层用A2C，下层用传统算法）。

4.1 收敛性分析

首先，作者验证了框架的收敛性。在存在硬件损伤、用户移动和流量波动的复杂环境下，CoMA2C和MADQN的损失函数随着训练进行均能稳定下降并趋于平稳。这证明了双层次DRL框架学习的稳定性和有效性，克服了多智能体学习中常见的策略振荡和难以收敛的问题。特别是，上下层智能体通过预算分配和局部优化的交互，实现了有效的协同学习。

4.2 核心性能优势

效用函数与频谱效率：在理想硬件和存在硬件损伤两种情况下，HiSO-CoMA的长期效用函数和频谱效率均显著优于SOTA方法（固定时间步更新）。根本原因在于其触发式更新机制。SOTA方法每个时间步都更新，容易导致“策略摇摆”（Policy Churn），即智能体频繁改变一个本来不错的策略，反而破坏了已学到的良好行为，降低了长期性能。而HiSO-CoMA只在必要时更新，学习更稳定，资源分配更高效。硬件损伤会对初期学习稳定性造成一定波动，但最终不影响收敛，体现了框架的鲁棒性。
训练时间与开销：这是HiSO-CoMA的核心优势之一。由于减少了不必要的切片间协调，其训练时间相比SOTA方法大幅缩短。这意味着在实际部署中，系统能更快地适应新环境，并且运行时开销更低，更贴近“零接触”网络低开销、自优化的愿景。
服务质量保障：在满足异构切片SLA方面，HiSO-CoMA对eMBB和uRLLC的服务满意度（SSR）与SOTA方法相当，但对VoNR的SSR有约4%的下降。作者给出了一个非常关键且实际的解释：VoNR的流量模型服从均匀分布（0-160ms），其流量变化可能频繁但幅度较小，常常达不到触发阈值（如10%）。因此，RIC可能不会频繁为VoNR调整预算，导致资源逐渐失配。这揭示了一个重要的权衡（Trade-off）：降低开销的代价可能是对某些流量模式不敏感的业务（如VoNR）的性能轻微损失。在实际系统中，需要根据业务特性精细调整触发阈值∇_Th。

4.3 与各类基准算法的全面对比

在与RRA、GGA、EEA等传统调度器以及SA2C-T的对比中，HiSO-CoMA在效用函数和频谱效率上全面领先。一个有趣的发现是，SA2C-T（异构方法）性能最差。这凸显了学习过程同步的重要性。上层用DRL，下层用传统算法（如ZF预编码），两种优化方法缺乏协同学习和适应，导致整体策略不协调，性能甚至不如简单的随机或平均分配。这反证了HiSO-CoMA采用统一DRL范式（均为基于学习的智能体）进行分层优化的正确性。

4.4 鲁棒性测试

论文还测试了框架在多种不利条件下的表现：

用户移动性：随着用户速度增加，信道变化加剧，所有算法的性能都会下降。但HiSO-CoMA的下降幅度最小，在高速移动场景下仍能较好地维持各切片的SLA。这得益于MADQN在切片内的快速波束成形优化，能够跟踪用户移动，及时调整波束方向。
数据包大小：针对eMBB大包业务测试，随着包增大，对传输速率要求更高，所有算法的效用和QoS都会下降。HiSO-CoMA的下降曲线最平缓，表现最稳定。
硬件损伤程度：随着发射端和接收端硬件损伤系数（κ_t, κ_r）增大，系统性能线性下降。但HiSO-CoMA在所有损伤水平下都保持了相对于基准算法的性能优势。值得注意的是，当损伤非常严重时（>0.05），所有DRL方法的训练时间都会增加，这说明硬件损伤确实增加了学习环境的复杂度。

5. 实操心得与避坑指南

基于对这篇论文的复现尝试和自身在无线资源管理领域的经验，我想分享几个关键的实操点和避坑建议。

5.1 智能体设计中的“魔鬼细节”

奖励函数的设计是灵魂：奖励函数直接引导智能体学习的方向。HiSO-CoMA的团队奖励设计非常巧妙，但复现时需要特别注意：
- 奖励尺度：不同切片业务（VoNR, eMBB, uRLLC）的QoS指标（时延、速率）量纲和取值范围差异巨大。必须进行合理的归一化（Normalization）或设计差分奖励（Difference Reward），避免某个切片的奖励主导学习过程。
- 稀疏奖励问题：在复杂环境中，智能体可能很难偶然获得正奖励。可以考虑设计分层奖励（Hierarchical Reward）或内在好奇心（Intrinsic Curiosity）机制，鼓励探索。
- 本文的奖励设计：将uRLLC不达标作为单独分支处理，并给予强相关奖励，这确保了关键业务的优先级，是一个很好的实践。
状态信息的可行性与开销：论文中MADQN的状态包含了等效信道增益|h^H w|^2。在实际系统中，获取精确的瞬时信道状态信息（CSI）开销很大。可以考虑：
- 使用信道估计值或历史信道统计信息作为状态。
- 利用O-RAN架构，通过近实时RIC中的xApp获取更丰富的上下文信息（如用户位置预测、业务类型）。
- 经验之谈：状态信息越能反映环境动态，智能体学得越好，但需要权衡获取该信息的成本和延迟。

5.2 工程实现与训练技巧

神经网络结构选择：CoMA2C中使用了LSTM来处理POMDP，这很合理。但对于MADQN，输入状态是局部且当前的，使用全连接网络可能就够了。过深的网络会增加推理延迟，不利于毫秒级决策。
超参数调优：DRL对超参数极其敏感。
- 学习率：CoMA2C的Actor和Critic、MADQN的DQN，学习率可能需要分别精细调整。通常Critic的学习率可以略高于Actor。
- 折扣因子γ：切片间决策（CoMA2C）关注长期收益，γ应接近1（如0.99）。切片内决策（MADQN）更关注即时收益，γ可以稍小（如0.9）。
- 探索率ε：需要设计衰减策略，如线性衰减或指数衰减，保证前期充分探索，后期稳定利用。
- 论文中的调参：作者通过大量实验确定了表3中的参数，这是一个很好的起点。但实际应用中，网络规模、业务模型不同，仍需重新调优。
训练稳定性：多智能体环境下的训练不稳定是常态。
- 经验回放缓冲区大小：要足够大，以覆盖多样的经验。
- 目标网络更新频率：不宜过快（如MADQN中每200步更新一次），稳定训练。
- 梯度裁剪：防止梯度爆炸，尤其在A2C中。
- 参数共享：对于同构的切片智能体（如多个eMBB切片），可以考虑让它们共享部分网络参数，加速训练并提升泛化能力。

5.3 从仿真到现实的挑战

仿真到实际的差距：论文仿真假设了理想的反馈和即时执行。现实中，从决策到动作执行（如下发配置）、再到收集性能反馈（如吞吐量、时延测量），存在不可忽略的延迟。这可能导致智能体基于过时状态做出决策。需要在状态中引入历史信息或使用延迟敏感的DRL算法。
探索的安全性问题：在真实的运营网络中，让DRL智能体随意探索（如尝试极端的功率分配）可能是灾难性的。需要引入安全层（Safe Layer）或约束强化学习（Constrained RL），确保探索动作始终在运营商设定的安全边界内（如最大发射功率、最低保障带宽）。
在线学习与离线部署：在现网中直接进行在线学习风险极高。更可行的路径是：离线训练 + 在线微调。先在高度保真的仿真平台或实验室环境中进行大量训练，得到一个基础策略模型。部署到现网后，在严格的安全监控下，进行小范围的在线微调（使用生产环境数据），以适应真实的流量模式和信道特性。

5.4 对触发阈值∇_Th的深入思考

论文中设定了一个固定的流量变化阈值（如10%）来触发切片间重分配。在实际中，这可能不是最优的。

业务差异性：不同业务对资源变化的敏感度不同。uRLLC流量的小幅增长可能就需要立即增加资源，而eMBB流量的大幅波动也许可以容忍更久。可以考虑为每个切片设置独立的触发阈值。
自适应阈值：更高级的做法是让这个阈值本身也成为学习的一部分。可以设计一个元智能体（Meta-Agent）或使用上下文赌博机（Contextual Bandit）来动态调整∇_Th，在保障性能和降低开销之间寻找最优平衡点。

复现和应用HiSO-CoMA这类前沿框架，是一个将通信理论、优化方法和人工智能深度结合的过程。它不仅仅是一个算法，更是一套面向未来自治网络的系统设计方法论。理解其分层思想、多智能体协作机制以及与现实约束的结合点，远比单纯调通代码更为重要。这个框架为我们打开了一扇门，让我们看到如何利用DRL的决策能力，去驾驭无线网络中那片复杂而动态的“资源海洋”。

查看全文

http://www.jsqmd.com/news/896897/