当前位置：首页 > news >正文

【RL+MCS】基于深度强化学习的能效链路自适应联合功率分配与调制编码方案选择【附MATLAB代码】

news 2026/7/4 3:32:38

文章来源：微信公众号 EW Frontier

基于深度强化学习的能效链路自适应联合功率分配与调制编码方案选择

文章原题目

基于深度强化学习的能效链路自适应联合功率分配与调制编码方案选择

摘要

链路自适应是现代网络应对信道时变特性的有效手段，调制编码方案（MCS）选择是实现信道动态适配的核心方式，但下一代网络需要更灵活的链路自适应方案，综合多参数提升网络性能。本文提出一种高能效的链路自适应算法，引入深度强化学习（DRL）智能体实现信道条件与链路参数的最优匹配；除调制阶数和编码率外，将下行传输功率也纳入链路参数考量，让链路自适应更灵活高效。仿真结果表明，该算法在能量效率和链路吞吐量方面的表现均优于基准算法。

引言

链路自适应是5G及后5G（B5G）等现代高速通信网络的核心概念，其重要性体现在两大方面：一是通信网络需为用户提供高吞吐量的服务质量（QoS）和体验质量（QoE），但用户移动性加剧了信道波动，需通过链路自适应调整调制、编码等传输技术，适配信道条件以维持网络连接、保障服务质量；二是带宽、能量等网络资源有限，链路自适应能在QoS、QoE、连接保持与频谱效率、能量效率之间实现平衡。

调制编码方案（MCS）选择是最常用的链路自适应方法，发送方可根据信道条件选择不同调制技术和编码率：信道条件良好时，选用高阶调制和低编码率提升资源效率；信道条件恶化时，降低调制阶数、提高编码率以维持连接，这一过程依赖接收方通过信道状态信息（CSI）反馈的信道质量指示（CQI）实现。5G新空口（NR）的自适应调制编码（AMC）规范定义了CQI与MCS的映射流程，但这种静态映射难以适配动态信道，无法保证目标块错误率（BLER）。

近年来，人工智能和机器学习在5G及B5G网络中应用广泛，强化学习结合深度学习形成的深度强化学习，能从动态信道条件的MCS选择实践中学习最优策略，成为解决动态MCS选择问题的有效手段。同时，受经济、运营和环境因素影响，能耗优化成为网络设计的重要目标，5G及B5G网络连接设备数量庞大，亟需将能量效率纳入链路自适应的优化维度。

传统链路自适应方法仅考虑MCS方案，难以适配5G NR的高灵活性，需升级为多域链路自适应方法，纳入更多参数。但参数增加会扩大决策空间，使最优解的求解更复杂，而机器学习是应对这一挑战的理想技术。本文以此为背景，提出基于深度强化学习的智能能效MCS选择算法，联合优化MCS和传输功率以最大化能量效率，同时兼顾吞吐量，且算法的计算开销由计算能力无限制的基站承担，不会影响终端性能。

方法简介

本文提出的基于深度强化学习的能效链路自适应算法，核心是通过DRL智能体联合优化MCS和下行传输功率，实现信道条件与链路参数的动态匹配，整体方法围绕系统模型构建、深度强化学习基础框架和定制化DRL算法设计三部分展开，关键设计如下：

系统模型：基于5G NR架构，以基站（gNB）和用户设备（UE）为通信主体，聚焦物理下行共享信道（PDSCH）的数据传输，基站发送信道状态信息参考信号（CSIRS），UE检测后反馈CQI（1-15的整数，数值越高信道条件越好），同时考虑反馈延迟、信道衰落和噪声等实际信道特性，且假设反馈信道无差错、下行信道无干扰。
DRL基础框架：融合强化学习（RL）和深度神经网络，以智能体与环境的交互为核心，将环境抽象为状态空间，智能体的操作定义为动作空间，通过奖励函数评判动作优劣；采用深度Q网络（DQN）替代传统Q学习的Q表，解决状态和动作空间扩大后的维度灾难问题，通过DQN估计各动作的Q值，选择最优动作并更新网络权重。
定制化DRL算法设计
- 状态空间：摒弃单一CQI值，采用CQI历史序列（长度为CHL）定义状态，能感知信道的变化趋势，解决信道高时变性和反馈延迟带来的适配问题，经仿真确定最优CHL为8。
- 动作空间：将15种标准MCS与5种传输功率水平组合，形成二维动作集合，MCS包含不同调制阶数和编码率，功率水平为0.6-1.4的相对系数对应具体功率值，智能体能同时调整调制阶数、编码率和传输功率。
- 奖励函数：以时隙的能量效率为核心，成功传输时奖励为该时隙的能量效率（传输块大小/消耗功率），传输失败时给予-1的惩罚，引导智能体选择高能效的链路参数组合。
- 网络架构与训练：DQN包含输入层（CHL个神经元，对应CQI历史序列）、两个ReLU激活的全连接隐藏层和输出层（75个神经元，对应15×5的动作空间）；采用ε-贪心算法平衡探索与利用，训练过程分多轮次和阶段，逐步降低探索概率，经参数调优确定折扣因子0.01、学习率0.01为最优参数。
仿真设置：基于城市宏蜂窝信道模型，设置子载波间隔30KHz、时隙时长0.5ms、52个资源块等5G NR关键参数，禁用混合自动重传请求（HARQ），将基于RL的QL-AMC算法和标准表基MCS选择方法作为基准，从收敛性、吞吐量、BLER、能量效率等维度开展性能评估。

结论

本文提出了一种智能的高能效链路自适应算法，实现了传输功率水平与调制编码方案（MCS）的联合决策。该算法引入深度强化学习（DRL）智能体，以CQI历史序列为状态、MCS与传输功率的组合为动作，结合历史传输信息匹配信道条件与链路参数（调制阶数、编码率、传输功率），实现了链路参数的动态适配。仿真结果表明，该算法能根据信道条件灵活调整链路参数，在提升能量效率的同时，同步改善了链路吞吐量，解决了传统方法仅优化单一参数、适配性差的问题。

未来研究可进一步将子载波间隔、系统MIMO阶数等更多链路参数纳入链路自适应手段，同时考虑用户设备的服务质量（QoS）需求，让链路自适应算法更贴合实际5G及后5G网络的复杂应用场景。

查看全文

http://www.jsqmd.com/news/392401/