当前位置：首页 > news >正文

从Max-Log-MAP到DS-LSOVA：Turbo解码器的算法革新与硬件架构优化

news 2026/7/22 7:28:18

1. 项目概述：面向未来的高效Turbo解码器设计

在无线通信的物理层，前向纠错（FEC）技术是确保数据在嘈杂信道中可靠传输的基石。Turbo码自诞生以来，因其卓越的性能和灵活的码率，长期占据着LTE等标准的核心地位。然而，随着5G向6G演进，以及机器对机器（M2M）、车联网（V2X）等新应用场景的涌现，对解码器的吞吐量、延迟和能效提出了近乎苛刻的要求。传统的最大后验概率（MAP）类算法，虽然性能优异，但其内在的递归计算和数据依赖特性，严重制约了硬件并行化的潜力，成为提升吞吐量的主要瓶颈。

面对这一挑战，单纯优化算法或硬件架构往往收效有限。真正的突破点在于软硬件的协同设计与深度优化。这就像为一座复杂的工厂设计生产线，不仅要改进单个机器的效率（算法），更要重新规划整个物料流转和工序衔接的流程（架构与调度），才能实现整体产能的飞跃。本文要探讨的，正是这样一个从算法革新到架构创新的完整解决方案。我们聚焦于两个核心技术：一是双面局部软输出维特比算法（DS-LSOVA），它从算法层面大幅简化了外信息计算这一关键步骤的复杂度；二是迭代重叠交织器，它从架构层面重构了数据流，使得解码流水线中的前后半迭代能够无缝衔接、并行工作。两者的结合，旨在为下一代高吞吐、低延迟通信系统打造一颗更强劲、更高效的“纠错心脏”。

无论你是从事通信基带算法设计的工程师，还是专注于高性能数字电路实现的架构师，亦或是关注前沿编码技术的研究者，这篇文章都将为你提供一个从理论原理到硬件实现细节的完整视角。我们将深入拆解DS-LSOVA如何巧妙地重构计算路径以降低复杂度，剖析迭代重叠交织器如何通过精心设计消除数据依赖以实现真正的流水线满载，并最终展示这些创新如何在22纳米工艺下转化为高达22%的面积效率提升。这是一次对Turbo解码器性能边界的实质性推进。

2. 核心算法演进：从Max-Log-MAP到DS-LSOVA

要理解DS-LSOVA的价值，我们必须先回到Turbo解码的核心战场。传统上，Max-Log-MAP（MLM）算法因其在性能和复杂度间的良好平衡而被广泛采用。它通过在码网格图（Trellis）上进行前向（α）和反向（β）递归计算，并结合分支度量（γ），最终计算出每个比特的后验概率对数似然比（LLR）。这个过程虽然被高度优化，但其计算外信息（即两个分量译码器之间交换的软信息）的部分，仍然涉及大量的比较、选择和加法操作，尤其是在高基数（Radix-2^r）解码时，复杂度会显著上升。

2.1 Local-SOVA（LSOVA）的破局思路

LSOVA算法的提出，是一次计算范式的重要转变。它不再严格遵循MLM那种基于网格状态（State）的递归计算框架，而是转向基于路径（Path）的合并操作。你可以把MLM看作是在网格的每个节点上，精确计算到达该节点的最优路径度量；而LSOVA则是在一小段网格（例如，跨越k步）上，同时维护多条候选路径及其可靠性信息。

LSOVA将一段网格上的解码过程，抽象为对多个路径对象的“合并”（Merge）操作。每条路径包含三个要素：路径度量值（M，代表该路径的优劣）、硬判决序列（u，代表这段网格对应的解码比特）、以及可靠性向量（L，代表每个硬判决比特的可靠程度）。核心的“合并”操作接收两条路径，输出一条新路径，其规则是：新路径的度量值取两者中的最大值（即更优的路径），硬判决序列继承自获胜路径，而可靠性值则根据Hagenauer规则或Battail规则进行更新。这个合并操作的关键特性是满足交换律和结合律，这意味着合并的顺序可以灵活安排，为硬件优化打开了大门。

通过巧妙的计算重排，LSOVA将操作分为两个阶段：加-比-选（ACS）阶段和软输出单元（SOU）阶段。在ACS阶段，它将终点状态相同的路径先行合并，这个操作可以隐式地完成前向状态度量（α）的计算。经过ACS阶段后，每个网格状态只剩下一条最优路径。随后，在SOU阶段，这些来自不同状态的路径再被进一步合并，最终产生软输出。由于ACS阶段已经完成了大量规约，SOU阶段需要处理的路径数量仅与卷积码的约束长度（ν）有关，而与解码的基数（Radix）无关，这相比MLM是一个显著的复杂度降低。

2.2 DS-LSOVA：双向计算的精妙平衡

DS-LSOVA在LSOVA的基础上更进一步。LSOVA的路径合并主要发生在反向度量计算过程中，用于生成软输出。DS-LSOVA的核心思想是：既然我们已经构建了一个用于合并路径的比较树，何不物尽其用，让它同时服务于前向和反向两个方向的计算？

具体来说，DS-LSOVA修改了ACS阶段的合并规则。它不再在每次合并中都更新全部的可靠性值（L）和硬判决（u），而是采用了一种交替更新的策略。在偶数步（或根据设计，在特定的方向）的前向ACS合并中，计算并更新一部分比特的可靠性和判决；在奇数步（或另一方向）的反向ACS合并中，计算并更新剩余部分。这样，从整体计算量上看，ACS阶段的复杂度与LSOVA保持持平。

真正的增益体现在SOU阶段。在LSOVA中，SOU需要处理来自ACS阶段的一条“获胜”路径。而在DS-LSOVA中，SOU同时接收来自前向ACS和反向ACS的两条“获胜”路径。它将这两条路径的度量值相加，并将它们的硬判决向量和初步可靠性向量拼接起来，形成一条跨越了两倍网格步长的“扩展路径”。然后，它在这个扩展的路径集合上，执行与LSOVA类似的树状合并操作。虽然合并的层数（由ν决定）没有减少，但一次SOU操作同时完成了传统上需要两次计算（分别对应前向和反向贡献）才能完成的外信息生成工作。

注意：这里的“双向”并非指同时进行完全独立的前向和反向解码，而是指在单次SOU计算中，同时利用了前向和反向递归过程中产生的路径信息。这种设计避免了为两个方向分别构建独立的SOU比较树，从而减少了硬件中比较器单元的总数量。

这种设计带来的直接好处是硬件面积的节约。由于SOU是解码器中的关键计算单元，其数量的减半（相比于为每个网格步配置独立SOU的传统MLM架构）能带来显著的面积收益。更重要的是，这种面积节省是在不牺牲解码性能的前提下实现的。论文中的仿真结果表明，DS-LSOVA的误帧率（FER）性能与传统的Max-Log-MAP算法基本吻合，这对于追求极致能效的硬件设计而言，是一个极具吸引力的权衡。

3. 架构创新：迭代重叠交织器与全流水线调度

算法优化解决了计算单元内部的效率问题，而要进一步提升整个解码系统的吞吐量和降低延迟，就必须在系统架构和数据调度上下功夫。传统的全流水线迭代展开（UXMAP）解码器架构，通过实例化多个半迭代（HI）流水线级来实现高通量，但半迭代之间由于存在交织（Interleaving）和解交织（De-interleaving）操作，会引入数据依赖和流水线气泡（Bubble）。

3.1 迭代重叠的核心挑战与思路

在UXMAP解码器中，一个帧被分成多个窗口（Window）并行处理。第j个半迭代（HI_j）产生的用于下一个半迭代（HI_{j+1}）的外信息（Extrinsic Information），必须经过交织器重新排序后才能被HI_{j+1}使用。由于交织器的置换特性，某个比特i的外信息在HI_j中产生的时刻（生成时间，G_UX(i)），可能晚于它在HI_{j+1}中被需要的时刻（消费时间，C_UX(i)）。这就产生了先写后读（Read-After-Write）冲突，为了满足这个时序约束，架构中不得不插入延迟寄存器（Delay Line）来对齐数据，导致流水线无法满负荷运转，增加了整体解码延迟。

迭代重叠（Iteration Overlap）的目标就是消除这些延迟，让HI_{j+1}在HI_j完成整个窗口处理之前就能开始工作，实现真正的“背靠背”流水。这要求交织器的设计必须满足特定的前驱约束（Precedence Constraint）：对于所有比特位置i，其在HI_{j+1}中的消费时间必须不早于在HI_j中的生成时间，即 C_UX(i) - G_UX(i) >= 0。

3.2 基于图样（Protograph）的ARP交织器设计

为了实现这一目标，论文采用了几乎规则置换（ARP）交织器，并引入了一种基于图样（Protograph）的设计方法。ARP交织器的置换规则由三个参数定义：一个与帧长K互质的整数P，一个移位向量S，和一个无序度Q。其索引映射公式为：Π_ARP(i) = (P * i + S(i mod Q)) mod K。

这里的核心是将交织器操作“分层”。将帧中的比特划分为Q个层（Layer），每层包含K/Q个比特。ARP交织器的特性保证了，在交织前后，比特所在的层号之间存在一个确定的映射关系。这个层与层之间的连接关系，可以用一个二分图（Bipartite Graph）来表示，这就是所谓的“图样”。

论文的创新在于，将迭代重叠所需的前驱约束（公式22）嵌入到这个图样的设计过程中。具体方法是，将图样中的层数Q设置为等于UXMAP解码器的窗口大小WS。然后，在搜索和优化ARP参数（P, S）时，强制要求：对于每一层l，其在交织后映射到的层号（Π(l) mod Q）必须大于或等于其原始层号（l mod Q）。这个条件直观上保证了，一个比特在非交织半迭代（HI_j）中，总是先于其在交织半迭代（HI_{j+1}）中所对应的位置被处理完毕，从而满足了前驱约束，使得外信息可以“生产即消费”，无需等待。

3.3 重叠架构带来的硬件收益

当使用这种特制的“重叠交织器”时，UXMAP解码器的硬件架构可以得到简化。在非重叠架构中，每个X-Window（处理一个窗口的计算单元）的输入和输出都需要配备延迟线，以协调交织带来的时序错位。而在重叠架构中，除了第一个HI的输入和最后一个HI的输出仍需少量延迟用于帧同步外，中间所有HI级之间的延迟线都可以被移除。HI_j的X-Window输出，可以直接通过硬连线的交织/解交织网络，送入HI_{j+1}的X-Window输入。

这种移除带来了双重好处：一是降低了解码延迟，因为数据在流水线中流动得更快；二是减少了硬件面积，因为大量的寄存器（用于实现延迟线）被节省下来。面积节省直接转化为更高的面积效率（Throughput per mm²）。论文的实现结果表明，启用迭代重叠后，在不同配置下能带来6%到11.5%的面积效率提升。

实操心得：设计重叠交织器时，需要在“重叠能力”和“交织器随机性”之间进行权衡。为了满足严格的前驱约束，交织器的设计自由度会受到限制，这可能会轻微影响其搅乱比特顺序、打破错误图案的能力，从而对纠错性能产生微小影响。论文中在窗口大小WS=32、帧长K=128的配置下观察到了约0.25 dB的性能损失。因此，在实际系统设计中，需要根据目标帧长、窗口大小和可接受的性能损失来谨慎选择交织器参数。对于较大的帧长，这种约束对随机性的影响通常会更小。

4. 硬件架构实现细节与设计折衷

将DS-LSOVA算法与迭代重叠架构相结合，需要精心设计相应的硬件模块。图6（b-d）清晰地展示了基于MLM、LSOVA和DS-LSOVA的X-Window架构差异，这些差异直接反映了算法特性在硬件上的映射。

4.1 各算法对应的X-Window架构剖析

MLM基准架构（图6b）：这是传统的、非重叠的参考设计。每个网格步（Trellis Step）包含独立的前向递归单元、反向递归单元和软输出计算单元。为了在一个滑动窗口内同时进行前向和反向计算，并避免在窗口内传递分支度量，架构中实例化了两个分支度量计算单元。此外，图中标为（1）和（2）的流水线段是关键的延迟单元。（1）用于在窗口内部传递和同步信道LLR、外信息和状态度量；（2）则用于在X-Window的输入/输出端对齐数据，以应对交织带来的时序问题。这些延迟是满足非重叠调度所必需的。

LSOVA架构（图6c）：它在MLM架构的基础上修改而来。主要变化发生在窗口的右半部分（反向递归部分），这里的递归单元被替换为LSOVA特有的ACS单元。同时，软输出单元也替换为基于路径合并的LSOVA SOU。我们在之前的工作[12]中已经证实，LSOVA的计算单元（ACS和SOU）相比等价的MLM单元（状态度量计算和LLR计算）能节省可观的面积。因此，本实现直接采用了那些经过优化的LSOVA计算单元IP。

DS-LSOVA架构（图6d）：这是本文提出的新架构。其最显著的特征是前向和反向递归单元采用了交替结构——一部分是LSOVA ACS单元，另一部分是传统的MLM递归单元。这是因为DS-LSOVA算法要求在前向和反向ACS中交替更新可靠性信息。另一个关键区别在于，图中标为（1）的流水线所承载的数据类型发生了变化。在MLM和LSOVA中，这些流水线传递的是状态度量（α， β）；而在DS-LSOVA中，它们传递的是完整的路径信息三元组（M， L， u），因为后续的SOU需要这些信息来进行双向路径合并。最大的面积节省来源于SOU数量减半。由于一个DS-LSOVA SOU能同时处理前向和反向的信息，因此只需要配置传统数量一半的SOU实例即可。

4.2 重叠架构的硬件简化

当为重叠调度设计解码器时，硬件可以得到进一步简化。如图4(b)所示，在完全重叠的情况下，HI_{j+1}几乎紧跟着HI_j开始。此时，图6中所有X-Window的输入/输出延迟线（即标为（2）的部分）都可以被移除。第一个HI的输入仍需缓冲以接收完整的帧数据，最后一个HI的输出也需要缓冲以输出最终硬判决，但中间所有HI级之间，外信息和信道值可以直接从一个X-Window输出，经过交织网络，直接馈入下一个X-Window的输入。然而，窗口内部用于同步状态/路径度量、信道值和内/外信息的流水线（标为（1）的部分）仍然需要保留，因为它们用于窗口内部的滑动计算。

这种简化直接转化为芯片面积的减少。移除这些全局的延迟寄存器阵列，对于包含多个HI级的高并行度解码器来说，面积节省是非常可观的。

4.3 设计中的关键权衡与选择

在实际实现中，需要根据系统需求做出多项权衡：

窗口大小（WS）与帧长（K）的选择：WS越大，并行度越高，理论上吞吐量越大。但WS增大会带来两个问题：一是每个X-Window的内部逻辑更复杂，面积更大；二是如前所述，对于固定的K，更大的WS会给重叠交织器的设计带来更严格的约束，可能损害交织器的随机性和最终的纠错性能。因此，WS通常选择为K的约数，并且需要仿真验证在目标信噪比下的FER性能。
基数（Radix）的选择：高基数（如Radix-4， Radix-8）解码能减少处理一个帧所需的时钟周期数，从而降低延迟。但高基数意味着每个时钟周期要处理更多的网格分支，计算单元（如ACS）的复杂度会呈指数增长，显著增加关键路径延迟和面积。因此，在追求高时钟频率的设计中，Radix-4是一个常用的平衡点。论文中的所有实现均基于Radix-4。
算法选择：MLM vs. LSOVA vs. DS-LSOVA：
- MLM：成熟、性能稳定，是可靠的基准，但计算复杂度最高。
- LSOVA：在保持与MLM相近性能的前提下，通过算法重构降低了SOU的复杂度，适合作为降低面积的直接替代方案。
- DS-LSOVA：在LSOVA的基础上，通过复用计算资源进一步优化面积，是追求极致面积效率时的优选。但其架构稍显复杂（交替的递归单元），且性能需要在具体配置下仔细验证。

5. 性能评估与结果分析

论文在22纳米工艺节点上，使用Synopsys Design Compiler对上述多种架构组合进行了综合，以评估其面积效率。表3汇总了关键结果，我们可以从中得出几个核心结论。

5.1 面积效率的综合对比

首先看算法层面的对比。在相同的帧长（K=128）和窗口大小（WS=16）配置下，DS-LSOVA相比基准的MLM实现了约17%的面积节省。这充分证明了DS-LSOVA在降低计算复杂度方面的有效性。LSOVA作为中间方案，其面积效率也优于MLM，但略逊于DS-LSOVA（约3%的差距）。值得注意的是，当窗口大小增大到WS=32时，DS-LSOVA相对于LSOVA的面积优势变得非常微小（甚至略有劣势）。这可能是因为在更大的窗口下，DS-LSOVA中用于传递完整路径信息的内部流水线（图6d中的(1)）开销增大，抵消了SOU数量减半带来的收益。

其次看重叠架构带来的收益。在所有算法（MLM， LSOVA， DS-LSOVA）和配置下，启用迭代重叠后，面积效率均有提升，提升幅度从6%到11.5%不等。这清晰地表明，通过定制交织器消除流水线气泡，是一种非常有效的硬件优化手段。

最强的组合出现在DS-LSOVA与迭代重叠的结合上。以K=128， WS=16的配置为例，采用重叠架构的DS-LSOVA解码器，相比非重叠的基准MLM解码器，实现了高达22%的面积效率提升。这意味着在相同的芯片面积下，新设计的解码器能提供高出22%的吞吐量；或者说，在满足相同吞吐量需求时，可以节省22%的芯片面积。这对于面积敏感的移动设备或需要集成大量解码器核心的基站芯片来说，价值巨大。

5.2 纠错性能验证

任何硬件优化都不能以牺牲核心的纠错能力为代价。图5的误帧率（FER）曲线提供了性能保证。可以看到：

DS-LSOVA vs. MLM：在相同的交织器（无论是LTE标准QPP交织器还是论文设计的重叠交织器）和迭代次数下，DS-LSOVA的FER曲线与MLM几乎完全重合。这从根本上证明了DS-LSOVA算法在性能上是MLM的可行替代品，其面积优化没有付出性能代价。
重叠交织器 vs. LTE QPP交织器：对于WS=16的配置，论文设计的重叠交织器与LTE标准交织器性能完全一致。对于WS=32， K=128的配置，重叠交织器在FER=10^-4处出现了约0.25 dB的损失。正如前文所分析的，这是由于在较小的帧长下，为了满足严格的重叠约束，交织器的设计自由度受限，导致其随机性略有下降。对于更大的帧长（如K=256），这种性能损失预计会减小或消失。

5.3 对实际系统设计的启示

这些结果对面向5G-Advanced/6G、M2M、V2X的系统设计具有明确的指导意义：

对于超高吞吐量场景（如基站接收机）：应优先考虑采用DS-LSOVA算法与迭代重叠架构的组合，并选择适当的窗口大小（如WS=16）。这能在保证与标准算法同等纠错能力的前提下，最大化硬件资源利用率，应对Tb/s量级的解码需求。
对于面积和能效极度敏感的场景（如物联网终端）：LSOVA是一个稳健的选择，它在算法复杂度和硬件实现复杂度之间取得了很好的平衡，且已被证明具有可靠的性能。
交织器选择：如果系统延迟要求极高，必须采用重叠调度，那么就需要使用定制的重叠交织器。在设计时，需要根据帧长和性能目标，通过仿真确定可接受的窗口大小WS，以平衡重叠带来的硬件收益与可能存在的微小性能损失。如果延迟要求不那么苛刻，使用成熟的QPP等标准交织器是更简单安全的选择。

这项工作的价值在于它提供了一套完整的、经过硬件验证的优化工具箱。从算法（DS-LSOVA）到调度（迭代重叠），再到交织器设计（基于图样的ARP），最后到具体的硬件架构实现，形成了一条贯穿软硬件的协同优化路径。它证明了，通过深度的跨层设计，即使是被认为难以并行的Turbo解码，依然能在新一代通信系统中焕发强大的生命力。

查看全文

http://www.jsqmd.com/news/898647/