当前位置：首页 > news >正文

StarCore DSP上判决反馈均衡器(DFE)的定点实现与优化

news 2026/6/8 14:37:16

1. 项目概述：在StarCore DSP上实现高效判决反馈均衡器

在数字通信接收机的设计里，信道均衡是个绕不开的坎。信号在传输过程中，会因为多径效应、带宽限制等因素产生码间干扰，导致接收端判断符号时出错。对于高阶调制，比如64QAM甚至更高，或者信道记忆比较长的场景，传统的线性均衡器往往力不从心，性能损失明显。这时候，判决反馈均衡器就派上用场了。它本质上是一个非线性均衡器，通过一个前馈滤波器处理当前和未来的符号，再用一个反馈滤波器利用已经判决出的过去符号来消除残留干扰，这种结构在对抗深度衰落和长拖尾信道时特别有效。

这次我们要聊的，是如何在飞思卡尔的StarCore系列DSP上，高效地实现一个基于最小均方误差准则的判决反馈均衡器。StarCore DSP，尤其是像SC140这样的核心，以其多ALU和高效的乘累加单元著称，天生就适合做FIR滤波这类信号处理任务。但把理论算法搬到定点DSP上，可不是简单照搬公式就行。你得考虑有限字长效应、计算精度、还有如何在保证性能的前提下把代码优化到极致，毕竟通信系统对实时性要求极高。本文会基于一份经典的飞思卡尔应用笔记，结合我自己的工程实践，拆解从信道冲击响应到DFE系数生成的全过程，重点分享那些在芯片上写代码才会遇到的“坑”和优化技巧。

2. DFE核心原理与StarCore DSP的适配性分析

2.1 判决反馈均衡器为何是优选方案

判决反馈均衡器的结构决定了它的优势。前馈滤波器通常是因果的，处理当前和未来有限个采样点；反馈滤波器则是非因果的，利用已经做出的可靠判决来抵消由过去符号引起的码间干扰。这种结构带来两个核心好处：首先，它避免了噪声增强。线性均衡器在试图压制ISI时，往往会同时放大信道噪声，尤其是在信道频谱有深衰落的频点。DFE的反馈路径只处理已判决的“干净”符号，不包含噪声，因此不会放大噪声。其次，对于具有长拖尾冲击响应的信道，要完全用线性均衡器消除ISI需要非常长的抽头，计算量巨大。DFE用反馈路径来对付拖尾，可以用相对短的前馈滤波器达到相近的性能，计算效率更高。

当然，DFE也有它的阿喀琉斯之踵：错误传播。一旦反馈环路中的某个符号判决错误，这个错误会通过反馈滤波器影响后续多个符号的判决，形成连锁反应。因此，DFE的性能非常依赖于初始判决的可靠性。在实际系统中，通常会结合信道编码或采用自适应算法来缓解这个问题。但对于许多宽带通信系统，在信噪比不是极端恶劣的情况下，DFE带来的性能增益远大于错误传播的风险。

2.2 StarCore SC140核心的架构优势

为什么选择StarCore SC140来实现DFE？这得从它的硬件架构说起。SC140是一个VLIW架构的DSP核心，集成了四个算术逻辑单元。这意味着在单周期内，它可以并行执行多个操作。对于DFE的核心运算——FIR滤波来说，这简直是量身定做。FIR滤波的本质是乘累加，而SC140的多个ALU可以同时处理多个抽头的乘法和累加，结合其强大的数据寻址能力和零开销循环机制，可以实现极高的吞吐率。

更重要的是，SC140支持“多采样”技术。这不是指提高ADC采样率，而是在处理复数信号时的一种优化策略。一个复数的乘加运算需要四次实数乘法和两次加法。通过巧妙的指令调度和数据排列，SC140可以在一个循环内核中同时处理多个数据样本的实部和虚部运算，将硬件并行性发挥到极致。这对于需要同时更新前馈和反馈滤波器系数的自适应DFE算法，或者像我们这里要实现的、基于批量计算的MMSE-DFE系数求解，都能带来显著的加速比。

2.3 从MMSE准则到可实现的DSP算法

理论上的MMSE-DFE系数求解，最终会归结为一个维纳滤波问题，并涉及到对一个自相关矩阵的求逆。直接进行矩阵求逆，尤其是复数矩阵求逆，计算复杂度是O(N^3)，在实时性要求高的DSP上几乎是不可接受的。因此，工程上广泛采用基于Cholesky分解的求解方法。

其核心思想是进行谱分解。通过Cholesky分解，将信道自相关矩阵分解为一个下三角矩阵L及其共轭转置L^H的乘积。这个下三角矩阵L的最后一列（经过适当缩放后），就直接对应了反馈滤波器的系数。而前馈滤波器的系数，则可以通过一个前向替换的过程快速求得。整个算法避免了显式的矩阵求逆，将计算复杂度降到了可管理的水平，非常适合在StarCore这类DSP上实现。

然而，算法中有一个关键步骤：计算平方根倒数。在求解过程中，需要对L矩阵对角线元素求平方根倒数来进行归一化。这个操作在浮点处理器上只是一条指令，但在定点DSP上却是一个需要精心设计和优化的函数。输入输出都是Q格式的定点数，既要保证精度，又要追求速度，这正是体现DSP编程功力的地方。

3. 核心算法实现：Cholesky分解与系数求解

3.1 信道自相关矩阵的构建与定点化

一切始于信道估计。假设我们通过训练序列得到了信道的离散冲击响应，比如长度为5的复数序列：h = [(-0.5251 -0.4487i), (0.0953 –0.2673i), (–0.2129 -0.0084i), (–0.3605 -0.2713i), (0.1874 -0.3487i)]。我们的目标是设计一个抽头数为(Nf, Nb)的DFE，即前馈滤波器有Nf个抽头，反馈滤波器有Nb个抽头。

首先，需要构建一个扩展的信道卷积矩阵H。这个矩阵的维度是 (Nf + ν - 1) x Nf，其中ν是信道长度。矩阵的每一列是信道向量h的移位版本。然后，根据MMSE准则，我们需要计算输入信号的自相关矩阵Ryy = H * H^H + σ^2 * I，其中σ^2是噪声方差，I是单位阵。这个Ryy矩阵是埃尔米特正定矩阵，是Cholesky分解的对象。

注意：定点化策略这是第一个关键点。h中的数值是浮点数，必须转换为定点数才能被DSP处理。我们需要确定一个全局的Q格式（例如Q15）。转换时，要确保所有信道系数的绝对值都小于1，否则会溢出。有时需要对h进行整体缩放。缩放因子需要在后续计算中记录下来，并在最终得到滤波器系数时进行补偿，以确保系统增益正确。

3.2 Cholesky分解的定点实现

Cholesky分解的定点实现，需要特别注意数值稳定性。分解过程是一个递归计算：

对于 i = 1 to n: L(i, i) = sqrt( R(i, i) - Σ_{k=1}^{i-1} |L(i, k)|^2 ) 对于 j = i+1 to n: L(j, i) = ( R(j, i) - Σ_{k=1}^{i-1} L(j, k) * conj(L(i, k)) ) / L(i, i)

这里最大的挑战在于开方和除法运算。开方运算我们后面有专门的优化函数。而除法除以L(i, i)，在定点运算中通常转化为乘以 1/L(i, i)。这就是为什么平方根倒数计算如此重要——我们需要的不是sqrt(x)，而是1/sqrt(x)。

在实现时，中间累加和Σ |L(i, k)|^2和Σ L(j, k) * conj(L(i, k))可能会累加出很大的值，超出定点数的表示范围。因此，通常采用块浮点或动态缩放策略。例如，在每次内积计算后，检查结果是否接近溢出，如果接近，则对当前行所有已计算的L系数进行右移（缩小），并记录缩放指数。这个指数会在后续计算平方根倒数时被用到。

3.3 最优判决时延的搜索

一个容易被忽略但至关重要的步骤是确定最优判决时延Δ。理论上，Δ可以是0到Nf-1之间的任意整数。不同的Δ对应着从L矩阵中选取不同的列来生成反馈系数。选择不同的Δ，均衡器输出的信噪比会有所不同。

工程上常用的方法是：在完成Cholesky分解后，检查L矩阵最后Nb+1行的对角线元素。对应不同Δ的列，其反馈滤波器系数由L矩阵的某一列经过缩放得到。我们需要计算每一个候选Δ所对应的均衡器输出信噪比（或均方误差），然后选择使SNR最大的那个Δ作为最优时延。

在SC140上实现这个搜索，可以避免计算所有可能的SNR值。观察发现，最优的Δ通常是连续出现的。也就是说，如果Δ=k是最优的，那么Δ=k+1很可能也是次优的。因此，我们可以通过比较少数几个候选Δ的性能来快速确定。在一些对复杂度极其敏感，且信道特性允许的系统中，甚至可以直接假设最优时延为Nf-1，从而省去搜索步骤，这对于(8,4)这样的DFE结构能节省可观的周期数。

4. 关键模块深度优化：平方根倒数计算

4.1 算法选择：为何不用查表法

在定点DSP上计算平方根倒数，常见的方法有查表法、牛顿迭代法和近似多项式法。查表法速度最快，但精度和动态范围是一对矛盾。要覆盖16位定点数的全部范围并保证精度，需要的ROM表会非常大，在资源受限的嵌入式系统中不划算。牛顿迭代法精度高，但每次迭代包含多次乘法和加法，循环次数多，总周期数未必少。

这里采用的是一种基于位操作和多项式逼近的混合方法，它非常适合于StarCore这种具有桶形移位器和高效乘法单元的DSP。其核心思路是利用CLB（计算前导零）指令快速估计输入数的量级（即浮点数中的指数部分），然后通过一个缩放操作将输入归一化到一个较小的区间内，再在这个区间上用低阶多项式进行近似计算。最后，将结果缩放回去。这种方法在精度和速度之间取得了很好的平衡。

4.2 代码逐行解析与优化技巧

让我们结合提供的汇编代码片段，深入理解这个sqrt_and_invsqrt例程。这个函数同时计算sqrt(x)和1/sqrt(x)，非常高效。

section .text local global sqrt_and_invsqrt sqrt_and_invsqrt type func push d1 push d8 ; 保存现场，d1和d8在后续计算中会被用到 clb d0, d2 ; d0 = 输入值v，clb指令计算d0的前导零数量，结果存入d2。这是关键一步，用于确定缩放因子。 tfr d0, d4 ; 将原始输入v备份到d4，后续计算sqrt(v)时会用到。 and #$0000fffe, d2, d2 ; 这是一个巧妙的技巧。将缩放因子d2强制变为偶数。例如，如果clb结果是3，与操作后d2变为4。 asrr d2, d0 ; 将输入v右移d2位，相当于将其归一化到[0.25, 1)的区间内。这是多项式逼近精度最高的区间。 asrr #2, d0 ; 再右移2位，相当于乘以0.25。此时d0成为多项式迭代的初始输入x（缩放后的）。 move.f #.75, d1 ; 初始化迭代变量Ui = 0.75。0.75是1/sqrt(x)在x=0.44附近的一个很好的初始估计值。 tfr d1, d3 ; 将常数0.75保存到d3，后续迭代中固定使用。 dosetup3 loop1 doen3 #6 ; 设置硬件循环，迭代6次。6次迭代对于Q15精度通常足够了。

核心技巧：强制偶数量级and #$0000fffe, d2, d2这行代码是精髓。CLB得到的缩放因子可能是奇数。强制为偶数后，后续的缩放（asrr d2）和反缩放（asll d2）可以精确地用移位完成，避免了复杂的分数缩放运算，保证了定点运算的可逆性，最大程度减少了精度损失。

迭代循环是算法的核心，基于牛顿-拉弗森方法变形而来，用于求解y = 1 / sqrt(x)：

loop1: clb d1, d10 ; 计算当前估计值Ui的量级（前导零） asrr d10, d1 ; 将Ui归一化，防止后续乘法溢出 [ mpy d1, d1, d5 ; d5 = Ui * Ui mpy d1, d0, d6 ; d6 = Ui * x (x是缩放后的输入0.25*v) mpy d3, d1, d7 ] ; d7 = 0.75 * Ui add d10, d10, d11 ; d11 = 2 * scale_for_Ui mpy d5, d6, d6 ; d6 = Ui^2 * (Ui * x) = Ui^3 * x inc d10 ; d10 = scale_for_Ui + 1 asll d11, d6 ; 将d6左移d11位，补偿之前对Ui的归一化操作 sub d6, d7, d1 ; d1 = 0.75*Ui - (x * Ui^3) 这就是牛顿迭代公式：U_{i+1} = Ui * (1.5 - 0.5 * x * Ui^2) asll d10, d1 ; 将新的估计值U_{i+1}缩放回去 tfr d1, d9 ; 备份当前最好的估计值到d9 loopend3

迭代结束后，d9中存储了1/sqrt(归一化后的v)的高精度估计值。

4.3 结果反缩放与精度保障

循环结束后，我们需要将结果从归一化区间映射回原始范围：

asrr #1, d2 ; d2 = 原缩放因子 / 2。因为 sqrt(v) = sqrt(归一化值) * 2^(d2/2) mpy d9, d4, d0 ; d0 = (1/sqrt(v)) * v = sqrt(v) （这里d4是原始的v） asrr d2, d1 ; d1 = 1/sqrt(v) 右移d2/2位，得到最终1/sqrt(v) asll d10, d0 ; 调整sqrt(v)的缩放因子（此处的d10是循环结束后的值，需要注意） asrr d2, d0 ; d0 = sqrt(v) 右移d2/2位，得到最终sqrt(v) tfr d1, d4 ; 通常将1/sqrt(v)放入d4返回，sqrt(v)放入d0返回 pop d8 pop d1 rts

实操心得：寄存器的力量应用笔记的结论部分强调了一点：将中间结果（比如这里计算中的1/sqrt(x)）保存在数据寄存器中，而不是写回16位的内存，能极大提升算法精度。这是因为StarCore的数据寄存器是40位宽的（32位数据+8位保护位），而内存访问通常是16位或32位。在迭代计算中，将中间变量保留在寄存器中，相当于在DSP内部保持了更高的计算精度（类似扩展精度），只有最终结果才量化到16位输出。这个细节对整体DFE系数的精度影响显著。

5. 滤波器系数的提取与系统集成

5.1 从L矩阵到前馈与反馈系数

经过Cholesky分解和最优时延Δ搜索后，我们得到了下三角矩阵L。反馈滤波器系数b的提取相对直接。假设最优时延为Δ，则反馈系数对应于L矩阵第(Δ+1)列的最后Nb个元素，并需要取共轭。这是因为推导过程中，反馈滤波器是用于消除因果干扰的部分，其系数与L矩阵的列元素共轭对应。

具体操作是：设col = L(:, Δ+1)，取col的最后Nb个元素构成向量b_tmp，然后对b_tmp的每个元素取共轭，并除以col(Δ+1)（即该列对角线元素）进行归一化，最终得到单位主抽头的反馈系数b = conj(b_tmp) / col(Δ+1)。

前馈滤波器系数w的计算则需要一个前向替换的过程。我们需要解一个线性方程组：L * u = h_δ，其中h_δ是信道向量h经过时延Δ对齐后形成的向量。由于L是下三角矩阵，这个方程可以通过前向替换快速求解。求解出u后，前馈系数w = u / sqrt(ξ)，其中ξ是计算过程中得到的一个最小均方误差相关的标量因子，它的计算也涉及到我们之前优化的平方根运算。

5.2 系数共轭的重要性与实现

一个必须警惕的细节是：从DSP计算出的反馈滤波器系数，在加载到实际的反馈滤波器单元之前，必须取共轭。这一点在应用笔记的结果部分被特别指出。这是因为在大多数DFE的数学推导中，反馈滤波器的输入是判决后的符号â(n-1), â(n-2), ...，而滤波器系数是b1, b2, ...，输出是Σ bi * â(n-i)。然而，在基于Cholesky分解的谱因子化算法中，直接推导出的系数是用于匹配信道共轭特性的。如果不进行共轭操作，反馈滤波器将无法正确抵消ISI。

在StarCore上实现复数共轭非常简单，对于一个复数a + jb存储在实部虚部相邻的内存中，取共轭只需要将虚部读取后求负即可。但关键是要记得做这一步。我曾在早期调试中忽略此事，导致均衡器性能始终与理论值有较大偏差，排查了很久才发现是这个原因。

5.3 性能评估：Matlab与DSP结果对比

完成所有系数计算后，必须进行验证。应用笔记中给出了一个典型的对比图（对应于我们之前给出的信道冲击响应，SNR=20dB）。我们将Matlab双精度浮点计算出的理论系数，与SC140 DSP上16位定点计算出的系数进行对比。

对比主要看两个方面：一是系数值的幅度和相位是否在允许的误差范围内。对于16位定点算术（Q15格式），量化步长是1/32768 ≈ 3e-5。由于计算过程中有多步乘加和缩放，最终系数的误差通常在1e-3到1e-4量级，这对于大多数通信系统来说是完全可以接受的。二是看由这些系数构成的前馈和反馈滤波器的频率响应。将DSP计算出的系数导入Matlab，画出频率响应曲线，应该与理论曲线基本重合。特别是在信道衰减较大的频点，两者的补偿特性应该一致。

这种一致性验证是信心的保证。它证明了我们从定点化策略、Cholesky分解、平方根倒数计算到系数提取的整个工具链是正确的，精度是足够的。

6. 工程实现中的关键问题与调试技巧

6.1 定点运算的溢出与精度管理

这是DSP编程永恒的主题。在DFE系数计算中，溢出可能发生在多个环节：

信道自相关计算：Ryy = H*H^H + σ^2*I。H矩阵的元素是信道冲击响应，其自相关值可能很大。必须确保在计算H*H^H的每个元素时，使用足够长的累加器（如StarCore的40位累加器），并在存储回内存前进行饱和与舍入处理。
Cholesky分解中的内积：计算Σ |L(i, k)|^2时，即使单个L元素小于1，多个平方值累加也可能超过1。必须采用块浮点或动态缩放。一个实用的策略是，在计算每一行i的对角线元素之前，检查累加和是否超过某个安全阈值（如0.25），如果超过，则将当前行所有已计算的L(i, k)(k < i) 右移1位（除以2），并记录总的缩放因子。
平方根倒数函数的输入范围：我们的sqrt_and_invsqrt函数假设输入是正数且经过了适当的缩放。在调用前，必须确保传递给它的R(i,i) - sum结果是正数。由于定点误差，理论上应为正数的结果可能计算为微小的负数。必须在调用前加一个保护：如果输入值小于一个极小正数（如1e-7对应的Q15值），则直接返回一个大的常数（对应1/sqrt(极小值)），并标记该信道状态可能极差。

6.2 存储与内存访问优化

SC140有多个数据算术单元，但内存带宽可能成为瓶颈。优化内存访问模式对提升整体性能至关重要。

数据对齐：确保数组起始地址是8字节对齐。这允许使用双字加载指令（如move.2l）一次性加载两个32位数据，充分利用总线带宽。
使用循环缓冲区和位反转寻址：对于FIR滤波操作，这能高效地管理抽头延迟线。但在系数计算阶段，更多的是顺序访问。可以将频繁访问的矩阵（如H矩阵、Ryy矩阵、L矩阵）放在DSP的内部RAM中，而不是外部RAM，以减少访问延迟。
中间结果保留在寄存器中：如前所述，这是提升精度的关键。在Cholesky分解的主循环中，尽量将正在计算的行和列的相关元素保留在寄存器组中，减少与内存的交换。

6.3 周期数分析与优化实例

应用笔记中提到，对于一个 (8,4) 的DFE（即前馈8抽头，反馈4抽头），从信道冲击响应计算出全部系数，总共需要7680个周期。这个数字是在特定的SC140核心频率和内存配置下测得的。我们可以对此进行粗略分解：

构建自相关矩阵Ryy：大约需要(Nf+ν)^2 * Nf量级的复数乘加，是主要开销之一。
Cholesky分解：复杂度约为(1/3)*N^3，其中N = Nf。对于Nf=8，这是另一个主要开销。
最优时延搜索：需要计算多个Δ对应的性能度量，涉及前向替换和SNR计算。
平方根倒数调用：每次Cholesky分解对角元计算时调用一次，每次迭代约几十个周期。

优化方向：

对称性利用：Ryy是埃尔米特矩阵，只需计算上三角或下三角部分，节省近一半计算量。
循环展开与软件流水：对于内层循环（如内积计算），使用SC140的硬件循环结合软件流水技术，安排多条指令并行执行，隐藏延迟。例如，在一个循环内核中同时安排乘法、加法、数据加载和地址更新。
查表与计算结合：对于某些固定次数的计算（如噪声方差σ^2的添加），如果σ^2固定，可以预先计算好。
汇编级优化：关键函数（如复数乘加、平方根倒数）用汇编语言手写，精细安排指令顺序，避免流水线停顿。

6.4 常见问题排查速查表

问题现象	可能原因	排查步骤与解决方案
计算出的DFE系数全为零或异常大	1. 信道冲击响应数据未正确加载或定点化错误。 2. 自相关矩阵Ryy对角线元素出现非正数（数值问题）。 3. 平方根倒数函数输入为0或负数。	1. 打印出加载后的定点化信道向量h，检查其值是否在合理范围（Q15格式下，绝对值应小于1）。 2. 在Cholesky分解前，检查Ryy矩阵的对角线元素，确保均为正数。可加入极小正数扰动（如1e-10）保证数值稳定性。 3. 在调用`sqrt_and_invsqrt`前，检查输入值，并添加保护逻辑。
DSP计算结果与Matlab浮点结果偏差较大	1. 定点化过程中的缩放因子管理出错。 2. 中间结果溢出，未进行饱和处理。 3. 反馈系数忘记取共轭。 4. 平方根倒数函数精度不足。	1. 逐阶段对比：对比定点化的h、Ryy、L矩阵与浮点结果的对应关系，找出首次出现显著偏差的步骤。 2. 启用DSP的溢出饱和模式，或手动在关键乘加后加入饱和指令。 3.检查反馈系数提取代码，确认是否执行了共轭操作。 4. 增加`sqrt_and_invsqrt`函数的迭代次数（如从6次增加到8次），测试精度是否改善。
均衡器在实际信号中性能很差，但系数看起来正常	1. 前馈和反馈滤波器的抽头顺序加载错误。 2. 判决时延Δ未正确应用于符号同步。 3. 反馈环路的判决器存在错误，导致错误传播。	1. 确认系数加载到硬件滤波器或软件滤波函数时，抽头顺序（从w0/w1还是wN开始）是否符合滤波器库的要求。 2. 检查接收信号与训练序列的同步点，确保应用了Δ个采样的时延。 3. 在仿真中，暂时用已知的发送符号代替判决器输出，如果性能变好，则问题出在判决器或错误传播上。
算法运行周期数远超预期	1. 关键循环未使用硬件循环指令（`doen`）。 2. 数据存放在低速外部内存。 3. 编译器优化等级过低。	1. 检查汇编代码，确保计算密集型的内循环（如Cholesky的内积循环）使用了`dosetup`和`doen`指令。 2. 将频繁访问的数组（如矩阵）通过`#pragma`或链接脚本定位到内部RAM。 3. 使用编译器的最高优化等级（如`-O3`），并检查生成的汇编是否高效。对于最核心函数，考虑手写汇编。

7. 从仿真到实机部署的考量

当算法在仿真环境下验证无误后，准备部署到实际的StarCore DSP硬件上时，还有一些工程细节需要注意。

内存布局与Cache配置：SC140通常配有指令Cache和数据Cache。对于DFE系数计算这种批量处理算法，数据访问模式相对规律，但矩阵运算的步长可能较大，容易造成Cache颠簸。可以考虑将大的矩阵按块进行处理，使得每个块的数据能较好地留在Cache中。同时，将程序的关键循环（如Cholesky分解内核）放在内部RAM中执行，可以保证最稳定的性能。

中断与实时性：在完整的接收机系统中，DFE系数计算可能是在每接收一个数据包（或每隔一段时间）进行的后台任务。它不能阻塞对实时采样数据的处理。因此，通常将系数计算放在一个较低优先级的任务或中断服务程序中。要仔细计算最坏情况下的执行时间，确保它能在规定的时间窗口内完成，不会影响前台实时滤波和判决任务。

系数量化与加载：计算出的系数是Q格式的定点数。需要将其加载到负责执行前馈和反馈滤波的硬件模块或软件滤波函数的系数缓冲区中。注意系数的排列顺序：对于前馈滤波器，通常是w[0], w[1], ..., w[Nf-1]；对于反馈滤波器，是b[1], b[2], ..., b[Nb]（注意索引从1开始，因为b[0]被归一化为1）。加载过程可能需要一次内存拷贝，要确保在系数更新过程中，滤波器不会使用新旧系数混合的数据，否则会导致瞬态错误。一种常见的方法是使用双缓冲区。

性能监控与自适应：在一个运行中的系统里，信道可能会变化。虽然本文描述的是基于已知信道冲击响应的“一次计算”模式，但在实际中，可能需要定期重新估计信道并更新DFE系数。这就需要将本文描述的算法集成到一个更大的自适应循环中。同时，可以监控均衡器输出的误差信号或判决信噪比，如果性能下降到阈值以下，则触发一次系数重计算。这时，算法整体的周期数就直接影响了系统能容忍的信道变化快慢。

在我经历的一个微波回传项目中，我们正是使用了基于SC140的DFE方案。初期被平方根倒数的精度和反馈系数共轭问题困扰，一旦解决后，系统在频率选择性衰落信道下的误码率性能相比线性均衡器提升了近两个数量级。那份7680周期的预算，让我们能够在每毫秒内完成多次系数更新，从而跟上了城市环境中快速变化的信道条件。

查看全文

http://www.jsqmd.com/news/975126/