当前位置：首页 > news >正文

FPGA硬件加速高光谱异常检测：嵌入式实时处理架构与优化实践

news 2026/5/26 22:37:33

1. 项目概述：当高光谱异常检测遇上资源受限的嵌入式平台

高光谱成像技术，简单来说，就是给相机装上“光谱仪”的眼睛。它不像我们平时用的RGB相机只记录红、绿、蓝三个颜色通道，而是能连续捕获数百个狭窄光谱波段的信息，形成一个三维的“数据立方体”——两个空间维度（图像的行和列），一个光谱维度（波长）。这种技术能揭示人眼和普通相机无法察觉的细微物质成分差异，比如不同矿物的光谱“指纹”、植被的健康状态、甚至伪装下的军事目标。因此，它在精准农业、环境监测、矿产勘探和国防安全等领域有着不可替代的价值。

然而，海量的数据（一幅图像轻松达到GB级别）带来了巨大的处理挑战。传统的处理流程是“采集-存储-下传-地面处理”，这在无人机（UAV）等机载平台上遇到了瓶颈。有限的机载存储、紧张的无线传输带宽，以及从数据获取到决策反馈之间漫长的延迟，严重制约了实时应用，比如灾害现场的快速评估或军事侦察的即时响应。因此，“星上处理”或“机载实时处理”成为了必然趋势。

这就引出了核心矛盾：高光谱数据处理算法通常计算复杂、内存需求大，而机载平台的计算资源、功耗预算和物理空间都极其有限。通用处理器（CPU）和图形处理器（GPU）虽然灵活，但要么算力不足，要么功耗太高。这时，现场可编程门阵列（FPGA）的优势就凸显出来了。FPGA是一种硬件可编程芯片，你可以把它想象成一块“数字乐高”，可以根据特定算法，用硬件逻辑门“搭建”出一条最优化的专用计算流水线。这种硬件并行性带来的效率提升是数量级的，同时，通过精细设计，其功耗可以控制得非常低。

我这次分享的项目，正是瞄准了这个痛点：在资源、功耗和成本都受限的嵌入式FPGA上，实现一个高性能、实时的高光谱异常检测系统。我们选用的核心算法是HW-LbL-FAD（硬件友好的行级快速异常检测器），目标平台是Xilinx Zynq-7020 SoC（具体型号ZC7Z020-CLG484），这是一颗集成了ARM处理器和FPGA的芯片，成本约150欧元，非常符合低成本嵌入式的定位。最终，我们实现的硬件加速器能够以每秒超过300帧的速度处理825x1024像素、160个波段的高光谱图像，而功耗仅为1.3瓦。这篇文章，我将深入拆解这个架构的设计思路、实现细节、踩过的坑以及性能优化的核心技巧。

2. 核心算法HW-LbL-FAD：为何选择它作为硬件实现的基石

在开始画电路图之前，算法的选择至关重要。一个不适合硬件的算法，再精巧的架构也是事倍功半。HW-LbL-FAD算法之所以被我们选中，是因为它在设计之初就充分考虑了硬件实现的约束，具备以下几个关键特性，使其成为FPGA实现的理想候选。

2.1 算法核心思想与硬件友好性剖析

异常检测的目标，是在没有先验目标光谱知识的情况下，找出场景中与背景光谱模式显著不同的像素。HW-LbL-FAD是一种基于子空间投影的方法。其核心思想是：假设背景信号分布在一个低维子空间中，而异常目标的光谱无法被这个背景子空间很好地表示，因此，它们在垂直于该背景子空间的正交子空间上的投影能量会特别大。

算法的硬件友好性体现在四个方面：

行级渐进处理：算法不要求一次性加载整幅图像。它可以独立处理一个个像素块（通常是一行像素），这完美契合推扫式高光谱相机的数据获取方式（一次曝光获得地面一条线的光谱信息）。这种处理模式极大降低了对片上存储（Block RAM）的需求，因为每次只需缓存一小块数据。
计算核心操作复用：整个算法（包括背景建模和异常检测两个阶段）的核心数学操作可以归结为一组相同的向量运算：均值计算、中心化、亮度（点积）计算、投影和减法。这意味着在硬件上，我们只需要设计一套计算单元（硬件算子），通过时间复用来服务所有计算阶段，极大地节省了宝贵的FPGA逻辑资源。
避免复杂矩阵运算：许多传统算法（如经典的RX算法及其变体）需要进行协方差矩阵求逆或特征值分解，这些操作计算复杂度高，硬件实现困难且消耗大量资源。HW-LbL-FAD巧妙地通过Gram-Schmidt正交化过程来隐式地构建正交投影子空间，完全规避了显式的矩阵求逆。
定点数兼容性：算法对数值精度不敏感，可以无缝地从浮点数转换到定点数表示。FPGA处理整数运算远比浮点数高效，能显著减少DSP（数字信号处理器）片的使用和功耗。

2.2 算法四阶段工作流程详解

结合伪代码和硬件数据流，我将算法拆解为四个清晰的阶段，这直接对应了我们硬件架构的设计模块。

阶段1：背景参考光谱的行级提取这个阶段可以理解为“学习背景”。算法会连续处理最初采集的若干行高光谱数据（例如前100行），假设这些行不含异常目标。对每一行数据块M_k：

步骤1：计算该行所有像素的平均光谱μ。
步骤2：将每个像素减去平均光谱，得到中心化数据C。
步骤3：在C中，寻找与当前已选光谱最不相似（即正交投影残差最大）的像素。这个过程通过一个循环实现，每次循环：
- 计算C中每个像素的“亮度”（即其与自身的点积）。
- 选择亮度最大的像素，作为代表该行背景的一个“特征光谱”e_n。
- 将其正交化，得到正交向量q_n和单位正交向量u_n。
- 将C中所有像素投影到u_n上并减去该投影分量，更新C。这样，C中就只剩下了与已选光谱正交的信息。
- 循环直到满足停止条件（例如，新选光谱的亮度占比低于阈值α）。最终，从每一行中提取出的特征光谱集合E_k被汇总，形成初步的背景光谱库B*。

注意：阶段1的停止条件是动态的，由阈值α控制。这带来了一个硬件设计上的小挑战：循环次数不确定。我们需要一个额外的控制模块（Stop Condition Module）来实时判断是否跳出循环。

阶段2：整体背景子空间估计第一阶段得到的B*可能包含大量相似光谱。本阶段对B*这个“大杂烩”再次应用相同的核心操作（均值、中心化、循环选择），最终筛选出一组数量为p的、最能代表整体背景分布且相互正交的光谱向量Q和U，以及背景的平均光谱μ_b。同时，记录下循环终止时的最大剩余亮度τ，它将作为后续异常检测的自动阈值。

阶段3：计算背景子空间的正交补空间对于新到来的每一行数据M_k（k > nf），异常检测正式开始：

步骤1：用阶段2得到的μ_b对新行进行中心化。
步骤2：将中心化后的每个像素c_j，依次向阶段2得到的每一个正交基u_n上投影并减去其分量。这个过程相当于把像素中“属于背景”的信息一点点剥离掉。
步骤3：经过p次投影和减法后，剩下的残差c'_j就是该像素在背景正交子空间上的分量。

阶段4：异常检测与分割计算每个像素残差c'_j的亮度（即残差向量的点积d_j）。这个d_j值越大，说明该像素与背景的差异越大。最后，通过一个简单的阈值判断：如果d_j > 1.5 * τ（τ来自阶段2），则将该像素标记为异常（输出1），否则为背景（输出0）。这样就得到了一幅二值化的异常检测图。

3. 硬件架构设计与实现：在刀尖上跳舞的资源复用艺术

有了清晰的算法流程，硬件架构的设计目标就非常明确了：用最少的资源，高效地实现这四个阶段，并且要让同一套计算单元能在不同阶段被复用。我们采用了高层次综合（HLS）与手工RTL设计相结合的混合策略。

3.1 顶层架构与模块划分

整个硬件加速器可以看作一个由有限状态机（FSM）控制的流水线数据通路。FSM负责根据当前所处的算法阶段，控制数据流向和多路选择器，从而“引导”数据流经正确的硬件模块。核心的计算模块（硬件算子）有以下几个，它们都是用HLS从C/C++代码综合而来的：

Avg模块：计算输入数据块的平均光谱μ。通过循环展开和流水线优化，可以并行计算多个波段。
Cent模块：执行中心化操作，即C = M_k - μ。
Brightness模块：计算中心化数据C中每个像素的亮度（点积c' * c）。这是最核心、最耗资源的操作之一。
Projection模块：计算投影向量v = U' * C。
Subtraction模块：执行减法操作C = C - Q * v。
Brightness_AD模块：专用于阶段4，计算残差亮度并与阈值比较，生成异常图。
Stop_Condition模块：判断阶段1和阶段2的循环是否应该终止。

数据在这些模块间流动，通过一系列FIFO（先进先出队列）进行缓冲。FIFO的深度设计是关键，太浅会导致流水线停顿，太深会浪费宝贵的Block RAM资源。

3.2 关键设计决策与资源复用机制

1. 计算单元的时分复用这是本设计节省资源的精髓。观察算法：阶段1、2、3都离不开Brightness、Projection、Subtraction这三个核心操作。因此，在硬件上我们只实例化一套这些模块。通过FSM控制数据选择器（图2-4中的蓝色梯形模块），在阶段1和2，Brightness模块的输出用于选择特征像素并更新正交向量；在阶段3，Brightness模块被禁用，Projection和Subtraction模块复用阶段2存储下来的Q和U矩阵。这就好比一个多功能厨房，同一口锅（计算单元），在准备阶段（阶段1/2）用来炒菜（筛选背景），在烹饪阶段（阶段3）用来烩菜（剥离背景）。

2. 数据通路的动态重构不同阶段的数据源和目的地不同。例如：

阶段1：Cent -> Brightness -> (Projection, Subtraction) -> Brightness形成循环。数据从SBuffer读出，处理后再写回。
阶段2：与阶段1类似，但额外的数据通路被激活，将最终得到的正交向量Q、U和阈值τ写入固定的矩阵存储器（qMatrix, uMatrix）和寄存器中，供后续阶段使用。
阶段3/4：Cent模块直接使用存储的μ_b。Projection和Subtraction模块从qMatrix/uMatrix读取Q/U，而不是从Brightness模块实时获取。最终结果送给Brightness_AD模块。

3. 存储资源的优化与阵列分区高光谱数据量大，存储是瓶颈。我们做了以下优化：

双缓冲（Ping-Pong Buffer）：在Brightness模块中，我们手工实现了一个乒乓缓冲区。当一组数据正在被计算亮度时，下一组数据可以同时被加载到另一个缓冲区中。这有效地将处理每个像素的初始间隔（II）减少了一半，提升了吞吐率。
阵列分区（Array Partition）：对于Q、U等向量，在HLS中我们强制指定了完全分区（#pragma HLS array_partition）。这意味着向量的每个元素都被映射到独立的寄存器中，而不是一个整体的Block RAM。这样，在计算投影和减法时，可以同时读取向量的所有元素，实现极高的并行度。这是用更多的寄存器资源（LUT/FF）来换取并行性能的经典权衡。
FIFO深度最小化：仔细分析数据依赖关系后，我们将连接Projection和Subtraction模块的FIFO深度设置为仅能容纳两个像素数据，这是避免流水线死锁的最小值，节省了BRAM。

4. 处理元素（PE）的并行度设计为了进一步提升速度，我们引入了处理元素（PE）的概念。PE的数量决定了有多少个光谱波段可以被并行计算。例如，如果设置PE=20，且图像有160个波段，那么Brightness模块计算一个像素的160维点积时，可以分成8个周期完成（160/20=8），而不是160个周期。PE的数量直接决定了硬件的并行能力和资源消耗。在我们的ZC7Z020芯片上，DSP片数量（220个）是限制PE数量的主要因素。经过综合评估，PE=20是我们的设计在资源利用和性能之间的最佳平衡点。

3.3 从HLS到系统集成：开发流程与挑战

我们的开发流程始于用C++编写各个计算模块的行为级模型，并使用Vitis HLS工具进行综合、优化和生成RTL代码。HLS工具允许我们通过添加编译指示（Pragmas）来指导综合，例如流水线、循环展开、数据流等。

然而，完全依赖HLS生成整个系统是不现实的。HLS工具在解决跨模块的复杂数据依赖和全局控制流方面能力有限。因此，我们采用混合方法：

HLS生成计算核：将Avg, Cent, Brightness等计算密集型模块用HLS实现，重点优化其内部流水线和并行性。
手工编写顶层集成与控制：用VHDL手工编写顶层的有限状态机（FSM）、数据路由逻辑、存储器接口（如AXI接口）以及模块间的握手协议。FSM精确地控制着每个阶段的开始、模块的使能、数据的选通以及循环的迭代次数。
接口标准化：所有HLS模块都遵循Vitis HLS的标准握手接口（start,done,idle,ready），这简化了与手工VHDL控制逻辑的集成。

实操心得：在HLS开发中，一个常见的陷阱是未能正确理解“数据流（Dataflow）”优化。它适用于任务级流水线，但要求子任务间没有反馈循环。在我们的设计中，Brightness -> Projection/Subtraction -> Brightness 存在反馈，因此不能简单地在顶层应用Dataflow。我们最终在模块内部进行循环流水，而在顶层由FSM控制迭代。

4. 性能评估与结果分析：数据会说话

我们将设计部署在Xilinx ZC7Z020-CLG484 FPGA上，这是一颗基于28nm工艺的Artix-7芯片，属于低成本、低功耗系列。以下是综合实现后的关键性能数据。

4.1 资源利用率与性能指标

我们测试了不同PE数量（1, 2, 4, 10, 20）和时钟频率（100 MHz, 143 MHz）下的配置。表1和表2汇总了关键结果。

表1：硬件资源利用率示例（PE=20, 100MHz）

资源类型	可用数量	已使用数量	利用率
LUT	53200	28542	53.6%
FF	106400	36627	34.4%
DSP	220	199	90.5%
BRAM	140	99	70.7%

表2：处理性能（图像尺寸：825行 x 1024列 x 160波段）

PE数量	时钟频率	处理时间	帧率 (FPS)
20	100 MHz	0.73 秒	~1130
20	143 MHz	0.51 秒	~1618
4	143 MHz	2.55 秒	~323

分析：

DSP是瓶颈：DSP利用率高达90%，这印证了它是限制PE规模的主要资源。我们的核心运算（点积、乘加）大量依赖DSP片。
BRAM使用合理：70%的BRAM利用率主要用来存储中间数据行和正交向量矩阵。考虑到行级处理大幅降低了数据缓存需求，这个利用率是高效且可接受的。
性能与功耗的完美平衡：在143MHz、PE=20的配置下，系统仅用0.51秒就处理完一幅超过1.35亿个数据元素（8251024160）的图像，功耗仅为1.3W。能效比（FPS/W）达到了惊人的1245。这意味着我们的架构在单位功耗下处理的数据量远超同类方案。

4.2 与同类工作的横向对比

我们将HW-LbL-FAD的FPGA实现与文献中其他三种基于FPGA的异常检测器进行了全面对比（RX算法、CRD算法、Fast-MGD算法）。对比维度包括处理速度、资源利用率和能效。

处理速度：如图7所示，我们的架构在“每秒处理数据元素”这个指标上，比第二名（基于Kintex-7的RX算法）快5到7倍。即使对方使用了更高端、更昂贵的FPGA（Virtex-7），我们的性能依然大幅领先。

成本与资源效率：关键在于“性价比”。竞争对手的方案大多使用中高端FPGA（Kintex/Virtex系列），芯片本身成本可能是我们使用的Artix-7芯片的5到10倍甚至更高。而我们的设计在低成本的Artix-7上实现了更高的性能，这得益于算法本身的硬件友好性和我们极致的架构优化。

能效：如图8所示，我们的架构在“每瓦特处理的数据元素”指标上，比其他方案高出5到107倍。这对于电池供电的无人机平台至关重要，更低的功耗意味着更长的续航时间，或者在同等续航下可以为其他任务（如飞控、图传）预留更多电力。

检测精度：我们使用无人机实际采集的6幅农田场景高光谱图像进行测试。硬件实现与软件浮点参考模型输出的异常检测图完全一致，验证了定点化设计和硬件逻辑的正确性没有引入精度损失。算法本身在多个场景下的检测率也优于对比的几种先进算法。

5. 常见问题、调试经验与避坑指南

在实际的FPGA开发中，从算法到稳定运行的硬件，中间充满了挑战。这里分享一些关键的调试经验和注意事项。

5.1 定点量化与精度损失

问题：将算法从浮点转换为定点时，如何确定数据位宽？位宽太小会溢出或损失精度，位宽太大会浪费资源。解决：

动态范围分析：在MATLAB/Python中用浮点模型处理大量真实数据，记录每个中间变量（均值、中心化数据、投影值等）的绝对最大值和最小值。
仿真验证：在HLS/C仿真中，使用定点数据类型（如ap_fixed<16,8>）进行算法仿真，与浮点结果逐级对比。我们最终确定输入光谱数据为12位（符合常见高光谱相机位深），中间计算结果采用20-24位的定点数，在保证精度的同时控制了资源消耗。
设置保护位：在累加操作（如点积）中，必须预留足够的整数位以防止溢出。例如，12位数据乘以12位数据得到24位结果，对160个这样的结果求和，可能需要额外增加8位（log2(160)≈7.3）的保护位。

5.2 数据依赖与流水线冲突

问题：在阶段1的循环中，Brightness模块需要Subtraction模块的输出作为下一轮迭代的输入，形成了反馈环路。如何避免流水线停顿？解决：

精细的FIFO设计：在Projection和Subtraction模块之间，我们设计了一个深度为2的FIFO（PSBuffer）。Projection读一个像素，计算其投影值并写入PBuffer，同时将该像素原样写入PSBuffer。Subtraction模块从PSBuffer读取像素，从PBuffer读取投影值，进行计算。这样，两个模块可以几乎同时工作，只要FIFO不空不满，流水线就能流动。
FSM的精确控制：FSM必须等待Brightness模块完成一整行数据的亮度计算并选出最大值后，才能启动新一轮的Projection和Subtraction。这个同步点是必须的，无法通过流水线消除。我们的优化在于让Brightness模块内部处理每个像素的流水线间隔（II）尽可能小（通过乒乓缓冲优化到1）。

5.3 内存访问瓶颈与优化

问题：Q和U矩阵在阶段3被Projection和Subtraction模块反复读取。如果它们存储在单个BRAM中，会成为性能瓶颈，因为一个时钟周期只能进行一次读/写操作。解决：

阵列完全分区：如前所述，我们在HLS代码中对Q和U向量使用了#pragma HLS array_partition variable=q_matrix complete。这会将向量的每个元素都映射到独立的寄存器中。在阶段3，Projection模块可以同时读取U向量的所有p个元素（假设p=10，就是同时读10个数），极大地提升了并行性。代价是消耗了更多的查找表（LUT）和触发器（FF）资源，但在这个设计中，LUT/FF资源相对充裕，这个交换非常值得。

5.4 验证策略：从仿真到上板

问题：如此复杂的多阶段、数据依赖强的设计，如何确保功能正确？解决：我们建立了多层次验证流程：

C/C++ 黄金参考模型：首先用浮点C++实现完整算法，生成标准输出。
HLS C仿真：使用定点数的HLS代码进行仿真，与黄金模型对比，验证定点化精度。
RTL协同仿真：在Vivado中，将HLS导出的IP核与手写的VHDL顶层一起进行仿真，验证数据通路和控制逻辑。
硬件在环测试：将生成的比特流文件下载到ZC7Z020开发板（如TE0720模块）。通过PS（ARM处理器）端编写测试程序，将真实高光谱图像数据通过AXI DMA发送给PL（FPGA）端的加速器，并读回异常检测结果，与软件结果比对。这一步是最终的性能和功能验证。

踩坑实录：在一次调试中，我们发现阶段4的异常检测图偶尔会出现整行错误。经过漫长的信号跟踪，最终定位到问题出在Brightness_AD模块读取τ阈值的时序上。FSM在阶段2结束时将τ写入一个寄存器，但阶段4可能在阶段3尚未完全结束时就被触发启动，此时τ寄存器可能还保存着中间值。解决方案是在FSM中增加明确的状态标志，确保τ值在阶段2完全稳定后才被锁存，并且阶段4必须等待该标志有效后才开始工作。这个教训告诉我们，在复杂的多阶段FSM中，控制信号的“握手”和状态同步必须极其严谨。

查看全文

http://www.jsqmd.com/news/892847/