当前位置：首页 > news >正文

嵌入式信号峰值检测：AMPD算法在PSoC 6上的实现与优化

news 2026/7/18 0:27:09

1. 项目概述与核心思路

最近在做一个电力监测相关的项目，需要实时分析电压信号的峰值和谷值。这活儿听起来简单，不就是找最大值和最小值嘛，但真做起来，尤其是在嵌入式设备上处理连续的、可能带有噪声的实时信号，就没那么直接了。用示波器的自动测量功能当然方便，但我们的目标是把这个功能集成到自己的设备里。正好手头有块英飞凌的PSoC 6 RTT开发板，性能足够，就琢磨着在上面实现一个信号处理前端，专门负责极值检测。

这个需求在很多地方都有，比如分析电网电压波动、评估电源质量，或者在一些振动、声音信号分析中找特征点。核心难点在于，你不能简单地对整个数据数组做一次max()和min()操作，因为那找到的是全局极值。我们需要的是局部极值，也就是信号波形中每一个“波峰”和“波谷”的位置和幅值。而且算法必须足够高效，能在MCU上对ADC采样的数据流进行实时或准实时处理。

经过一番搜索和对比，我选择了一种名为**AMPD（Automatic Multiscale Peak Detection）**的算法。它的优点非常突出：无需预先设置阈值，对基线的漂移不敏感，抗噪声能力也不错，特别适合处理我们这种非平稳的、背景复杂的信号。算法原理来自一篇公开的论文，我将其移植到了PSoC 6上，并整合了RT-Thread的命令行组件，方便测试和调试。下面，我就把整个实现过程、代码细节以及踩过的坑，详细分享一下。

2. AMPD算法原理深度拆解

在直接上代码之前，有必要先搞懂AMPD算法到底是怎么工作的。知其然更要知其所以然，这样后面调优和排查问题才有方向。

AMPD算法的核心思想是多尺度局部比较。它不直接判断一个点是否比左右邻居高，而是在多个不同的“窗口宽度”下进行检验。想象一下，你判断一个山丘是不是山峰，如果只和紧挨着的左右两步地比较（窗口小），可能会把一些小土包误判成山；如果把比较范围扩大到左右一百米（窗口大），就能过滤掉那些细微的起伏，找到真正的山峰。AMPD算法就是同时用许多把不同宽度的“尺子”去量，最后综合判断。

2.1 算法步骤详解

算法主要分为两个阶段：

第一阶段：确定最优尺度（窗口长度）

这是AMPD最巧妙的地方。它通过计算一系列不同窗口大小下的“峰度”指标，自动找出最适合当前数据特征的尺度。

初始化：我们有一个长度为N的离散信号数据数组x。我们准备一个长度为N/2的数组L，用于存放每个尺度k下的一个计数值。
多尺度局部比较：对于每一个尺度k（从1到N/2），我们让这个尺度k作为滑动窗口的半宽。遍历信号中除了前后k个点之外的所有位置i。
局部极大值检验：在每个位置i，检查x[i]是否同时大于x[i-k]和x[i+k]。也就是说，看当前点是否比它左右k距离的点都高。如果是，我们就在这个尺度k的计数器上减1（row_sum -= 1）。这里为什么是减1？可以理解为，在尺度k下，每发现一个符合局部极大值条件的点，就增加一点“证据”证明这个尺度可能不是全局最优的（因为噪声也可能在小尺度下形成局部极大）。我们的目标是找到使这个计数值最小的那个尺度。
生成尺度谱：完成对一个尺度k下所有i的遍历后，我们就得到了该尺度下的计数值L[k]。对所有尺度重复此操作，得到数组L。
寻找最优尺度：对数组L求其全局最小值（argmin）。这个最小值对应的尺度k*，就是算法认为最能有效区分真实峰值与噪声的窗口长度。直观理解是，在这个尺度下，信号中真实峰值表现出来的“局部极大”特性最稳定，而噪声引起的假峰被有效抑制。

第二阶段：基于最优尺度检测峰值

确定了最优窗口长度k*后，我们用这个固定的尺度再进行一次全局扫描。

二次扫描：再次遍历所有位置i（从k*到N-k*），使用尺度k*进行同样的局部比较：x[i] > x[i-k*] && x[i] > x[i+k*]。
投票计数：这次，我们为每一个位置i准备一个“票箱”p[i]（初始化为0）。每当位置i在比较中胜出（即满足局部极大条件），就给p[i]加一票。
峰值判定：由于我们用同一个最优尺度k*遍历了所有点，一个真实的峰值点i会在这次遍历的每一次比较中都胜出吗？注意，我们是在用k*这个固定尺度，从i=1到i=k*，对每个i点都用k*去比较左右。实际上，对于一个理想的尖峰，当比较尺度恰好等于其半宽时，它会在其顶点位置获得最高的票数。在算法的常见实现中，会遍历k从1到k*，每个k下都对所有i做比较，这样真实的峰值会在多个尺度下都被认可。最终，如果一个点i获得的票数等于最大尺度k*，那么就判定它是一个极大值点。

关键理解：第一阶段是“选尺子”，通过分析信号自身特征，选出一把最合适的尺子（k*）。第二阶段是“用尺子量”，用这把选好的尺子去测量每一个点，符合标准的就标记为峰值。这个过程有效避免了手动设置阈值的困扰。

2.2 算法优势与局限

优势：

自适应性：无需手动设置峰值高度、幅度等阈值，尤其适合基线漂移的信号。
抗噪声性：多尺度机制能有效平滑高频噪声的干扰。
计算量相对可控：时间复杂度大致为O(N * k*)，在嵌入式场景中经过优化可以接受。

局限与注意事项：

计算开销：相比简单阈值法，计算量更大。第一阶段需要O(N²/4)量级的比较，对于超长序列需要优化或分段处理。
周期性假设：算法隐含着对信号局部形状的假设，对于极端奇异形状的峰值可能不适用。
实时性：标准的AMPD需要整个数据段才能确定k*，不适合严格的逐点实时流处理。通常采用滑动窗口的方式实现准实时处理。

3. 基于PSoC 6与RT-Thread的工程实现

理解了原理，我们来看如何在英飞凌PSoC 6开发板上具体实现。我使用的开发环境是ModusToolbox，并利用了RT-Thread Nano作为实时操作系统，方便任务管理和命令行交互。

3.1 硬件平台与工程配置

英飞凌PSoC 6是一款双核MCU（Cortex-M4F和Cortex-M0+），我这里主要使用M4F内核进行数据处理。开发板自带的ADC足以满足音频或中低速电压信号的采样需求。

工程关键配置：

ADC配置：采用序列采样模式，DMA传输，将采样数据存入环形缓冲区，避免CPU频繁中断。采样率根据信号最高频率设定，例如对于50Hz工频电压及其谐波，1kHz的采样率是合理的起点。
内存分配：AMPD算法需要额外的数组L（尺度谱）和p（票数统计）。对于长度为1000的样本点，L需要约500个int32，p需要1000个int32。需要确保堆空间足够，或者使用静态数组。
RT-Thread集成：启用RT-Thread Nano，初始化FinSH命令行组件。这样我们就可以通过串口工具输入命令来触发测试，非常方便。

3.2 核心代码实现与注释

我将论文中的算法C语言实现进行了移植和适配。下面是核心函数ampd的详细解读，并加入了大量注释和性能考量。

// 定义全局数组，用于算法中间计算。根据最大预期数据长度调整。 #define MAX_DATA_LEN 1024 static int32_t arr_rowsum[MAX_DATA_LEN/2]; // 用于存放第一阶段每个尺度k的计数值L static int32_t p_data[MAX_DATA_LEN]; // 用于存放每个数据点的票数 /** * @brief AMPD自动多尺度峰值检测算法 * @param data 输入信号数据数组（有符号32位整数） * @param len 输入数据数组的长度 * @note 函数执行后，峰值信息存储在全局数组 p_data 中。 * 其中 p_data[i] == max_window_length 的位置 i 即为检测到的极大值点。 */ void ampd(int32_t* data, int32_t len) { int32_t row_sum; int32_t max_window_length; int32_t i, k; // === 第一阶段：计算尺度谱，寻找最优尺度 k* === // 遍历所有可能的尺度 k (从1到 len/2) for (k = 1; k < len / 2 + 1; k++) { row_sum = 0; // 遍历内部点，避免数组越界。对于每个尺度k，检查点i是否是其邻域内的局部极大值。 for (i = k; i < len - k; i++) { // 核心判断：当前点是否同时大于左右距离为k的点？ if ((data[i] > data[i - k]) && (data[i] > data[i + k])) { row_sum -= 1; // 如果是，则在该尺度的计数器上累加负值（原论文方式） } } arr_rowsum[k - 1] = row_sum; // 存储尺度k下的计数值 } // 找到尺度谱 arr_rowsum 中的最小值对应的索引，即最优尺度 k* // argmin 函数需要自己实现，遍历 arr_rowsum 的前 len/2 个元素找最小值下标 int min_index = argmin(arr_rowsum, len / 2); max_window_length = min_index + 1; // 因为k从1开始，索引要加1 // 安全保护：如果异常，设置一个默认小尺度，比如5 if (max_window_length <= 0 || max_window_length > len/2) { max_window_length = 5; } // === 第二阶段：使用最优尺度 k* 进行峰值检测 === // 首先，清空票数统计数组 memset(p_data, 0, len * sizeof(int32_t)); // 遍历从1到最优尺度 max_window_length 的所有尺度 // 注意：这里有些实现是只用k*，有些是用1到k*。用1到k*是一种“多尺度确认”，更稳健。 for (k = 1; k < max_window_length + 1; k++) { for (i = k; i < len - k; i++) { if ((data[i] > data[i - k]) && (data[i] > data[i + k])) { p_data[i] += 1; // 在当前尺度k下，点i是局部极大，获得一票 } } } // 峰值判定：如果一个点在所有测试尺度（1到k*）上都获得了票，即票数等于k*，则为峰值。 // 实际上，由于内层循环，一个点最多能获得 max_window_length 票。 // 我们通常将 p_data[i] == max_window_length 的点标记为峰值。 // 但有时为了更严格，可以设为 max_window_length，或稍低一些如 max_window_length * 0.8 以容忍轻微的不完美。 }

几个关键实现细节：

argmin函数：这是一个简单的辅助函数，用于寻找数组最小值的索引，需要自己实现。
数据范围：算法使用int32_t，确保ADC采样值（通常是12位或16位）转换后不会溢出。如果信号有负值，需要确保比较操作正确。
边界处理：循环条件i < len - k和i > k确保了不会访问数组边界之外的内存，这是嵌入式编程中必须注意的。
内存与速度权衡：数组arr_rowsum和p_data定义为全局静态变量，避免在栈上分配过大导致溢出。对于资源紧张的MCU，如果数据长度很大，可以考虑用malloc动态分配，或使用更小的数据类型（如int16_t）如果数值范围允许。

3.3 测试框架与可视化

为了验证算法，我编写了一个测试命令max，集成到RT-Thread的FinSH命令行中。

// 在 rt-thread 的 finsh 命令行中注册命令 MSH_CMD_EXPORT(max, AMPD peak detection test); // 测试函数 static void max_test(void) { int32_t sim_data_buffer[MAX_DATA_LEN]; int32_t peak_count; printf("Starting AMPD peak detection test...\r\n"); for (int cycle = 0; cycle < 10; cycle++) { // 循环测试10次 // 1. 获取数据：这里可以替换为真实的ADC采样函数 // adc_sample_blocking(sim_data_buffer, MAX_DATA_LEN); simulate_waveform(sim_data_buffer, MAX_DATA_LEN); // 使用模拟数据函数 // 2. 执行AMPD算法 memset(p_data, 0, sizeof(p_data)); // 清空票数数组 ampd(sim_data_buffer, MAX_DATA_LEN); // 3. 打印结果，格式化为简易绘图数据 printf("--- Cycle %d ---\r\n", cycle); peak_count = 0; for (int i = 0; i < MAX_DATA_LEN; i++) { if (p_data[i] == max_window_length) { // 输出格式：数据点值, 数据点值 (用于绘图时突出峰值点) printf("[%ld,%ld],", sim_data_buffer[i], sim_data_buffer[i]); peak_count++; } else { // 输出格式：数据点值, 0 (非峰值点，绘图时在0线) printf("[%ld,0],", sim_data_buffer[i]); } } printf("\r\nPeaks found: %d\r\n", peak_count); rt_thread_mdelay(500); // 延时，方便观察 } } // 一个简单的模拟波形生成函数，用于测试 static void simulate_waveform(int32_t *buf, int len) { for (int i = 0; i < len; i++) { // 生成一个叠加了噪声和轻微基线漂移的正弦波 buf[i] = (int32_t)(1000 * sin(2 * 3.14159 * 5 * i / len) + // 5Hz主波 200 * sin(2 * 3.14159 * 25 * i / len) + // 25Hz谐波 10 * (rand() % 100 - 50) / 100.0 + // 随机噪声 0.1 * i); // 缓慢基线漂移 } }

可视化方法：将串口打印的数据复制到任何支持绘制散点图或折线图的工具中，比如Serial Studio、Python的Matplotlib，甚至Excel。打印格式[原始值, 峰值标记]就是为了方便绘图。非峰值点标记为0，峰值点标记为其原始值，这样在图上峰值点就会明显凸起。

4. 性能优化与资源管理

在PSoC 6这样的嵌入式平台上运行AMPD算法，必须关注性能和资源消耗。

4.1 计算复杂度分析与优化

标准AMPD第一阶段的时间复杂度是O(N²/4)，对于N=1000，需要大约25万次比较和条件判断，在100MHz主频的M4核上，耗时可能在几十毫秒量级。这对于非实时或准实时应用（如分析一段存储的波形）是可以接受的。但对于更高采样率或更长的数据块，就需要优化。

优化策略：

尺度范围限制：我们真的需要测试从1到N/2的所有尺度吗？对于大多数工程信号，有意义的局部极大值尺度通常不会太大。例如，对于采样率1kHz的信号，寻找周期大于100ms（尺度>50）的“局部”极大可能意义不大。可以预设一个合理的k_max（如50或100），将第一层循环改为for (k=1; k<k_max; k++)，能极大减少计算量。
提前终止：观察尺度谱L[k]，它通常会在达到最小值后趋于平稳或上升。可以设置一个条件，比如连续若干个尺度的L[k]变化很小，就提前结束第一阶段。
固定尺度法：如果对信号特征有先验知识，可以直接指定一个固定的k*，跳过第一阶段。这牺牲了自适应性，但换来了最高的速度，适合实时流处理。
使用DSP指令：PSoC 6的Cortex-M4F内核支持SIMD指令和DSP扩展。虽然AMPD的核心是条件判断，难以向量化，但一些循环和内存操作可以利用编译器优化（-O2，-O3）以及CMSIS-DSP库中的函数来提升效率。
滑动窗口法：对于无限长的数据流，采用固定长度的滑动窗口（例如512点）。每次窗口移动时，可以复用部分上一窗口的计算结果，增量式更新尺度谱，但这实现起来较复杂。

在我的实现中，我采用了策略1，将k_max限制为128，对于1000点的数据，计算时间缩短到了10ms以内，完全满足项目需求。

4.2 内存使用优化

数据类型选择：ADC采样值通常是12位或16位，用int16_t足够。将data、arr_rowsum、p_data数组的类型从int32_t改为int16_t，可以立即减少一半的内存占用和内存带宽压力。
动态分配与复用：如果系统中有多个任务或处理多种数据，可以考虑动态分配这些工作数组，用完后释放。或者，直接声明为全局静态数组，简单可靠，但需确保它不会挤占其他任务的内存。
就地处理：如果不需要保留原始数据，算法第二阶段可以稍微修改，在遍历过程中直接标记峰值位置（例如存入另一个索引数组），而不需要完整的p_data票数数组。

4.3 实时流处理框架设计

要实现真正的实时峰值检测，不能等采集完一大段数据再处理。下面是一个基于双缓冲区和RT-Thread线程的准实时处理框架思路：

// 伪代码框架 static rt_thread_t proc_thread; static rt_sem_t data_ready_sem; static int32_t buffer_A[MAX_LEN], buffer_B[MAX_LEN]; static int32_t *active_buf = buffer_A; // ADC正在写入的缓冲区 static int32_t *process_buf = buffer_B; // 算法正在处理的缓冲区 static volatile bool adc_buf_full = false; // ADC DMA完成中断服务程序 void adc_dma_complete_isr(void) { rt_sem_release(data_ready_sem); // 释放信号量，通知处理线程 // 切换缓冲区指针... } // 算法处理线程入口 static void peak_detect_thread_entry(void *parameter) { while (1) { // 等待ADC数据就绪 rt_sem_take(data_ready_sem, RT_WAITING_FOREVER); // 处理 process_buf 中的数据 ampd(process_buf, MAX_LEN); // 找出峰值并发送到消息队列或通知其他任务 for(int i=0; i<MAX_LEN; i++) { if(p_data[i] == max_window_length) { // rt_mq_send(...) 发送峰值索引和幅值 } } // 准备下一块缓冲区... } }

这个框架下，ADC通过DMA持续采样填充一个缓冲区，填满后触发中断，通知处理线程。处理线程运行AMPD算法分析刚填满的缓冲区，同时ADC开始填充另一个缓冲区。如此交替，实现了流水线处理，延迟约等于一个缓冲区的处理时间。

5. 实测效果、问题排查与心得

5.1 测试结果分析

我使用模拟信号（正弦波叠加谐波和噪声）和一段真实的麦克风采集的语音信号进行了测试。

模拟信号测试：对于干净的5Hz正弦波，算法能准确地在每个周期的90度相位点检测到极大值。加入25%幅值的3次谐波后，波形出现畸变，但AMPD算法依然能稳定地找到主波峰，对谐波引起的小起伏有很好的抑制。加入随机噪声后，检测结果依然稳健，不会出现大量伪峰。
语音信号测试：对一段“啊——”的元音录音进行处理。语音信号是非平稳、准周期的。AMPD算法成功检测出了主要的音调周期对应的峰值点，这些点对应于声门脉冲的激励时刻，在语音处理中很有用。效果比简单的幅度阈值法好很多，后者在声音强度变化时容易失效。

可视化结果清晰地显示，原始信号波形（IN）上，被标记为峰值（MAX）的点都准确地落在了波形的顶峰位置。

5.2 常见问题与调试技巧

在实际移植和测试中，我遇到了几个典型问题：

检测不到峰值或峰值过多
- 原因：最优尺度k*选择不当。如果k*太大，可能漏掉尖锐的峰值；如果k*太小，则噪声会被误判为峰值。
- 排查：打印出arr_rowsum尺度谱数组，观察其最小值是否出现在一个合理的范围内。对于采样率为Fs的信号，你关心的峰值宽度大概对应多少个样本点，这个数值应该和k*接近。
- 解决：强制限制k的搜索范围（k_max），如前所述。或者对尺度谱进行平滑处理后再找最小值，避免局部抖动干扰。
算法运行速度太慢
- 原因：数据长度N过大，且未对尺度范围k进行限制。
- 排查：使用CY_CFG_SYSCLK_TIMER（或类似的高精度定时器）测量ampd()函数的执行时间。
- 解决：
  - 降低N，在满足频率分辨率的前提下，使用尽可能短的数据窗。
  - 大幅限制k_max。
  - 检查编译器优化等级是否开启（-O2）。
  - 考虑将非实时检测改为后台任务，避免阻塞主循环。
边界点被错误标记
- 原因：算法在数据边界（开头和结尾的k*个点）无法进行完整的左右比较，我们的实现中循环条件i<len-k和i>k已经避免了越界，但这些边界点永远不会被判定为峰值，这是正确的行为。
- 注意：如果你需要检测边界附近的峰值，需要在数据前后填充一些值（如镜像填充、常数填充），但会增加复杂度和内存开销。通常，对于连续流处理，可以忽略边界效应。
检测极小值（谷值）
- 方法：如原文所述，极其简单。在调用ampd()函数之前，先将整个数据数组取反（data[i] = -data[i]）。这样，原来的波谷就变成了波峰，算法检测到的“极大值”就是原信号的“极小值”。这是AMPD算法一个非常方便的特性。

5.3 实操心得与进阶建议

参数化配置：不要将MAX_DATA_LEN、k_max等参数硬编码。最好做成宏定义或全局变量，方便在不同应用场景下调整。甚至可以设计一个算法初始化函数，根据输入信号的预期特性（如最大频率）来估算这些参数。
结果后处理：AMPD给出的峰值可能非常密集，尤其是在峰值比较平坦的区域。可以增加一个最小峰值间隔的判断，比如规定检测到的两个峰值之间至少间隔k*个点（或根据采样率和信号最小周期计算），避免对同一个物理峰值进行多次报告。
与FFT结合：如果你需要分析的信号频率成分已知，可以先做一次FFT，估算出主频率，进而推算出大致的峰值周期（样本点数），用这个值来设定k_max或直接作为固定k*，可以极大提升算法的效率和针对性。
资源监控：在RT-Thread中，可以使用list_thread、free等命令监控任务栈空间和内存使用情况，确保算法任务不会导致系统资源耗尽。
测试用例库：建立丰富的测试信号库：纯正弦、方波、三角波、带限噪声、脉冲信号等。用这些标准信号验证算法在各种极端情况下的行为，比直接用真实数据调试更高效。

这次在英飞凌PSoC 6上实现AMPD算法，让我深刻体会到，将一个优秀的算法从论文落地到嵌入式设备，关键在于理解和权衡。理解算法的数学本质和计算特性，权衡精度、速度和资源消耗。AMPD算法以其自适应性和鲁棒性，在信号峰值检测领域是一个很好的工具。通过合理的优化和工程化包装，它完全可以在像PSoC 6这样的主流MCU上稳定运行，为各种嵌入式信号处理应用提供可靠的“前端感知”能力。

查看全文

http://www.jsqmd.com/news/862941/