当前位置：首页 > news >正文

FPGA实现增量式PID控制器：从算法原理到电机控制实践

news 2026/6/7 13:08:20

1. 项目概述与核心思路

最近手头两个项目都卡在了控制精度上，一个是恒温箱的温度控制，另一个是无刷电机的调速。用MCU跑PID算法，在温度控制这种慢过程上还行，但一到电机控制，特别是电流环这种需要快速响应的场景，采样和计算延迟就成了瓶颈，波形总有毛刺，动态响应不够平滑。琢磨了一下，决定把算法下放到FPGA里试试，用硬件并行的特性来啃下实时性这块硬骨头。

这个想法很简单：PID算法本质就是一堆乘加运算，而FPGA最擅长的就是并行处理数据流。把算法公式“翻译”成硬件电路，让误差计算、系数乘法、积分累加这些步骤同时进行，理论上能把控制周期压缩到几个时钟周期内，这对提升系统带宽、抑制扰动有质的变化。我这次实践主要围绕两个场景：单闭环的温度PID控制和双闭环（电流环+速度环）的无刷电机PI控制。温度控制对实时性要求相对宽松，但考验算法的稳态精度和抗积分饱和能力；电机控制则对实时性要求苛刻，尤其是内环（电流环），必须在极短时间内完成计算并输出PWM。整个实现基于增量式PID算法，用Altera（现在叫Intel）的FPGA和配套IP核搭建，中间在时钟管理、流水线设计、数据格式处理上踩了不少坑，也总结出一些让算法在硬件里既跑得快又跑得稳的门道。

2. 核心算法选型与硬件化拆解

2.1 为什么选择增量式PID？

在软件（MCU）中实现PID，位置式和增量式区别可能没那么明显，但在FPGA里，这个选择直接影响电路结构和数据流。位置式PID的输出公式是：u(k) = Kp*e(k) + Ki*∑e(j) + Kd*[e(k)-e(k-1)]直接实现需要存储所有的历史误差进行累加（积分项），这对硬件来说意味着需要一个深度不断增长的累加器或者一个大存储器，不仅资源消耗大，抗积分饱和处理也更复杂。

而增量式PID的输出是控制量的增量：Δu(k) = Kp*[e(k)-e(k-1)] + Ki*e(k) + Kd*[e(k)-2e(k-1)+e(k-2)]u(k) = u(k-1) + Δu(k)它的优势一下子就体现出来了：

无需历史误差累加：积分项变成了当前误差Ki*e(k)，省去了一个庞大的累加器，只需要保存最近两次的误差值e(k-1)和e(k-2)即可。这在FPGA里用几个寄存器就能搞定，节省了大量逻辑资源。
抗积分饱和天然友好：由于输出是增量，当执行机构达到极限（如PWM占空比达到100%）时，算法可以很容易地通过停止累加增量来防止积分饱和，即所谓的“积分分离”或“抗饱和”处理在硬件上实现起来更直观。
手动/自动切换无冲击：因为输出是相对于上一次的增量，切换时不会产生大的阶跃变化。
适合FPGA的流水线处理：公式清晰地分解为几个乘加阶段，可以完美地映射到FPGA的DSP Slice和流水线寄存器上。

所以，对于资源敏感、要求高实时性的FPGA实现，增量式PID几乎是首选。我的温度和电机控制都采用了这个结构。

2.2 定点数定标：精度与范围的权衡

FPGA处理浮点数非常消耗资源（需要专用的浮点IP核或大量逻辑单元），而PID算法的系数和误差值通常都是小数。因此，采用定点数（Fixed-Point）表示是必然选择。这就要做“定标”。

我选择的是Q格式表示法。在我的设计里，数据位宽为10位有符号数，其中低4位表示小数部分。这可以记作Q4.5（有时也写作Q4.5，表示4位整数，5位小数？这里需要统一：10位有符号，若低4位是小数，则高6位是符号位+整数位，实际上是Q5.4或Q6.4？更常见的描述是：采用10位有符号数，其中低4位为小数位，那么它的量化单位就是 2^(-4) = 0.0625。它能表示的范围是 [-512, 511] * 0.0625 = [-32.0, 31.9375]。

为什么是10位Q4格式？

温度控制场景：DS18B20测温精度典型值为±0.5°C，分辨率0.0625°C。我们的量化单位0.0625正好匹配其分辨率，不会引入额外的量化误差。控制输出PWM占空比精度为1/2^10 ≈ 0.1%，对于加热器控制足够。
电机控制场景：电流采样ADC可能是12位的，但经过电流环PI计算后，最终目的是产生PWM。10位输出对应1024级PWM分辨率，对于大多数电机驱动也足够了。
资源考量：乘法器资源消耗与位宽平方相关。10位乘法器比12位或16位节省大量DSP资源。后续的累加器位宽也可以相应减少，防止溢出处理也更简单。

定标过程示例：假设比例系数Kp = 1.5。在Q4格式下，需要将其转换为整数：Kp_fixed = round(1.5 * 2^4) = round(24) = 24。在硬件中，存储和参与运算的就是整数24。当它与误差值（同样以Q4格式表示）相乘时，结果为20位（10位*10位），但小数位变成了8位（4+4）。我们需要截取或舍入到合适的位宽，并保持输出仍在Q4格式，这通常通过右移4位来实现。

注意：系数定标后，实际的Ki和Kd需要根据采样周期T重新计算。例如，离散积分系数Ki = Kp * T / Ti，离散微分系数Kd = Kp * Td / T。这些计算应在软件（上位机或MCU）中完成，然后将定标后的整型系数写入FPGA的配置寄存器。

2.3 系统时钟与数据流同步策略

这是FPGA实现与软件实现最大的不同点之一。PID算法模块可以运行在很高的时钟频率（如50MHz），但被控对象的反馈数据更新可能很慢。

温度控制场景：DS18B20单次温度转换典型时间为750ms，即便采用过采样，更新率也在1Hz左右。如果让PID计算模块一直运行，它会以纳秒级周期不断用“旧”的温度值计算，输出会剧烈跳动，毫无意义。
电机控制场景：电流采样和速度估算可能以10kHz或20kHz的频率进行。PID算法需要与这个频率同步。

我的解决方案是引入一个使能信号（如ds_en或pid_en）。这个信号由上游的数据采集或预处理模块产生，每当一组新的、有效的反馈数据准备好时，就产生一个时钟周期的高脉冲。

在PID模块内部，这个使能信号控制着几个关键操作：

锁存新误差：将计算出的新误差值e(k)存入寄存器，同时将旧的e(k)移位为e(k-1)，e(k-1)移位为e(k-2)。
触发增量计算：使能信号作为流水线计算的启动信号。
更新输出：在计算流水线的末端，使能信号延迟对齐后，允许最终的增量Δu(k)累加到总输出u(k)上。

这样，无论PID模块内部时钟多快，它的“心跳”都与实际系统的控制周期严格同步，避免了无效计算和输出抖动。对于电机控制这种高速场景，使能信号频率高，PID模块能跟得上；对于温度控制这种低速场景，PID模块大部分时间在“休眠”，节省了动态功耗。

3. FPGA硬件架构设计与实现细节

3.1 顶层模块划分与接口定义

整个PID控制器在FPGA中作为一个独立的IP模块存在。其顶层接口大致如下：

module pid_incremental ( input wire clk, // 系统时钟 (e.g., 50MHz) input wire rst_n, // 异步低电平复位 input wire pid_en, // 计算使能，上升沿触发一次新计算 input wire signed [9:0] setpoint, // 设定值 (Q4格式) input wire signed [9:0] feedback, // 反馈值 (Q4格式) output reg signed [9:0] pid_out // PID输出值 (Q4格式) );

模块内部主要包含以下几个子部分：

误差计算单元：计算e(k) = setpoint - feedback。
误差延迟链：两个寄存器级联，用于保存e(k-1)和e(k-2)。
系数寄存器组：存储来自外部配置的Kp_fixed,Ki_fixed,Kd_fixed。
增量计算流水线：核心计算单元，实现Δu(k)的公式。
输出累加与限幅单元：计算u(k) = u(k-1) + Δu(k)，并进行输出限幅。

3.2 增量计算流水线的具体实现

这是性能的关键。直接用一个组合逻辑巨量表达式来计算Δu(k)虽然简单，但会导致路径延迟很长，严重限制系统时钟频率。因此必须采用流水线。

我们将公式Δu(k) = A + B + C，其中：

A = Kp * [e(k) - e(k-1)]
B = Ki * e(k)
C = Kd * [e(k) - 2*e(k-1) + e(k-2)]

拆分成三级流水线：

第一级流水线（时钟周期T1）：

计算差值delta_e1 = e(k) - e(k-1)。
计算差值delta_e2 = e(k) - e(k-1) - e(k-1) + e(k-2) = e(k) - 2*e(k-1) + e(k-2)。这里可以用两个减法器，也可以优化。
锁存e(k)用于B项计算。
关键操作：将这些中间结果用寄存器打一拍。

第二级流水线（时钟周期T2）：

执行三个乘法操作：
- mult_A = Kp * delta_e1
- mult_B = Ki * e(k)(上一周期锁存的)
- mult_C = Kd * delta_e2
关键操作：将三个乘积结果用寄存器打一拍。这里强烈建议使用FPGA供应商提供的DSP IP核（如Altera的altera_mult_add），它们本身是高度流水线化的，并且能高效利用芯片内的DSP硬核。

第三级流水线（时钟周期T3）：

执行加法操作：delta_u = mult_A + mult_B + mult_C。
关键操作：对加法结果进行舍入和截位，恢复成Q4格式。例如，乘法后小数位是8位，需要右移4位。简单的截断会引入偏差，建议采用四舍五入：delta_u_rounded = (delta_u + (1 << 3)) >>> 4（假设delta_u是无符号数，这里需考虑有符号数的舍入处理，需谨慎）。
将处理后的delta_u输出给累加单元。

通过三级流水线，系统最高时钟频率由最慢的一级（通常是乘法器）决定，而不是整个复杂组合路径，频率可以提得很高。计算延迟是3个时钟周期，对于50MHz时钟，延迟仅60ns，完全满足微秒级响应的要求。

3.3 输出累加、限幅与抗饱和处理

流水线输出的delta_u在使能信号的有效控制下，送到累加单元。

always @(posedge clk or negedge rst_n) begin if (!rst_n) begin pid_out <= 10'sb0; end else if (pid_en_delayed) begin // pid_en 延迟对齐后的信号 // 执行累加 pid_out_temp = pid_out + delta_u_rounded; // 限幅处理 if (pid_out_temp > 10'sd511) begin // 上限 31.9375 pid_out <= 10'sd511; end else if (pid_out_temp < -10'sd512) begin // 下限 -32.0 pid_out <= -10'sd512; end else begin pid_out <= pid_out_temp; end end end

抗积分饱和（Anti-Windup）的硬件实现：在增量式PID中，抗饱和逻辑可以很优雅地实现。我们不需要像位置式那样去钳位积分项，只需要在输出达到限幅值时，阻止本次的增量delta_u被累加即可。但更常见的“条件积分”法在硬件里可以这样实现：

在计算Ki * e(k)的路径上，增加一个判断逻辑。当输出已经达到上限且误差e(k)为正（说明需要继续正向积分），或者输出达到下限且误差e(k)为负时，将送入乘法器的e(k)值强制置为零。这样，积分项在当前周期就被冻结了。

// 在误差送入积分乘法器之前 reg signed [9:0] e_for_integral; always @(*) begin if ((pid_out >= OUT_MAX) && (e_k > 0)) || ((pid_out <= OUT_MIN) && (e_k < 0)) begin e_for_integral = 10'sb0; // 积分冻结 end else begin e_for_integral = e_k; end end // 然后用 e_for_integral 去计算 B = Ki * e_for_integral

3.4 资源利用与优化技巧

使用Altera Cyclone IV EP4CE10器件进行综合后，资源消耗大致如下：

逻辑单元（LEs）: 约 200-400 个（取决于控制逻辑复杂度）。
寄存器（Registers）: 约 100-200 个。
DSP Block 9-bit Elements: 3个乘法器各需一个，共3个。如果使用altera_mult_addIP核，可能能更优化地打包。

优化经验：

活用IP核：不要用逻辑单元堆乘法器。务必使用 Quartus Prime 里的 DSP IP核，它们针对器件架构优化，速度更快，面积更小。
位宽管理：严格管理内部数据位宽。乘法后位宽会扩展，要尽早进行合理的舍入和饱和处理，防止位宽爆炸式增长消耗过多寄存器和布线资源。
流水线深度权衡：流水线越深，频率越高，但延迟也增加。对于电机电流环，延迟至关重要，可能3级流水就是极限。对于温度控制，可以加深流水线以获得更高的潜在频率（虽然用不到），但意义不大。需要根据系统要求折中。
同步复位与异步复位：尽量使用同步复位，更利于时序分析和可靠性。如果必须用异步复位，要做好复位恢复和移除的时序约束。

4. 仿真测试与调试心得

4.1 测试平台（Testbench）搭建

仿真对于验证算法正确性至关重要。我用SystemVerilog写了一个简单的测试平台。

module tb_pid(); reg clk, rst_n, pid_en; reg signed [9:0] setpoint, feedback; wire signed [9:0] pid_out; pid_incremental uut (.*); // 实例化被测单元 initial begin clk = 0; forever #10 clk = ~clk; // 50MHz时钟 end initial begin // 初始化 rst_n = 0; pid_en = 0; setpoint = 10'sd160; // 对应10.0 (160*0.0625) feedback = 10'sd0; #100 rst_n = 1; // 模拟一个阶跃响应过程 repeat(20) begin #1000; // 每1us（假设控制周期）使能一次 pid_en = 1; #20 pid_en = 0; // 简单模型：反馈值以一定速度趋向设定值 if (feedback < setpoint) feedback = feedback + 5; end #2000 $finish; end endmodule

在ModelSim中运行仿真，可以观察pid_out信号的变化波形。重点观察：

在pid_en上升沿后，经过固定的流水线延迟（如3个周期），pid_out是否更新。
更新值是否符合预期。可以手动计算几个周期的Δu(k)进行对比。
当输出达到限幅值时，是否触发了抗饱和逻辑（积分项是否被冻结）。

4.2 实际调试中的问题与解决

输出振荡或发散：
- 可能原因1：系数定标错误。这是最常见的问题。检查Kp, Ki, Kd的浮点值到Q格式整数的转换是否正确。特别是Ki和Kd，是否包含了采样周期T？一个快速验证方法：在仿真中，将设定值设为一个固定值，反馈值设为一个很小的常数误差，手动计算一个周期的Δu，与仿真波形对比。
- 可能原因2：数据溢出。检查乘法器和累加器中间的位宽是否足够。乘法结果可能达到20位，如果直接截取低10位，会丢失大量信息，导致计算错误。确保进行了正确的符号扩展和饱和处理。
- 可能原因3：时序不同步。确保pid_en信号与反馈数据更新严格对齐，且宽度为一个时钟周期。用逻辑分析仪或SignalTap II抓取实际信号，看使能、反馈、输出三者关系是否正确。
响应速度慢：
- 可能原因：pid_en频率过低。PID的控制频率必须远高于被控对象的带宽。对于电机电流环，可能需要20kHz以上（周期50us）。检查你的数据采样和使能生成逻辑是否满足这个频率。
资源使用超预期：
- 检查是否意外生成了不必要的存储器。例如，如果代码中描述了类似数组的行为，综合工具可能会推断出RAM而不是寄存器。
- 检查乘法器是否被复用。如果代码在一个时钟周期内用同一个变量进行多个不同系数的乘法，工具可能无法复用乘法器，导致生成多个。可以考虑时分复用，但会增加控制复杂度。
时序违例（Setup/Hold Time Violation）：
- 高频时钟下容易出现。解决方法：
  - 增加流水线级数，切割长组合路径。
  - 对输入/输出信号添加适当的时序约束（set_input_delay/set_output_delay）。
  - 使用寄存器输出，而不是组合逻辑输出。

4.3 从仿真到上板的验证步骤

功能仿真：使用ModelSim等工具，用测试向量验证逻辑正确性。这是第一步，必须通过。
时序仿真：布局布线后，提取SDF文件进行反标时序仿真。考虑实际走线延迟，检查在高温、低压等最差条件下是否还能正常工作。
片上逻辑分析仪：使用Intel SignalTap II或Xilinx ILA。这是最强大的调试工具。将关键信号（clk,rst_n,pid_en,setpoint,feedback,pid_out, 内部误差e_k，甚至流水线中间值）添加到观察列表。
- 触发设置：可以设置为pid_en上升沿触发。
- 观察：实时查看数据流，对比实际运行值与仿真预期值是否一致。可以手动改变设定值，观察输出响应曲线。
联合调试：将FPGA与真实的传感器（DS18B20）和执行器（加热MOSFET、电机驱动器）连接。
- 温度控制：用示波器测量PWM输出波形，用温度计监测实际温度变化。调整PID参数，观察系统的升温曲线、超调、稳态误差。
- 电机控制：这是更严格的测试。需要双通道示波器，一通道看电流采样信号（或相电流），另一通道看生成的PWM。观察启动、加载、调速时的电流响应是否快速、平滑。可能需要配合MCU，通过串口或SPI实时调整FPGA中的PID参数进行在线整定。

5. 双闭环电机控制系统的集成应用

在无刷直流电机（BLDC）或永磁同步电机（PMSM）的FOC控制中，双闭环（电流环+速度环）是标准结构。FPGA实现的PID非常适合这里的内环——电流环。

5.1 系统架构

通常，系统由MCU+FPGA构成分工：

MCU（如STM32）：
- 负责上层任务：速度给定、位置计算、速度环PID计算（速度环带宽低，MCU足以应付）。
- 与FPGA通信，发送速度环的输出（作为电流环的q轴电流设定值Iq_ref）以及启停命令。
- 可能负责ADC采样触发（但ADC数据直接给FPGA更快）。
FPGA：
- 负责高速、硬实时部分：
  1. 接收ADC采样的三相电流Ia, Ib, Ic（或两相+直流母线电流）。
  2. 执行Clarke变换和Park变换，得到旋转坐标系下的Id, Iq。
  3. 运行两个电流环PI控制器（Id环和Iq环，通常Id_ref设为0）。
  4. 执行反Park变换，得到静止坐标系下的电压矢量Vα, Vβ。
  5. 运行空间矢量脉宽调制（SVPWM）算法，生成6路PWM信号驱动逆变桥。

在这个架构中，电流环的PI控制器就是我上面实现的PID模块（去掉微分项）。由于电流环要求极高的响应速度（带宽通常在1kHz以上），用FPGA实现其PI运算，可以将整个电流环的延迟控制在几个微秒内，这对于实现高性能的力矩控制至关重要。

5.2 集成注意事项

数据接口同步：MCU给FPGA的速度环输出（Iq_ref）和FPGA给MCU的反馈信号（如实际速度、故障状态）需要通过可靠的同步接口，如SPI或并行总线，并做好跨时钟域处理（CDC）。
ADC接口：FPGA直接连接ADC芯片的并行或高速串行接口（如SPI），以最小延迟获取电流采样值。需要在FPGA内实现ADC的驱动时序和采样保持逻辑。
PWM死区生成：SVPWM模块输出的上下桥臂驱动信号，必须在FPGA内部插入可配置的死区时间，防止上下管直通烧毁功率器件。这是一个非常关键的安全功能。
故障保护：FPGA应实时监测电流、电压。一旦过流或过压，必须在纳秒级内关闭所有PWM输出（刹车）。这个保护环路必须是纯硬件逻辑，不能经过任何软件。

5.3 参数整定经验

将PID算法硬件化后，参数整定的本质没有变，但有一些硬件带来的特点：

离散化效应：控制周期T是固定的（由pid_en频率决定）。T越大，离散化带来的相位滞后越大。在保证计算完成的前提下，尽量提高pid_en频率。
量化误差：Q格式会引入稳态误差。如果发现系统始终存在一个固定的静差，可以尝试：
- 增加小数部分位宽（比如从Q4改成Q8），提高分辨率。
- 在累加器输出端，加入一个微小的常数偏置（谨慎使用）。
- 检查是否由于舍入方式总是向下取整导致。
调试方法：仍然可以采用经典的齐格勒-尼科尔斯法或试凑法。但由于FPGA在线修改参数需要重新配置或通过寄存器接口，建议在MCU端做一个上位机界面，通过串口实时调整FPGA内的PID系数寄存器，观察响应曲线，这会大大提升调试效率。

这次把PID算法用FPGA实现一遍，最大的感触是思维模式的转变。从软件的顺序执行思维，切换到硬件的并行流水线思维，需要仔细规划数据流和时序。虽然前期在仿真和调试上花的时间比写软件PID多得多，但一旦调通，其确定性、高速性和可靠性带来的收益是巨大的。对于需要高性能实时控制的场合，FPGA方案提供了一个软件无法比拟的坚实底层。

查看全文

http://www.jsqmd.com/news/968197/