当前位置: 首页 > news >正文

安全与学习的平衡:基于约束与预算的主动学习控制框架解析

1. 项目概述与核心挑战

在机器人、自动驾驶等自主系统的开发中,我们常常面临一个两难困境:系统需要在未知或部分已知的环境中安全运行,同时又必须通过主动探索来学习并优化其内部模型参数,以提升长期性能。传统的鲁棒控制方法,如基于最坏情况设计的模型预测控制,虽然能提供坚实的安全保证,但其保守性会严重抑制系统的探索和学习能力,导致性能长期停滞在次优水平。反之,纯粹的主动学习或自适应控制策略,为了追求快速学习,可能会在探索过程中触发安全边界,造成不可接受的后果。这个“安全”与“学习”的矛盾,是推动高性能自主系统发展的核心瓶颈。

我最近在研究和工程实践中,深入探索并实现了一个名为“基于安全约束与预算控制的主动学习控制框架”的解决方案。这个框架的核心理念,是像一位精明的探险家制定行动计划:在深入未知区域(主动学习)前,必须确保有一条绝对安全的撤退路线(鲁棒备份策略),并且整个探险的物资消耗(探索成本)不能超过预先设定的预算。它不是在安全与学习之间做二选一的妥协,而是通过一套严谨的数学和工程机制,将两者无缝地编织在一起。

简单来说,这个框架建立了一个双层决策循环。在每一个重新规划的时刻,系统首先会基于当前最坏情况下的参数不确定性,计算出一个无论如何都能保证安全的“保底”策略。然后,在这个安全基线之上,系统会生成一系列更具“探索性”的候选策略,这些策略旨在收集能最大程度缩减参数不确定性的数据。最后,系统会像一个严格的审计官,对这些候选策略进行双重检验:第一,它是否依然安全(满足所有状态和输入约束)?第二,执行它的“探索成本”是否在总预算之内?只有同时通过这两项检验的最优候选,才会被最终执行。通过两个具体的案例——四旋翼无人机导航与自动驾驶赛车,我们验证了该框架不仅能严格保证全程安全,还能在预算内高效学习,最终显著提升任务完成效率。

2. 框架核心设计思路与原理拆解

要理解这个框架为何有效,我们需要深入其设计哲学和背后的数学原理。它不是一个简单的算法拼凑,而是一个建立在鲁棒控制、集员辨识和最优控制理论之上的完整体系。

2.1 双层策略架构:安全基线与探索前沿

框架的核心是一个精心设计的双层策略结构,这类似于为系统配备了一位“保守的保镖”和一位“激进的侦察兵”。

第一层:鲁棒备份策略这是系统的安全基石。在每一个规划时刻 ( t_k ),框架会基于当前参数不确定性集合 ( \Theta_k ) 和扰动边界 ( \mathcal{W} ),求解一个鲁棒优化控制问题(例如Tube MPC)。这个问题的解会生成一个鲁棒备份策略( \pi_{k}^{\text{rob,B}} ) 及其对应的鲁棒管( \Omega_k^{\text{rob}}(t) )。这个管是一个随时间变化的集合,它保证了:只要系统初始状态在管内,并且未来一直遵循该备份策略,那么无论真实参数 ( \theta ) 在 ( \Theta_k ) 内如何取值,无论扰动 ( w ) 在 ( \mathcal{W} ) 内如何作用,系统的真实轨迹都将被牢牢地“包裹”在这个管内,从而永不违反任何状态和输入约束。这个备份策略通常对应一个保守但绝对安全的行为,比如让无人机缓慢沿通道中心线飞行。

注意:这里“鲁棒管”的概念至关重要。它不是一条单一的轨迹,而是一个轨迹的“集合”或“走廊”。这允许系统在跟踪名义轨迹时存在一定的跟踪误差,只要误差不超出管的“半径”,安全性依然有保障。这是将鲁棒控制理论应用于实际系统的关键。

第二层:信息性候选策略在拥有了安全的“大后方”之后,系统便可以放心地向前探索。框架会生成一系列覆盖不同时间长度 ( T_i^{c,k} = [t_k, t_k + iT_c] ) 的候选策略段。对于每一个候选时段 ( i ),我们构造一个候选策略对( (\pi_{k,i}^{\text{I}}, \pi_{k,i}^{\text{rob,B}}) ):

  • ( \pi_{k,i}^{\text{I}} ):信息性策略段。它通过求解一个最优控制问题生成,其目标函数在最小化控制代价和偏离目标的同时,增加了一项“信息奖励”,例如最大化未来数据的信息矩阵行列式(D-最优设计)或最小化参数不确定集合的某种度量(如宽度)。这个策略会主动引导系统进入那些能最大程度区分不同参数的区域。
  • ( \pi_{k,i}^{\text{rob,B}} ):保守策略段。它仅仅是上述鲁棒备份策略 ( \pi_{k}^{\text{rob,B}} ) 在候选时段 ( T_i^{c,k} ) 内的限制。它代表了“如果什么都不探索,就执行原计划”的选项。

2.2 安全与预算的“守门人”机制

生成了候选策略对,并不意味着可以随意执行。框架引入了两个严格的“守门人”条件进行筛选,这正是其实现安全约束与预算控制的关键。

条件一:安全性验证——构建鲁棒信息性策略对于每一个候选对,框架需要验证信息性策略段 ( \pi_{k,i}^{\text{I}} ) 是否能在考虑所有不确定性后,依然保持安全。这通过尝试为 ( \pi_{k,i}^{\text{I}} ) 规划的名义轨迹构造一个鲁棒管来实现。如果能够成功构造出一个鲁棒管 ( \Omega_{k,i}^{\text{info}} ),使得在该管内的所有可能轨迹都满足约束,并且该管在时段终点能与鲁棒备份管 ( \Omega_{k}^{\text{rob}} ) 平滑衔接,那么我们就得到了一个鲁棒信息性策略段( \pi_{k,i}^{\text{rob,I}} )。这个策略段继承了信息性策略的探索性,同时被“加固”了鲁棒安全性。如果构造失败,则该候选对被直接拒绝。

条件二:预算可行性检查即使一个候选策略是安全的,它也可能因为探索动作过于“昂贵”而不可行。框架引入了一个总探索预算( B_{\text{exp}} )。在时刻 ( t_k ),已经累积的探索成本为 ( J_{\text{exec}}^k )。执行候选 ( i ) 会带来预测的额外探索成本 ( \Delta J_{\text{exp}}^k(i) )(例如,与保守基线相比多消耗的能量或时间)。预算约束要求: [ J_{\text{exec}}^k + \Delta J_{\text{exp}}^k(i) \leq B_{\text{exp}} ] 只有满足此不等式的候选,才是预算可行的。

决策与执行所有同时通过安全性验证和预算检查的候选,构成了可行候选集( \mathcal{F}c^k )。框架从这个集合中,选择一个能带来最大预测不确定性缩减 ( \Delta \xi_i ) 的候选 ( i^\star ) 来执行。如果可行集为空(即没有既安全又在预算内的探索选项),系统则自动回退到执行最短的保守策略段 ( \pi{k,1}^{\text{rob,B}} ),从而始终保证安全。

2.3 不确定性缩减的预测:两种工程化方法

如何量化执行一个候选策略能带来多少“信息收益”,即不确定性缩减 ( \Delta \xi_i )?框架提供了两种可工程实现的方法。

方法一:基于并行仿真的预测(蒙特卡洛方法)这是一种直观且易于实现的方法,尤其适用于非线性系统。

  1. 采样:从当前不确定性集 ( \Theta_k ) 中均匀采样 ( N ) 组参数 ( \theta^{(\ell)} ),同时采样多组扰动序列 ( {w_j^{(\ell)}} )。
  2. 前向仿真:对于每一组采样 ( (\theta^{(\ell)}, {w_j^{(\ell)}}) ),在闭环下前向仿真执行候选信息性策略段 ( \pi_{k,i}^{\text{I}} )。
  3. 集员辨识更新:利用仿真产生的输入-状态数据 ( {(\Phi_j^{(\ell)}, z_j^{(\ell)})} ),通过集员辨识算法更新参数集,得到预测的后验集 ( \Theta_{k+1,i}^{(\ell)} )。
  4. 量化缩减:计算每个样本带来的不确定性缩减,例如,比较更新前后参数集在若干方向 ( d \in \mathcal{D} ) 上的宽度 ( w_d(\cdot) ) 的变化:( \Delta \xi_i^{(\ell)} = \frac{1}{|\mathcal{D}|} \sum_{d \in \mathcal{D}} (w_d(\Theta_k) - w_d(\Theta_{k+1,i}^{(\ell)})) )。
  5. 取平均:最终的预测不确定性缩减 ( \Delta \xi_i ) 是所有 ( N ) 次独立仿真结果的平均值。

实操心得:并行仿真法的优势在于它能自然地考虑闭环跟踪误差和扰动对数据质量的影响,预测更接近实际。在工程中,我们可以利用GPU或分布式计算框架并行跑成千上万次仿真,在毫秒级内得到统计可靠的预测。关键在于采样策略和集员辨识算法的效率。

方法二:基于数据一致性的预测(解析方法)这种方法更轻量,适合对计算实时性要求极高的场景。其核心思想是:给定一条计划的轨迹(即开环的 ( p_{k,i}^{\text{info}} )),我们可以分析在 bounded noise 下,哪些参数值能够产生与真实参数 ( \theta^* ) 一致的观测数据。

  1. 构建回归矩阵:沿计划轨迹,在采样点构造回归矩阵 ( A )。
  2. 分析可区分性:两个参数 ( \theta ) 和 ( \theta^* ) 在噪声界 ( \bar{w} ) 内不可区分,当且仅当它们的差 ( e_\theta = \theta - \theta^* ) 满足 ( |A e_\theta|\infty \leq 2\bar{w} )。所有这样的 ( e\theta ) 构成一个误差集合 ( \mathcal{E}_\theta )。
  3. 预测后验集:执行该轨迹后,参数的不确定性集将从先验 ( \Theta_k ) 收缩为 ( \Theta_k \cap (\theta^* + \mathcal{E}\theta) )。其宽度上界可以通过求解一个线性规划问题得到:( w_d(\Theta{k+1,i}) \leq \min(w_d(\Theta_k), 2h_{\mathcal{E}\theta}(d)) ),其中 ( h{\mathcal{E}\theta}(d) = \min{\lambda_d: A^\top \lambda_d = d} | \lambda_d |_1 )。

注意:方法二的预测是乐观的,因为它假设实际执行的轨迹与计划轨迹完全一致,忽略了跟踪误差。因此,它通常给出不确定性缩减的上界。在实际应用中,可以将其作为快速初筛工具,再用方法一进行精细评估。

3. 框架的两种工程实现路径

理论框架需要落地到具体的控制器上。我们实现了两种具有代表性的工程实例化,分别对应不同的安全哲学和应用场景。

3.1 实例化一:基于Tube MPC的“内生安全”方案

这种方案将安全保证“内嵌”到轨迹生成过程中,适合对安全性要求极高、模型相对准确的系统,如无人机精密导航。

核心组件:

  1. 鲁棒备份策略生成:在每一个 ( t_k ),求解一个Tube MPC问题。这个优化问题不仅生成一条名义轨迹 ( (p_{k,x}^{\text{rob}}, p_{k,u}^{\text{rob}}) ),还同时计算出一个围绕该轨迹的“管”的横截面 ( E_k(t) )。名义轨迹需要满足被“收紧”后的约束 ( \mathcal{S}_k(t) = \mathcal{S} \ominus E_k(t) ) 和 ( \mathcal{U}_k(t) = \mathcal{U} \ominus \Delta U_k(t) ),其中 ( \ominus ) 是闵可夫斯基差。这保证了即使实际状态在管内波动,也绝不会违反原始约束。
  2. 信息性轨迹生成:对于每个候选时段 ( i ),求解一个带信息奖励的最优控制问题,生成信息性轨迹 ( p_{k,i}^{\text{info}} )。其终端状态被约束为必须与鲁棒备份轨迹在时刻 ( t_k+iT_c ) 的状态重合,即 ( x(t_k+iT_c) = p_{k,x}^{\text{rob},i}(t_k+iT_c) )。这是实现“可恢复性”的关键,确保探索结束后能平滑、安全地回归到备份轨迹。
  3. 安全验证:尝试为信息性轨迹 ( p_{k,i}^{\text{info}} ) 构造一个类似的鲁棒管 ( \Omega_{k,i}^{\text{info}} )。如果能成功构造,则意味着该信息性轨迹可以被“鲁棒化”,从而得到安全的 ( \pi_{k,i}^{\text{rob,I}} )。

工作流程(对应算法2):

  1. 计算鲁棒备份轨迹和管。
  2. 生成多个候选时段。
  3. 对每个时段,定义保守候选段(即备份轨迹的片段)。
  4. 求解信息性轨迹优化问题。
  5. 尝试为信息性轨迹构造鲁棒管,验证安全性。
  6. 对安全的候选,预测其不确定性缩减 ( \Delta \xi_i ) 和探索成本 ( \Delta J_{\text{exp}}^k(i) )。
  7. 筛选出满足预算约束的可行候选集。
  8. 选择得分最高者执行,若无则执行最短保守段。

实操心得:Tube MPC方案的计算负担主要在于在线求解鲁棒优化问题。在实践中,我们常采用线性差分包含或扰动仿射策略等近似方法,将鲁棒优化转化为确定性的、但约束更紧的优化问题,从而利用高效的QP或SQP求解器实时计算。终端约束的精确满足对于保证递归可行性至关重要。

3.2 实例化二:基于Gatekeeper的“后验验证”方案

这种方案将高性能规划与安全验证解耦,适合那些已有高性能但非鲁棒规划器(如基于学习或复杂黑箱模型)的系统,例如自动驾驶赛车。

核心组件:

  1. 高性能规划器:一个标准的MPC或甚至学习-based的规划器,基于当前参数估计值 ( \hat{\theta} ) 生成一条名义任务轨迹( (p_{k,x}^{\text{nom}}, p_{k,u}^{\text{nom}}) )。这条轨迹追求性能最优,但不对模型不确定性提供保证。
  2. 信息性规划器:另一个独立的优化器,生成旨在探索的信息性轨迹( (p_{k,x}^{\text{info}}, p_{k,u}^{\text{info}}) )。
  3. 回退策略:一个预先设计好的、非常保守但绝对鲁棒安全的策略(例如,缓慢沿赛道中心线行驶)。
  4. Gatekeeper验证器:这是安全的核心。对于每个候选时段 ( i ),我们构造两个候选策略(而非轨迹):
    • ( \pi_{k,i}^{\text{nom}} ):先在 ( T_i^{c,k} ) 内执行名义轨迹段,之后永远执行回退策略。
    • ( \pi_{k,i}^{\text{info}} ):先在 ( T_i^{c,k} ) 内执行信息性轨迹段,之后永远执行回退策略。 Gatekeeper通过大量的前向蒙特卡洛仿真来评估这些策略的安全性。它从 ( \Theta_k ) 和 ( \mathcal{W} ) 中采样大量 ( (\theta, w) ) 参数,进行闭环仿真,并统计在验证时段 ( T_i^{v,k} )(包含候选段和一段回退时段)内满足所有约束、且最终状态落入安全回退集 ( \mathcal{X}{\text{fb}} ) 的仿真比例。如果经验安全概率( P{\text{safe}} ) 高于预设阈值 ( 1-\delta ),则该策略被认证为安全。

工作流程(对应算法3):

  1. 分别用高性能规划器和信息性规划器生成名义轨迹和信息性轨迹。
  2. 生成多个候选时段。
  3. 对每个时段,构造名义和信息性候选策略。
  4. 使用Gatekeeper对每个候选策略进行安全验证(并行仿真)。
  5. 对通过验证的策略,估计其任务成本和预测不确定性缩减。
  6. 筛选出满足预算约束的可行候选集。
  7. 选择得分最高者执行,若无则沿用上一时刻的策略或执行回退策略。

实操心得:Gatekeeper方案的优势在于规划与验证分离,可以使用任何高性能甚至不可微的规划器。其挑战在于验证的计算量。我们通常采用自适应采样和提前终止策略:一旦失败样本数超过某个阈值,立即判定该策略不安全,无需完成全部仿真。此外,回退集 ( \mathcal{X}_{\text{fb}} ) 的设计需要谨慎,它必须是一个能吸引系统、并且从该集合出发,回退策略能长期保证安全的状态集合。

4. 案例研究:从理论到实践的跨越

我们通过两个差异化的案例,在仿真和实物实验中验证了框架的有效性。这两个案例分别对应了上述两种实例化方案。

4.1 案例一:带阻力参数学习的四旋翼导航(Tube MPC实例化)

系统与挑战:我们控制一个四旋翼无人机模型 ( \ddot{r} = -C_d |\dot{r}| \dot{r} + g + u + d ),其中空气阻力系数 ( C_d ) 未知且需要在线学习。任务是在有障碍的狭窄通道内导航至目标点。传统的鲁棒MPC会假设一个很大的 ( C_d ) 范围,导致控制非常保守,飞行缓慢。

框架应用

  1. 备份策略:使用Tube MPC,基于初始较大的 ( C_d ) 不确定性集 ( \Theta_0 ),生成一条保守但绝对安全的导航轨迹。
  2. 候选生成:在多个2秒的时间窗口上,生成旨在激发速度动态(以更好辨识 ( C_d ) )的信息性轨迹,例如进行小幅度的正弦摆动。
  3. 决策与学习:框架会评估这些摆动轨迹是否能在当前不确定性下被“鲁棒化”(即构造安全管),以及其探索成本。它选择了一个6秒长的安全且预算可行的摆动轨迹执行。
  4. 结果:如图6(左)所示,执行该信息性轨迹后,通过集员辨识更新,( C_d ) 的不确定性区间从 ([0.0, 0.5]) 显著缩小。更重要的是,如表I所示,虽然允许了10%的额外预算(用于探索),但框架最终完成整个导航任务的总成本(时间+能量)仅为保守基线方案的82.5%。这意味着,通过智能的、安全的探索,系统不仅学到了更精确的模型,还大幅提升了整体任务效率

4.2 案例二:自动驾驶赛车(Gatekeeper实例化)

系统与挑战:赛车模型为 ( \ddot{r} = -C_{d1} \dot{r} - C_{d2} |\dot{r}| \dot{r} + g + u + d ),包含两个未知的阻力参数 ( C_{d1}, C_{d2} )。任务是在未知摩擦特性的赛道上以最短时间跑完一圈。高性能的赛车线规划器能给出时间最优的轨迹,但该轨迹对参数误差极其敏感,直接使用可能导致冲出赛道。

框架应用

  1. 规划与验证分离:高性能规划器给出极限赛车线作为名义任务轨迹。一个独立的探索规划器生成旨在区分 ( C_{d1} ) 和 ( C_{d2} ) 的轨迹(例如,交替进行加速和滑行)。回退策略是沿赛道中心线低速行驶。
  2. Gatekeeper仲裁:在每一个决策点,框架构造多个候选策略(执行一段赛车线或探索动作后切回中心线)。Gatekeeper通过数千次并行仿真,评估每个策略在当前 ( (C_{d1}, C_{d2}) ) 不确定性下冲出赛道的概率。
  3. 结果:如图6(中,右)所示,框架在保证永不冲出赛道(安全)的前提下,执行了数次安全的探索动作。这些动作不对称地缩减了参数不确定性:( C_{d2} ) 的区间从 ([0.0, 0.80]) 大幅收缩到 ([0.25, 0.34]),而 ( C_{d1} ) 仅从 ([0.0, 0.50]) 收缩到 ([0.0, 0.33])。这是因为赛道动态对 ( C_{d2} ) (非线性阻力)更敏感,收集到的数据信息量更大。最终,在总成本仅为基线81.3%的情况下(远低于110%的预算),系统显著缩小了参数范围,为后续更激进的性能优化奠定了基础。

5. 工程实现中的关键问题与调优技巧

将这样一个理论框架落地到实际机器人系统,会遇到诸多挑战。以下是我在实践过程中总结的一些核心问题和解决方案。

5.1 计算实时性挑战与优化

框架需要在每个规划周期(通常为几十到几百毫秒)内完成备份策略计算、多个候选轨迹优化、安全验证/鲁棒管构造、以及不确定性预测。计算负担巨大。

  • 分层与异步计算
    • 高频层:执行已提交的策略段 ( \pi_k^{\text{com}} ) 的底层跟踪控制器(如PID、滑模控制)运行在最高频率(~1kHz)。
    • 中频层(核心):框架的决策循环运行在中频(~10-100Hz)。这是计算最密集的部分。
    • 低频层:一些昂贵的计算可以异步进行。例如,在执行当前策略段的同时,利用空闲CPU/GPU核心并行计算下一时刻多个候选策略的不确定性预测(方法一)。Gatekeeper的蒙特卡洛仿真更是高度可并行化的。
  • 热启动与缓存:Tube MPC求解器可以使用上一周期的解作为初始猜测,大幅提升收敛速度。候选轨迹优化问题结构相似,可以共享部分预处理矩阵。计算出的鲁棒管、参数集等中间结果应妥善缓存,供后续步骤使用。
  • 候选策略剪枝:并非所有候选时段都需要详细评估。可以先用计算量小的方法二快速评估所有候选的 ( \Delta \xi_i ) 上界,只对排名前几的候选进行耗时的安全验证和精确预测。

5.2 参数与权重调优

框架涉及多个关键参数,其设置直接影响性能。

参数含义调优建议与影响
( T_c )候选时段长度太短:决策频繁,计算开销大,探索不充分。太长:对环境和参数变化的反应迟钝。通常设为系统主导时间常数的1-3倍。
( N_k )候选数量权衡覆盖度与计算量。通常3-5个(如i=1,2,3,4,5)即可提供足够的选择多样性。
( \gamma )信息奖励权重平衡“任务性能”与“探索欲望”。从小值开始(如0.01),观察学习速度。若学习太慢则增大;若系统因过度探索而性能下降则减小。
( B_{\text{exp}} )总探索预算通常设为保守基线任务成本的某个百分比(如110%)。这代表了为学习而愿意付出的额外代价上限。
( \delta ) (Gatekeeper)风险容忍度安全关键系统设为极低值(如1e-4)。允许轻微性能牺牲的系统可适当放宽(如0.01)。

实操心得:最有效的调优方法是“分层调试”。首先,关闭探索功能(设 ( \gamma=0 ) 或 ( B_{\text{exp}}=0 )),确保纯保守模式能稳定安全运行。然后,逐步引入探索,先给一个很小的预算和权重,在仿真中观察系统行为,再逐步放开。永远不要一开始就在实物系统上运行全参数探索。

5.3 集员辨识的数值稳定性

集员辨识是框架中在线更新参数不确定性集 ( \Theta_k ) 的关键。通常采用多面体或椭球来描述集合。

  • 多面体表示:精度高,但复杂度随迭代可能爆炸式增长(顶点数膨胀)。必须定期进行凸包近似外包椭球计算,以控制复杂度。
  • 椭球表示:计算高效,迭代更新有闭式解(如最小体积外包椭球算法)。但用椭球包裹多面体可能引入保守性。
  • 混合策略:在内部使用多面体进行精确的可行性判断,但对外(如用于MPC设计)则使用其外包椭球。这平衡了精度和计算效率。

5.4 常见故障模式与排查

  1. 无可行候选(( \mathcal{F}_c^k = \emptyset ))
    • 现象:系统持续执行保守备份策略,从不探索。
    • 排查
      • 预算是否耗尽?检查 ( J_{\text{exec}}^k ) 是否已接近 ( B_{\text{exp}} )。
      • 安全验证是否过严?检查Tube构造的约束紧缩是否过于保守,或Gatekeeper的 ( \delta ) 是否设得太小。适当放松安全边际(如果系统允许)。
      • 不确定性是否已足够小?如果参数集 ( \Theta_k ) 已经很小,进一步探索的收益 ( \Delta \xi_i ) 可能很低,导致没有候选能通过预算-收益权衡。这是正常现象,意味着学习已接近饱和。
  2. 学习效率低下
    • 现象:参数集收缩缓慢。
    • 排查
      • 信息奖励权重 ( \gamma ) 是否太低?提高 ( \gamma ) 以鼓励探索。
      • 候选轨迹是否缺乏激励?检查信息性轨迹优化问题的终端约束是否过于严格,限制了探索动作的幅度。可以尝试在优化中增加对输入变化率的约束,而不是绝对幅值。
      • 预测是否不准?如果使用解析法(方法二),其乐观预测可能导致选择了实际信息收益很低的候选。切换到或结合仿真法(方法一)进行验证。
  3. 实时性不达标
    • 现象:规划周期超时。
    • 排查
      • 分析计算热点:使用性能分析工具,定位是MPC求解、鲁棒管构造还是蒙特卡洛仿真最耗时。
      • 降低精度:减少蒙特卡洛仿真次数 ( N );使用更简单的管构造方法(如矩形管);降低MPC的预测步长或离散化精度。
      • 代码优化与并行化:确保仿真、矩阵运算等部分已充分向量化和并行化。

这个框架的魅力在于它提供了一个系统化的“安全探索”范式。它不是某个特定的算法,而是一个可以容纳不同底层安全技术(如Tube MPC, Barrier Functions, Gatekeeper)和不同学习目标(参数辨识、特征学习)的架构。在实际项目中,我们常常需要根据被控对象的特性、计算资源和安全要求,灵活选择和组合这些技术模块。

http://www.jsqmd.com/news/914173/

相关文章:

  • 机器学习数据标注外包实战:平衡质量、成本与规模的核心策略
  • KeyPhraseTransformer核心优势揭秘:为什么它是T5模型中最优秀的关键词提取解决方案?
  • OnlyOffice 7.4社区版破解后,如何用Vue Demo快速搭建一个在线协作测试环境?
  • 告别数据丢失!用Arduino和AT24C256 EEPROM做个断电也能记住的‘小本本’
  • 微信投票活动怎么快速发起?西瓜评选小程序零基础也能快速上手完成制作 - 投票小程序
  • 实战:用ADSP-21569 EVB和SigmaStudio快速搭建一个8进6出的音频混音台
  • 医疗软件测试进阶:从功能验证到以患者为中心的体验守护
  • 别再折腾了!WSL2+Ubuntu22.04一键脚本搞定Geant4 v11.0.4安装与可视化(含常见GUI报错修复)
  • Mermaid Live Editor:为什么这款实时图表编辑器能让你的文档效率提升300%?
  • SAP动态安全库存计算逻辑全拆解:为什么你的MD04结果和别人的不一样?
  • 2026年口碑好的直流吊扇风扇/直流风扇/风扇/台式风扇厂家选择推荐 - 品牌宣传支持者
  • 解密Laguna XS.2架构:混合SWA注意力与256专家系统如何实现高效推理
  • 量子计算开发实战:从Qiskit、Q#工具链到Grover、Shor算法实现
  • 2026年评价高的朗盛门窗公司对比推荐 - 行业平台推荐
  • 机器人基础模型:从通用智能到物理执行的挑战与机遇
  • DownKyi终极指南:开源视频下载工具的高效使用教程
  • Claude服务蓝图设计实战手册:从零搭建企业级AI服务架构的5个关键决策点
  • 2026年口碑好的佛山露营风扇/风扇/佛山跨境风扇/佛山变频风扇可靠供应商推荐 - 行业平台推荐
  • AI检索新范式:context-1模型如何实现高效复杂信息检索
  • 算法如何重塑音乐审美:从推荐系统到社交传播的深层变革
  • 2026年口碑好的食品级硅橡胶配件/硅橡胶塑胶包胶配件批量采购厂家推荐 - 行业平台推荐
  • 从AGV到AMR:构建可扩展智能工厂的自主移动机器人系统全解析
  • LIO-SAM 完整安装教程(Ubuntu 20.04 + ROS Noetic + GTSAM 4.0)
  • 2026年口碑好的有机硅防污油漆/船舶油漆/水性油漆源头工厂推荐 - 品牌宣传支持者
  • Switch Transformers Base-32源码解析:理解路由机制与专家选择
  • AI数据标注:从算法竞争到数据驱动的工程化实践
  • UE5 Niagara实战:如何用‘事件’和‘蓝图通信’让粒子跟游戏世界互动(附项目文件)
  • AI如何解释连环杀手动机:XAI、NLP与伦理框架下的犯罪心理探索
  • 2026中国AI应用爆发:140万亿Token背后,小白程序员必备的五大趋势与收藏指南!
  • 2026年知名的大型工业吊扇/浙江厂房工业吊扇/高大空间工业吊扇/浙江车间工业吊扇精选推荐公司 - 品牌宣传支持者