当前位置：首页 > news >正文

动态视觉传感器与主动感知：智能眼动决策如何将机器人视觉效率提升一倍

news 2026/7/16 1:02:38

1. 项目概述：当机器视觉学会“眨眼”

在传统的机器人视觉或监控系统中，我们早已习惯了摄像头“凝视”世界的方式：以固定的帧率（例如每秒30帧）连续拍摄静态图像，然后将这些图像帧一股脑地塞给后端的处理器进行识别和分析。这种方式简单直接，但存在一个根本性的效率问题：当场景静止时，系统仍在重复处理大量冗余的、几乎完全相同的信息，浪费了宝贵的计算资源和功耗；而当目标快速运动时，固定的帧率又可能丢失关键的运动细节，导致“运动模糊”。

这就像一个人试图在嘈杂的派对上听清一段对话，如果他一直保持耳朵全开，会被所有噪音淹没，但如果他能主动地、有选择性地侧耳倾听，就能更高效地捕捉到关键信息。生物视觉系统，尤其是人眼，正是采用了后一种“主动感知”策略。我们的眼球并非静止不动，而是持续进行着微小的、快速的跳动，称为“微眼动”。这些看似无意识的微小运动，对于维持清晰的视觉感知至关重要，它们不断刷新视网膜上的图像，防止视觉适应导致的“图像消失”，并帮助我们更好地感知物体的轮廓和纹理。

动态视觉传感器正是受此启发而诞生的一种革命性视觉传感器。它不像传统摄像头那样输出完整的图像帧，而是像视网膜的神经节细胞一样，只在检测到场景中某个像素点的光强发生变化时，才异步地输出一个“事件”。这个事件只包含三个信息：时间戳、像素位置和光强变化方向（变亮或变暗）。这种“事件驱动”的工作模式带来了几个颠覆性优势：极高的时间分辨率（微秒级）、极低的延迟、巨大的动态范围（>120dB）以及极低的数据带宽和功耗。因为静态的背景几乎不产生任何数据，只有运动的物体或传感器自身的运动才会触发事件流。

然而，DVS也带来了新的挑战。一个静止的DVS对着一个静止的物体，将“看”不到任何东西——因为没有光强变化。为了让DVS“看见”静态物体，必须引入相对运动。这引出了本项目的核心问题：我们该如何“聪明地”移动DVS，以最少的“眼动”（即机械扫描动作）代价，获取足以准确识别目标的信息？

这正是“主动感知”的精髓所在。我们不再被动地接收所有视觉数据，而是构建一个“感知-行动”的智能闭环：DVS（感知）获取初步的事件流，神经网络（认知）进行初步识别并评估置信度，然后一个决策模块（行动）根据当前认知的不确定性，决定是否需要、以及向哪个方向进行下一次“眼动”来获取更有效的信息。我们的目标很明确：在保证与进行多次随机眼动相同的识别精度的前提下，通过智能决策，将平均所需的眼动次数减半，从而显著降低系统延迟和整体功耗。这对于计算资源有限、对实时性和能效要求极高的嵌入式机器人、无人机或可穿戴设备来说，意义重大。

2. 核心原理与系统架构拆解

2.1 动态视觉传感器的工作原理与数据特性

要理解整个系统，首先必须吃透DVS的工作机制。你可以把DVS的每个像素想象成一个独立的、极度敏感的光强变化探测器。每个像素内部都有一个对数光强感受器和一个差分电路。它持续监测对数光强的变化量（d(log I) / dt）。一旦这个变化量超过一个预设的正向或负向阈值（例如±15%），该像素就会立即在总线上输出一个事件脉冲。这个脉冲就是所谓的“地址事件”，它编码了“在什么时间（t）、哪个位置（x， y）、发生了什么变化（极性p：+1或-1）”。

这种数据格式带来了几个关键特性：

稀疏性与异步性：数据流是稀疏的、事件驱动的。没有“帧”的概念，只有连续不断的事件流。这天然适合处理动态场景，对静态背景进行了极致压缩。
时间信息富集：每个事件都携带精确到微秒的时间戳，使得运动速度、方向等信息的提取变得非常直接。
数据表示的差异：传统图像是空间域上的强度矩阵，而DVS输出的是时空中“变化”的点的集合。这要求后续的处理算法必须从根本上进行革新，传统的基于帧的计算机视觉算法（如OpenCV中的大部分函数）无法直接套用。

2.2. 从事件流到“帧”：构建可处理的视觉表示

尽管DVS输出是异步事件流，但为了利用成熟且强大的深度学习模型（如卷积神经网络CNN），我们通常需要将一段时间内的事件累积成一个类似图像的“帧”。这个过程被称为“事件帧生成”或“时间表面”构建。

在我们的项目中，我们采用了一种基于事件率峰值的智能帧生成策略。研究发现，当DVS执行一次快速“眼动”时，事件率会呈现一个明显的峰值，大约在眼动开始后的50毫秒左右达到最高。这是因为在眼动速度最快的中间阶段，像素上的光强变化最剧烈。因此，我们不是简单地将整个100毫秒眼动期间的所有事件都打包，而是只采集事件率峰值前后各5毫秒（总计10毫秒窗口）内的事件。这样做的好处是：

信息密度高：这10毫秒窗口包含了该次眼动所产生的最丰富、最清晰的边缘信息。
数据量可控：避免了采集过多冗余或噪声事件，减少了后续处理的计算负担。
对齐一致：无论眼动方向如何，我们都以事件率峰值为中心进行对齐，保证了不同眼动下生成帧的时间一致性。

生成的帧是一个28x28的二进制图像（如果忽略极性）或28x28x2的张量（如果区分正负极性事件）。每个像素位置记录在该时间窗口内是否至少发生了一次事件（或分别记录正/负事件）。

2.3. 系统闭环架构：感知、认知与决策的联动

整个主动感知系统的架构是一个典型的“感知-认知-决策-行动”闭环，如图7所示。其工作流程可以分解为以下几个核心模块：

感知模块：由安装在云台上的DVS构成。云台负责执行精确的、快速的微小转动，模拟生物的眼动。
认知模块：即符号识别神经网络。它接收从“帧生成器”传来的一个或多个眼动帧。为了处理可变数量的输入，SRNN被设计为接受一个“超帧”作为输入。超帧是一个固定大小的张量（例如28x84，对应三个可能的眼动方向各占一列）。如果某个方向的眼动尚未执行，其对应的区域则填充为零（空白）。SRNN经过训练，能够处理这种包含空白区域的输入，并输出一个10维的概率向量，分别对应数字0-9的识别置信度。
决策模块：即下一次眼动预测模块。这是实现“智能减半”的关键。它接收两个输入：一是SRNN当前输出的预测向量，二是一个标志位向量，指示哪些方向的眼睛已经执行过。NSP模块的核心任务是评估当前认知的“不确定性”。
- 不确定性度量：我们使用信息论中的熵来量化预测向量的不确定性。一个非常确定的预测（如[0.99， 0.01， ...]）熵值很低；一个完全不确定的预测（如[0.1， 0.1， ...]）熵值很高。
- 决策逻辑：NSP模块将当前预测的熵值与一个预设的阈值θ_H进行比较。如果熵值低于阈值，说明系统已经足够确信，无需再动，直接输出识别结果。如果熵值高于阈值，说明信息不足，需要执行下一次眼动。此时，NSP需要决定朝哪个方向动。
行动模块：即云台控制系统。它接收NSP模块发出的指令（“不动”、“水平动”、“对角向上动”、“对角向下动”），并驱动电机执行相应的微小转动。

这个闭环的核心智慧在于：系统学会了在“自信”时停止浪费动作，在“犹豫”时选择最能消除疑惑的观察角度。这模仿了人类观察一个陌生物体时的行为：我们可能会先正面看一眼，如果没认出来，会下意识地侧一下头或改变视角，以获得新的轮廓信息。

3. 智能眼动决策算法的深度解析

如何让NSP模块做出“聪明”的决策？我们探索并比较了两种截然不同的实现路径：基于规则的解析算法和基于数据的神经网络学习。

3.1 基于信息熵与置信度向量的解析算法

这是一种基于统计和启发式规则的方法，其逻辑清晰，可解释性强。

第一步：初始眼动方向选择我们首先在训练集上评估了三个固定眼动方向（水平SAC_H，对角向上SAC_DU，对角向下SAC_DD）各自的平均识别准确率。结果发现，水平眼动在大多数样本上表现最佳。因此，解析算法硬性规定：第一个眼动总是执行水平方向。这是一个基于全局先验知识的最优启发性选择。

第二步：判断是否需要第二次眼动执行完第一次眼动后，SRNN会给出第一个预测向量。计算该向量的熵H。如果H < θ_H，认为置信度足够，停止眼动，输出结果。如果H ≥ θ_H，则触发决策：需要第二次眼动。

第三步：选择第二次眼动的方向（核心）这是算法的精髓。我们不再随机选择，而是根据第一次眼动后得到的“初步印象”来推断哪个方向能提供最大的信息增益。为此，我们引入了置信度系数向量的概念。

CCV的计算：在训练阶段，对于每一个训练样本，我们在执行了第一个眼动（如SAC_H）后，分别计算如果接着执行SAC_DD或SAC_DU，哪个能带来更低的预测损失。然后，我们将所有“更适合接SAC_DD”的样本在第一次眼动后的预测向量取平均，得到向量CCV(H->DD)。同理得到CCV(H->DU)。这两个CCV各自是一个10维向量，其物理意义是：当系统对某个数字类别（如“5”）的初步预测概率较高时，历史经验告诉我们，接下来执行哪种眼动更有可能成功。
在线决策：在线运行时，当需要选择第二次眼动时，算法计算当前预测向量与两个CCV（H->DD和H->DU）的欧氏距离。选择距离更近的那个CCV所对应的眼动方向。直觉是：当前的“初步印象”与历史上哪些样本的“初步印象”相似，就采用历史上对这类样本最有效的后续眼动策略。

第四步：迭代与停止执行第二次眼动后，更新超帧，SRNN重新预测，计算新的熵，再次与θ_H比较，决定是否需要第三次眼动。理论上可以持续进行，但实践中，对于MNIST这类相对简单的数据集，两个眼动通常已足够。

注意：阈值θ_H是一个关键的超参数，它直接权衡了准确率和眼动次数。θ_H设得越低，系统越“谨慎”，会执行更多眼动以求更高的准确率；θ_H设得越高，系统越“冒进”，用更少的眼动换取稍低的准确率。我们的目标是在准确率下降可接受的范围内，最大化减少眼动。

3.2 基于深度强化学习思想的神经网络预测器

解析算法虽然有效，但其规则是人为设计的，可能无法捕捉复杂样本中眼动方向与识别结果之间微妙、非线性的关系。更重要的是，它难以扩展到更复杂的数据集或更多的眼动方向选择上。

因此，我们探索了用另一个神经网络——下一次眼动预测网络——来替代解析算法。NSPN的设计更像一个轻量级的策略网络。

网络输入：

SRNN当前的预测向量（10维）。
已执行眼动的标志位（3维，one-hot编码，表示SAC_H/DU/DD是否已执行）。
一个额外的“无眼动”标志位（当且仅当前三个标志位均为0时为1）。

网络输出：4个标量值，分别代表执行“不动”、“SAC_DD”、“SAC_DU”、“SAC_H”这四种动作的预估成本。

训练目标（关键创新）：我们为NSPN设计了一个监督学习的训练目标。对于训练集中的每个样本，在每一个决策点（如执行了第一个眼动后），我们都可以计算出选择每个后续动作的“真实成本”。

成本定义：成本 = 预测损失 + 眼动机械成本。
- 预测损失：即公式(1)中的L_i，表示SRNN的预测与真实标签的差距。
- 眼动机械成本：一个固定的超参数SC，代表了执行一次眼动所带来的时间延迟和功耗代价。选择“不动”时，此项为0。

NSPN的训练目标就是学习一个映射函数：给定当前的认知状态（预测向量）和行动历史（标志位），输出对四个动作未来成本的准确估计。在推理时，系统简单地选择输出成本最低的那个动作。

优势：

端到端学习：NSPN可以直接从数据中学习最优策略，无需人工设计复杂的规则。
扩展性强：增加新的眼动方向只需相应增加输出维度，网络结构无需大变。
硬件友好：整个系统（SRNN + NSPN）可以统一用神经网络实现，便于在神经形态硬件或专用AI芯片上做一体化部署。

4. 实验验证与结果分析

我们使用经典的N-MNIST数据集进行验证。该数据集是通过将ATIS传感器安装在云台上，对着显示静态MNIST数字的屏幕执行三种固定模式的眼动而录制的，包含了每个数字在三种眼动下的异步事件流。

4.1 基线性能：开环眼动的识别效果

首先，我们建立了SRNN的基线性能。我们测试了不同网络结构（1层全连接、2层卷积+全连接、3层卷积+全连接）在不同输入配置下的表现。关键发现如下：

眼动方向信息是有用的：当网络结构较小、容量有限时，显式地告知网络当前输入来自哪个方向的眼睛（即保持眼动帧在超帧中的通道顺序固定），能带来显著的准确率提升。这表明方向信息本身是重要的特征。但对于大型网络，它可以通过学习从帧内容中隐含地推断出方向，因此显式提供的收益变小。
事件极性包含关键信息：同时使用正事件（变亮）和负事件（变暗）的帧，比只使用正事件的帧，识别准确率更高。这是因为正负事件分别对应了物体边缘的两侧，共同提供了更完整的轮廓信息。
水平眼动是最佳首发：在三个固定方向中，水平眼动在训练集上的平均识别率最高，这为闭环系统的初始动作选择提供了依据。

表VII展示了我们最终选用的一个中等规模SRNN（5个5x5卷积核的卷积层 + 10个神经元的全连接层）在N-MNIST测试集上的开环识别结果：

仅使用SAC_H: 94.87%
使用SAC_H + SAC_DD: 97.21%
使用SAC_H + SAC_DU: 97.02%
使用全部三个眼动: 97.57%

可以看到，增加眼动次数确实能稳步提升精度，但收益递减。从一次眼动到两次，提升约2.3%；从两次到三次，仅提升约0.5%。

4.2 闭环智能眼动系统的性能突破

接下来，我们测��闭环系统的核心目标：能否用更少的眼动，达到与三次眼动相近的精度？

解析算法结果：通过调整熵阈值θ_H，我们得到了图13所示的权衡曲线。当设定θ_H = 0.09时，系统取得了令人振奋的结果：测试集平均识别准确率达到97.57%，与使用全部三次眼动的开环系统精度完全相同！而平均每个样本消耗的眼动次数仅为1.54次。这意味着，通过智能决策，我们在不损失任何识别精度的情况下，将机械动作次数减少了近一半（从3次降至1.54次）。

神经网络预测器结果：我们训练了一个4层全连接的NSPN。通过调整机械成本SC，我们得到了类似的权衡曲线（图14）。当SC = 0.002时，系统达到了测试集97.6%的准确率，平均每个样本使用1.71次眼动。这个结果与解析算法高度一致，证明了用神经网络学习眼动策略的可行性。

4.3 决策行为分析：系统何时“自信”，何时“犹豫”？

为了深入理解NSPN的决策机制，我们对其在测试集上的行为进行了统计分析（表VIII， IX）：

41.7%的样本“一眼定乾坤”：对于超过四成的数字，系统在执行完第一次水平眼动后，预测熵就很低（低于阈值），NSPN直接决定“不再看了”，并以高达99.59%的准确率将其识别出来。这说明系统能有效识别出那些特征明显、易于辨认的样本。
约52%的样本需要“再看一眼”：对于这些样本，第一次眼动后系统信心不足，NSPN建议执行第二次眼动（主要是两个对角线方向之一）。在执行第二次眼动后，这批样本的识别准确率从第一次眼动后的94.87%提升到了98.44%。
约5%的“困难户”需要第三次眼动：有一小部分样本非常难以辨认，即使在两次眼动后，系统仍然犹豫不决。NSPN为它们请求了第三次眼动。这批样本的识别准确率从第一次眼动后的41.93%大幅提升到第三次眼动后的76.88%。虽然最终准确率仍不高，但提升幅度巨大，说明了额外眼动的价值。
极少数情况会“多看几次”：有0.75%的样本，NSPN甚至请求了超过三次眼动（重复之前的方向）。这批样本的识别错误率高达31.81%，属于“疑难杂症”。在真实场景中，重复眼动可能因为微小的视角变化而带来新的信息。

5. 实战部署考量与经验总结

将这套主动感知系统从论文搬到真实的机器人或嵌入式设备上，还需要考虑诸多工程细节。以下是我基于经验总结的几点关键注意事项和实操建议。

5.1 硬件平台选型与参数调优

DVS选型：目前市面上已有多个商用的DVS芯片，如iniVation的DAVIS346、Prophesee的Metavision传感器等。选择时需关注分辨率（如346x260）、事件吞吐率、延迟、功耗和接口（通常为USB 3.0或MIPI）。对于移动机器人，低功耗和小型化是关键。
云台要求：云台需要具备高精度、低延迟、小步进角度的快速转动能力。舵机或步进电机是常见选择。关键参数是角速度和加速度，它们决定了“眼动”的速度和清晰度。速度太慢，事件产生稀疏，帧信息弱；速度太快，可能产生运动模糊（对于DVS而言是事件过于密集或混乱）。需要与DVS的对比度阈值、 refractory period（不应期）等参数联合调试。
处理单元：SRNN和NSPN虽然规模不大，但需要实时运行。对于低功耗场景，可以考虑专用的神经形态处理器（如Intel Loihi、IBM TrueNorth）或低功耗AI加速器（如ARM Ethos-N，谷歌Edge TPU）。也可以使用轻量级框架在嵌入式GPU或FPGA上部署。

5.2 系统校准与实战调参踩坑记录

眼动轨迹与速度校准：这是最大的坑之一。论文中使用的是N-MNIST数据集预设的三个固定方向。在真实部署中，你需要定义自己的眼动模式库。除了水平、对角，还可以考虑垂直、小幅度旋转等。务必在目标场景下，采集数据并评估每个基础眼动模式的“信息获取效率”，以确定最佳的初始眼动和候选集。
帧生成时间窗口的确定：文中提到的“峰值前后5ms”是基于N-MNIST特定的眼动速度。在你的系统上，你需要实际测量一次眼动过程中事件率随时间变化的曲线，找到峰值，并确定一个能捕获主要特征的最短时间窗口。一个实用的方法是：逐渐增加时间窗口，直到识别准确率不再显著提升，那个窗口就是效率最优的。
熵阈值θ_H或机械成本SC的设定：这没有黄金标准，完全取决于你的应用对延迟、功耗和准确率的权衡。
- 对延迟敏感的应用（如高速避障）：应设定较高的θ_H或SC，容忍一定的误识率，以换取极致的决策速度。
- 对准确率敏感的应用（如精细操作识别）：应设定较低的θ_H或SC，不惜多“看”几眼也要确保认对。
- 建议的调参流程：在验证集上，绘制“平均眼动次数-准确率”曲线（如图13， 14），根据你的应用需求，在曲线上选择一个合适的操作点。
处理静态背景与动态干扰：真实场景充满挑战。静态但纹理复杂的背景可能在DVS移动时产生大量噪声事件。建议在帧生成后，加入一个简单的前景提取或噪声过滤步骤，例如，只保留事件密集的区域（即运动物体所在的区域），或使用基于时间表面衰减的滤波方法。

5.3 向更复杂场景的扩展思路

本项目以MNIST手写数字识别为验证任务，相对简单。如何扩展到更复杂的物体识别或场景理解？

更强大的SRNN：毫无疑问，需要替换为更深的CNN（如ResNet， MobileNet变体）或专门处理事件流的SNN。输入“超帧”的构建方式也需要重新设计，可能需要处理多尺度、多时间窗口的特征。
更丰富的眼动动作空间：从固定的几个方向，扩展到连续的方向角、不同的扫视幅度、甚至微小的旋转。这会使NSPN的输出空间变大，需要更复杂的策略网络（如采用Actor-Critic强化学习框架）来学习。
多任务与主动搜索：系统不仅可以“识别”，还可以“定位”和“搜索”。例如，NSPN可以决策下一步是“精细观察当前区域”还是“快速扫视其他区域以寻找新目标”。这需要将目标检测、跟踪等任务也整合到闭环中。
在线学习与自适应：让NSPN能够在部署后根据新环境的数据进行微调，持续优化其眼动策略，使其能适应不同的光照条件、物体类型和任务要求。

最后一点个人体会：这项工作的魅力在于它打破了传统视觉系统“被动接收-全力处理”的范式，引入了一种“主动询问-按需获取”的交互式感知哲学。它让我联想到人类认知的高效性——我们总是通过主动的注视、聚焦和视角切换来理解世界。将这种智能的“注意力机制”赋予机器视觉，尤其是在资源受限的边缘设备上，是通向更高能效、更类人智能的关键一步。从工程角度看，最大的挑战不在于算法本身，而在于如何将DVS的异步事件流、云台的精确控制、神经网络的低延迟推理这三者无缝、高效地集成到一个稳定的嵌入式系统中。这需要跨传感器、机械、算法、硬件的深度协同优化，也正是其挑战和乐趣所在。

查看全文

http://www.jsqmd.com/news/896877/