Ultra-high Temporal Resolution Visual Reconstruction from a Fovea-like Spike Camera via Spiking Neur

2022/4/9 23:19:09

编程Tag： 图像相机采样重建视觉 via 脉冲 Spiking Fovea

本文主要是介绍Ultra-high Temporal Resolution Visual Reconstruction from a Fovea-like Spike Camera via Spiking Neur，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

IEEE transactions on pattern analysis and machine intelligence, (2022) 同组工作

Abstract

　　神经形态视觉传感器是近年来出现的一种新的仿生成像范式。它使用异步脉冲信号代替传统的基于帧的方式来实现超高速采样。与通过模仿视网膜周边感知运动的动态视觉传感器(DVS)不同，最近开发的脉冲相机通过模拟称为中央凹的小视网膜区域来感知精细纹理。对于这种新型神经形态相机，如何从脉冲数据中重建超高速视觉图像成为视觉场景感知、分析和识别应用中一个重要但具有挑战性的问题。在本文中，首次提出了一种基于仿生的脉冲相机视觉重建框架。其核心思想是利用受生物启发的自适应调整机制，结合所提模型提取的时空脉冲信息，以超高的时间分辨率重建自然场景的完整纹理。具体来说，所提出的模型由一个运动局部激发层、一个脉冲细化层和一个视觉重建层组成，该层由生物学合理的LIF神经元和具有脉冲时间依赖可塑性(STDP)规则的突触连接驱动。为了评估性能，我们为脉冲相机记录的现实世界中的正常和高速场景构建了脉冲数据集。实验结果表明，该方法可以在正常和高速场景中以每秒40000帧的速度重建视觉图像，同时实现高动态范围和高图像质量。

Index Terms—Neuromorphic vision sensor, spike camera, texture reconstruction, spiking neural model, bio-inspired vision.

1 INTRODUCTION

　　许多典型的新兴应用，如自动驾驶、无人机和自主移动机器人，都是实时应用，需要在高速场景中做出快速反应[1]。通常，视觉处理基于从传统相机捕获的图像或视频，将曝光时间内的光强度累积到一帧中。然而，关键信息可能会丢失，因为该时间段内的光强度变化是平均的[2][3]。增加帧速率可能会缓解这个问题，但仍然有一个最短曝光时间来测量平均光强度。同时，在高帧率下会带来巨大的传输带宽需求，这在很多应用中通常难以满足[3]。

　　如果我们将注意力转向人类视觉，视觉采样与数码相机的视觉采样完全不同。虽然人类视觉的机制过于复杂，无法完全理解，但人类视网膜的物理结构和信号处理给我们一些启示。其中，事件相机(又名动态视觉传感器，DVS)是最广为人知的[4][5]。独立采样打破了曝光的限制，这通常是大多数基于帧的相机提高帧率的瓶颈。在DVS中，每个像素通过生成异步脉冲独立响应亮度强度的变化。这种机制类似于视网膜周边，它只对移动的物体敏感。其输出脉冲的时间冗余大大减少，但是，它不能像传统相机那样重建视觉图像。为了解决这个问题，随后开发了一些混合传感器，通过结合DVS和传统图像传感器(DAVIS)[6]，或添加额外的光测量电路(例如，ATIS [7]、CeleX [8])，但有由于两种异构电路之间的采样时间分辨率不同，存在运动失配。

　　为了解决在保持高采样率的同时捕获视觉纹理的问题，一些研究人员设计了一类脉冲图像传感器，以使每个像素模仿IF神经元的行为并异步工作[9][10][11]。脉冲图像传感器不像传统相机那样为所有像素选择固定的积分时间，而是确保每个像素选择自己的最佳积分时间，以实现高动态范围和改进的信噪比[9]。这种传感器能够以无帧方式重建视觉纹理。使用时间窗口或脉冲间间隔，可以重建图像纹理[10]。

　　最近，Dong等人[12][13]提出了一种基于类中央凹采样方法(FSM)的脉冲相机，属于脉冲图像传感器的范畴。在中央凹中，从感光器(输入)到神经节细胞(输出)的路径是一对一的连接。作为一个粗略的近似，神经元动力学可以被认为是一个整合过程，结合了触发高于某个临界电压的动作电位的机制。与之前的脉冲图像传感器相比，这种称为脉冲相机的传感器模拟了灵长类动物中央凹的结构和功能，它可以感知精细的纹理并以高时间分辨率对脉冲发放做出响应。与DVS等事件相机不同，具有空间(250 x 400)和时间分辨率(40000 Hz)的脉冲相机将视觉重建和运动灵敏度结合在一起[13]，适用于处理高速视觉任务。然而，之前的重建算法[10][13]在复杂环境中会遇到低对比度或模糊的问题。事实上，高质量的图像重建主要有两个挑战：1) 如何从脉冲数据中重建出适合人类视觉的视觉图像？2) 如何以高时间分辨率重建高速运动？根据脉冲采样机制，关键问题是灵活利用隐藏在高时间分辨率脉冲数据时空分布中的光强变化(见图1)。

　　据我们所知，我们是第一个提出一个脉冲神经元模型框架，用于从类似中央凹的脉冲相机重建视觉图像。本文的主要贡献包括：1) 我们提出了一个三层脉冲神经模型，该模型依赖于生物学合理机制的组合，包括生物学合理的LIF神经元和与STDP规则的突触连接。使用具有高时间分辨率的脉冲数据，我们的方法可以在任何采样时刻(每秒40000帧)重建图像，同时保留场景的细节。2) 根据脉冲数据的时空分布，我们提出了一种基于一阶马尔可夫随机场(MRF)的动态神经元提取模型，以增量方式区分神经元状态(动态或静态)。此外，提出了一种动态脉冲细化方法来消除采样机制引起的时间模糊，这对于重建高质量的高速运动场景很有用。3) 我们构建了一个包含多个高速运动和静态场景的新脉冲数据集，用于评估重建方法，并将其提供给研究界。

　　这项工作的初步版本已部分作为会议报告(oral paper)发表在CVPR 2020上[14]。主要扩展有：1) 针对高速场景的重构，我们在脉冲细化层开发了动态尖峰细化机制。动态神经元提取后，动态脉冲将被细化，以消除采样机制引起的时间模糊和噪声。与之前的框架相比，可以提高运动区域的重建质量。2) 对于普通速度场景，我们采用基于电导动力学的STDP机制来提高收敛性能和重建质量。此外，还进行了更多的定性和定量实验来评估新版本中的STDP机制、动态脉冲细化和视觉重建。

　　本文的其余部分安排如下。第2节回顾了仿生视觉成像的相关工作，第3节分析了脉冲数据的表示和分布。第4节展示了所提出的脉冲神经模型。在第5节，我们讨论了视觉图像重建的实验结果。最后，本文在第6节结束。

2 RELATED WORK

2.1 Conventional Frame-based Visual Imaging

2.2 Bio-inspired Visual Imaging

2.2.1 Texture Reconstruction from DVS

2.2.2 Texture Reconstruction from the integration of DVS and Other Circuits

2.2.3 Texture Reconstruction from Spike Cameras

3 SPIKE DATA ANALYSIS

3.1 Spike Data Representation

　　在FSM中，光的强度由感光器转换为电压[13]。一旦电压达到预定义的阈值，就会输出一位脉冲信号，同时发出复位积分器的信号。这个过程与IF神经元非常相似。不同的亮度刺激导致不同的脉冲发放率，输出和复位在各个像素之间异步触发。通常，光线越亮，发放速度越快：

　　脉冲相机的原始数据是一个三维脉冲阵列D。脉冲相机只关心亮度强度的积分，并以超高频发放脉冲。在每个采样时刻，如果刚刚触发了一个脉冲信号，则输出数字信号"1"(即脉冲信号)，否则生成"0"。我们定义来表示像素(i, j)在时刻 t 的脉冲发放状态。为简单起见，我们用脉冲平面(spike plane)来表示某个时刻所有像素输出的脉冲信号，而某个像素产生的脉冲信号称为脉冲序列(见图6(a))。

3.2 Spike Data Distribution

　　积分器具有预定义的容量，也称为脉冲发放阈值Φ。如果积分器被填满，它将被重置并发射一个尖峰。由于光线的变化，积分器从空到满的持续时间不是恒定的。在显微镜下，发射一个尖峰意味着已经记录了固定数量的光子。我们将 N(t; ) 定义为在时间间隔 [t; ] 内到达感光器的光子数。 t+ ), R(t; ) 为同一时期实际记录的光子数。然而，两个连续光子到达之间的死区时间使 N(t; ) 和 R(t; ) 不相等。如果在时间 t 记录前面的到达，则在 (t; t + ] 期间任何后面的光子到达都不会被记录。

　　事实上，光子记录过程 R(t; ) 可以看作是一个更新过程，它涉及到循环模式，在每个模式之后，该过程都从头开始。光子到达过程通常被假定为均匀泊松过程[35]。它由单个标量参数化，该标量给出光子到达的平均速率。如果一次更新和下一次更新之间的等待时间具有集合均值和方差，则具有死区时间的光子记录过程是渐近高斯分布的 [36]：

　　脉冲间间隔（ISI）的分布可以被认为是几个独立且相同分布的更新过程的总和，被描述为渐近高斯分布。为了验证模型，我们在各种光照条件下使用尖峰相机记录了几个尖峰序列。我们假设 n 个光子的记录将达到调度阈值并产生一个尖峰。如果尖峰触发时间表示为 ti，则尖峰间间隔为 tISI = ti

这篇关于Ultra-high Temporal Resolution Visual Reconstruction from a Fovea-like Spike Camera via Spiking Neur的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Ultra-high Temporal Resolution Visual Reconstruction from a Fovea-like Spike Camera via Spiking Neur

相关编程文章