盗墓笔记全集,遮天,盗墓笔记小说

基于Transformer殘差網絡的事件重建算法

電子技術應用

王立喜1，劉云平1，湯琴琴2，李家豪1

1.南京信息工程大學自動化學院；2.無錫學院軌道交通學院

摘要： 目前的人工視覺系統仍然無法處理一些涉及高速運動場景和高動態范圍的真實世界場景。事件相機因其低延遲和高動態范圍捕捉高速運動的優勢具有消除上述問題的能力。然而，由于事件數據的高度稀疏和變化性質，在保證其快速性的同時將事件重建為視頻仍然具有挑戰性。因此提出了一種基于Transformer殘差網絡和光流估計的事件流重建算法，通過光流估計和事件重建的聯合訓練，實現自監督的重建過程，并引入去模糊預處理和亞像素上采樣模塊來提高重建質量。實驗結果表明，在公開數據集上，提出的方法可以有效提高事件流的重建效果。

關鍵詞： 事件相機視頻重建深度學習光流估計

中圖分類號：TP193.41 文獻標志碼：A DOI: 10.16157/j.issn.0258-7998.245292
中文引用格式： 王立喜，劉云平，湯琴琴，等. 基于Transformer殘差網絡的事件重建算法[J]. 電子技術應用，2024，50(11)：28-34.
英文引用格式： Wang Lixi，Liu Yunping，Tang Qinqin，et al. Event reconstruction algorithm based on Transformer residual network[J]. Application of Electronic Technique，2024，50(11)：28-34.

Event reconstruction algorithm based on Transformer residual network

Wang Lixi1，Liu Yunping1，Tang Qinqin2，Li Jiahao1

(1.School of Automation， Nanjing University of Information Science & Technology； 2.School of Rail Transportation， Wuxi University

Abstract： Current artificial visual systems still struggle to handle real-world scenarios involving high-speed motion and high dynamic range scenes. Event cameras have the capability to address these challenges due to their low latency and high dynamic range for capturing fast-moving objects. However, reconstructing events into videos while maintaining their speed presents a challenge due to the highly sparse and dynamic nature of event data. Therefore, this paper proposes an event stream reconstruction algorithm based on Transformer residual networks and optical flow estimation. By jointly training optical flow estimation and event reconstruction, a self-supervised reconstruction process has been achieved. Additionally, deblurring preprocessing and subpixel upsampling modules are introduced to enhance the quality of reconstruction. Experimental results demonstrate that the proposed approach effectively improves the reconstruction quality of event streams on public datasets.

Key words : event camera；video reconstruction；deep learning；optical flow estimation

引言

在過去的十年里，由于現代深度學習方法和神經體系結構優化，計算機視覺領域在許多不同的任務中取得了驚人的進步。但與生物系統相比，目前的人工視覺系統仍然無法處理一些涉及高速運動場景和高動態范圍的真實世界場景。這是因為傳統的基于幀的傳感器存在諸如運動模糊和低動態范圍等問題。事件相機具有消除上述問題的能力。它輸出異步像素且彼此獨立工作[1]。每個像素對局部相對光強度變化很敏感，當這種變化超過閾值時，它們會連續產生稱為事件的信號。因其高動態范圍、高時間分辨率和低延遲的優勢，事件數據已越來越多地被納入各種識別任務中，包括目標檢測[2]、語義分割[3]等。此外，事件數據還被用于需要高速感知的挑戰性機器人應用中，例如能夠捕捉對象的四足機器人[4]和能夠避開動態障礙物的撲翼機器人[5]。

盡管事件相機具有令人滿意的特性，但不能像處理強度圖像那樣直接處理事件流，而高質量的強度圖像是理解視覺數據的最自然的方式。因此，從事件中重建強度圖像一直是基于事件的視覺研究的基石。重建高質量強度圖像的另一個好處是可以立即將成功的基于幀的計算機視覺方法應用于重建結果，以解決各種任務。

目前基于事件相機的圖像重建分為兩類：基于濾波的傳統方法和基于深度學習的方法。基于濾波的方法是通過對事件數據進行濾波處理來還原圖像序列，包括中值濾波和高斯濾波[6]，但這些方法在處理復雜或動態場景的圖像時易失效。最近，基于深度學習的方法在基于事件的視頻重建任務中取得了顯著成果，為行人檢測和行人動作識別[7]等工作做出貢獻。Rebecq等[8]提出了一種新穎的遞歸網絡(E2VID)用于從大量事件中重建視頻，這是一種直接處理事件的端到端網絡。Cadena等[9]提出了一種基于條件生成對抗網絡的重建方法，將事件流數據用不同的表達方式來生成不同的灰度圖像。由于僅當像素的強度發生變化時才會異步生成事件，因此生成的事件體素柵格是稀疏張量，僅包含場景中變化部分的信息。這些體素柵格的稀疏性也非常不同。這使得神經網絡很難適應新的數據，并導致包含模糊、低對比度或涂抹偽影的問題。同時這些算法有初始化時間，此過程需要20到30幀，且第一幀的質量很差。

綜上所述，本文提出了一種基于Transformer殘差模塊的自監督重建算法，將光流估計與事件重建結合共同訓練學習實現自監督重建。本文的創新在于使用聯合訓練獲取高質量的初始幀并提高對特征的長期相關性學習能力，有效捕捉視頻上下幀的時空關聯特征。同時設計去噪預處理與亞像素上采樣操作模塊，抑制噪聲，減少信息損失，共同提高重建質量。實驗結果表明，在公開數據集上本文方法可以有效提高事件流的重建效果。

本文詳細內容請下載：

http://www.viuna.cn/resource/share/2000006206

作者信息：

王立喜1，劉云平1，湯琴琴2，李家豪1

（1.南京信息工程大學自動化學院，江蘇南京 210016；

2.無錫學院軌道交通學院，江蘇無錫 214015）

Magazine.Subscription.jpg

原創聲明：此內容為AET網站原創，未經授權禁止轉載。

相關內容