《電子技術應用》
您所在的位置:首頁 > 人工智能 > 設計應用 > 基于Transformer殘差網絡的事件重建算法
基于Transformer殘差網絡的事件重建算法
電子技術應用
王立喜1,劉云平1,湯琴琴2,李家豪1
1.南京信息工程大學 自動化學院;2.無錫學院 軌道交通學院
摘要: 目前的人工視覺系統仍然無法處理一些涉及高速運動場景和高動態范圍的真實世界場景。事件相機因其低延遲和高動態范圍捕捉高速運動的優勢具有消除上述問題的能力。然而,由于事件數據的高度稀疏和變化性質,在保證其快速性的同時將事件重建為視頻仍然具有挑戰性。因此提出了一種基于Transformer殘差網絡和光流估計的事件流重建算法,通過光流估計和事件重建的聯合訓練,實現自監督的重建過程,并引入去模糊預處理和亞像素上采樣模塊來提高重建質量。實驗結果表明,在公開數據集上,提出的方法可以有效提高事件流的重建效果。
中圖分類號:TP193.41 文獻標志碼:A DOI: 10.16157/j.issn.0258-7998.245292
中文引用格式: 王立喜,劉云平,湯琴琴,等. 基于Transformer殘差網絡的事件重建算法[J]. 電子技術應用,2024,50(11):28-34.
英文引用格式: Wang Lixi,Liu Yunping,Tang Qinqin,et al. Event reconstruction algorithm based on Transformer residual network[J]. Application of Electronic Technique,2024,50(11):28-34.
Event reconstruction algorithm based on Transformer residual network
Wang Lixi1,Liu Yunping1,Tang Qinqin2,Li Jiahao1
(1.School of Automation, Nanjing University of Information Science & Technology; 2.School of Rail Transportation, Wuxi University
Abstract: Current artificial visual systems still struggle to handle real-world scenarios involving high-speed motion and high dynamic range scenes. Event cameras have the capability to address these challenges due to their low latency and high dynamic range for capturing fast-moving objects. However, reconstructing events into videos while maintaining their speed presents a challenge due to the highly sparse and dynamic nature of event data. Therefore, this paper proposes an event stream reconstruction algorithm based on Transformer residual networks and optical flow estimation. By jointly training optical flow estimation and event reconstruction, a self-supervised reconstruction process has been achieved. Additionally, deblurring preprocessing and subpixel upsampling modules are introduced to enhance the quality of reconstruction. Experimental results demonstrate that the proposed approach effectively improves the reconstruction quality of event streams on public datasets.
Key words : event camera;video reconstruction;deep learning;optical flow estimation

引言

在過去的十年里,由于現代深度學習方法和神經體系結構優化,計算機視覺領域在許多不同的任務中取得了驚人的進步。但與生物系統相比,目前的人工視覺系統仍然無法處理一些涉及高速運動場景和高動態范圍的真實世界場景。這是因為傳統的基于幀的傳感器存在諸如運動模糊和低動態范圍等問題。事件相機具有消除上述問題的能力。它輸出異步像素且彼此獨立工作[1]。每個像素對局部相對光強度變化很敏感,當這種變化超過閾值時,它們會連續產生稱為事件的信號。因其高動態范圍、高時間分辨率和低延遲的優勢,事件數據已越來越多地被納入各種識別任務中,包括目標檢測[2]、語義分割[3]等。此外,事件數據還被用于需要高速感知的挑戰性機器人應用中,例如能夠捕捉對象的四足機器人[4]和能夠避開動態障礙物的撲翼機器人[5]。

盡管事件相機具有令人滿意的特性,但不能像處理強度圖像那樣直接處理事件流,而高質量的強度圖像是理解視覺數據的最自然的方式。因此,從事件中重建強度圖像一直是基于事件的視覺研究的基石。重建高質量強度圖像的另一個好處是可以立即將成功的基于幀的計算機視覺方法應用于重建結果,以解決各種任務。

目前基于事件相機的圖像重建分為兩類:基于濾波的傳統方法和基于深度學習的方法。基于濾波的方法是通過對事件數據進行濾波處理來還原圖像序列,包括中值濾波和高斯濾波[6],但這些方法在處理復雜或動態場景的圖像時易失效。最近,基于深度學習的方法在基于事件的視頻重建任務中取得了顯著成果,為行人檢測和行人動作識別[7]等工作做出貢獻。Rebecq等[8]提出了一種新穎的遞歸網絡(E2VID)用于從大量事件中重建視頻,這是一種直接處理事件的端到端網絡。Cadena等[9]提出了一種基于條件生成對抗網絡的重建方法,將事件流數據用不同的表達方式來生成不同的灰度圖像。由于僅當像素的強度發生變化時才會異步生成事件,因此生成的事件體素柵格是稀疏張量,僅包含場景中變化部分的信息。這些體素柵格的稀疏性也非常不同。這使得神經網絡很難適應新的數據,并導致包含模糊、低對比度或涂抹偽影的問題。同時這些算法有初始化時間,此過程需要20到30幀,且第一幀的質量很差。

綜上所述,本文提出了一種基于Transformer殘差模塊的自監督重建算法,將光流估計與事件重建結合共同訓練學習實現自監督重建。本文的創新在于使用聯合訓練獲取高質量的初始幀并提高對特征的長期相關性學習能力,有效捕捉視頻上下幀的時空關聯特征。同時設計去噪預處理與亞像素上采樣操作模塊,抑制噪聲,減少信息損失,共同提高重建質量。實驗結果表明,在公開數據集上本文方法可以有效提高事件流的重建效果。


本文詳細內容請下載:

http://www.viuna.cn/resource/share/2000006206


作者信息:

王立喜1,劉云平1,湯琴琴2,李家豪1

(1.南京信息工程大學 自動化學院,江蘇 南京 210016;

2.無錫學院 軌道交通學院, 江蘇 無錫 214015)


Magazine.Subscription.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 国产精品亚洲精品日韩已满 | 黄色片一级免费看 | 欧美视频日韩专区午夜 | 欧美午夜视频在线观看 | 日本欧洲亚洲一区在线观看 | 国产精品一区二区不卡 | 欧美日韩麻豆 | 免费午夜网站 | 亚洲线精品久久一区二区三区 | 狠狠色丁香六月色 | 国产第一浮力影院新路线 | 国产在线观看xxxx免费 | 色5月综合 | 午夜黄色毛片 | 手机看片久久高清国产日韩 | 国产精品黄在线观看免费网站 | 免费观看日皮视频 | 手机看片国产免费久久网 | 成人国产欧美精品一区二区 | 在线看mv的网站入口免费 | 污污视频在线播放 | 在线xx | 午夜视频免费看 | 黄色短视频免费观看 | 99ri视频 | 亚洲精品午夜久久aaa级久久久 | 美女日批视频在线观看 | 性欧美videofree另类一 | 越南一级毛片免费 | 欧美一区二区免费 | 一本大道香蕉视频在线观看 | 色片免费| 99在线精品视频 | 精品国产一区二区在线观看 | 成年美女黄网色大观看全 | 欧美亚洲国产激情一区二区 | 99在线精品视频 | 免费无遮挡十八女禁污污网站 | 毛片在线播放视频 | 国产日产高清欧美一区二区三区 | 国产精品女丝袜白丝袜 |