文獻標識碼: A
DOI: 10.19358/j.issn.2097-1788.2023.02.011
引用格式: 何嘯林,吳麗君. 基于三維時空注意的密集連接視頻超分算法[J].網絡安全與數據治理,2023,42(2):70-75.
0 引言
視頻超分辨(Video Super-Resolution,VSR)算法是一項具有挑戰性的課題,倍受人們的關注。相較于單圖像的超分辨率重建,視頻超分辨率重建可以利用幀之間的相關性和連續幀間的時間信息。視頻超分的目標是在相鄰的低分辨率幀(Low Resolution,LR)的幫助下,重建出高分辨率幀(High Resolution,HR)。早期的研究[1-3]將視頻超分視為圖像重建的簡單擴展,并沒有考慮到物體運動,性能較差。對此,人們開始研究一些顯式運動補償的方法,最為廣泛的是使用光流來估計幀之間的運動并執行變形。然而,對光流進行準確的預測是比較困難的,尤其是在存在遮擋或大運動時,當對光流量的不準確預測時可能會引入偽影[4]。為了解決這個問題,研究人員開始研究隱式運動補償方法。在隱式補償方法中,可變形卷積較為常用[5]。時序可變形對齊視頻超分網絡(Temporally Deformable Alignment Network,TDAN)[4]首次將可變形卷積引入視頻超分任務中;增強型可變形卷積視頻超分網絡(Video Restoration with Enhanced Deformable Convolutional Networks,EDVR)[6]將跨幀信息與可變形網絡和注意力機制融合在一起。相比光流法,可變形卷積的方法解決了偽影問題,但注意力機制的設計仍有改進空間。對于連續幀的視頻任務,視頻的序列信息是至關重要的。由于在時間注意力模塊中僅僅采用二維卷積,無法提取時間序列維度的信息,以往方法中的時空注意力模塊僅僅只是在兩幀之間進行自注意力加權。
本文設計了一種具有三維空間順序注意機制的密集可變形視頻超分辨率重建網絡。在視頻幀對齊模塊之后引入空間時序注意力模塊,利用三維卷積操作來捕獲幀間序列信息。在超分任務中,引入空間注意力中金字塔結構使得網絡能夠獲得更大的感受野,但也帶來了冗余參數。本文通過幾個卷積層和池化層的組合來重新設計空間注意模塊,利用更少的參數保持一個大的感受野。此外,為了在特征重建階段充分利用分層特征,設計了一個由密集連接和殘差組成的密集連接重建模塊。
綜上所述,本文設計了一種三維空間時序注意力機制。應用三維卷積來獲取時間注意模塊中的幀間序列信息。在空間注意力模塊中,修改卷積的步長,使用卷積組結合池化來實現輕量化。同時設計密集連接重建模塊,通過密集連接充分利用分層特征信息,更好地完成特征重建。
本文詳細內容請下載:http://www.viuna.cn/resource/share/2000005216
作者信息:
何嘯林,吳麗君
(福州大學 物理與信息工程學院,福建 福州350116)