文獻標識碼: A
DOI: 10.19358/j.issn.2097-1788.2023.02.012
引用格式: 馮雨威,吳麗君. 基于時空注意力金字塔卷積的動作識別[J].網絡安全與數據治理,2023,42(2):76-82,88.
0 引言
動作識別是從視頻片段中提取有效的空間和時間特征以分辨人的動作類型,在視頻檢索、異常檢測、智能監控、人機交互和自動駕駛等領域逐漸興起。早期算法主要依賴人工提取人體關節點和時空興趣點特征。近年來,基于深度學習的算法可有效提取特征、實現端到端訓練,極大提升了動作識別精度和速度。根據提取特征的方式不同,動作識別算法大致可歸納為基于3D CNN、雙/多流網絡、CNN(2D或3D)與時間特征聚合模塊的組合三種類型。3D CNN[1-2]可直接提取時空特征,但是其采用固定大小的3D卷積核,不能充分挖掘時間粒度特征,并且相比2D卷積核含有更多參數。雙流網絡[3]的輸入通常為RGB幀和光流圖像,提取光流較為繁瑣且易造成延遲。基于CNN與時間特征聚合模塊[4-5]組合的算法通常使用CNN從單幀或視頻片段提取空間特征,然后使用LSTM或時間池化從多個幀或片段間提取時間特征。LSTM隨著時間跨度增大、網絡深度增加,計算成本將急劇增加。
基于2D CNN與時間池化的S-TPNet[6]提出了空間金字塔模塊,利用CNN固有的平移和尺度不變性充分提取空間特征,并使用不同尺寸的時間池重復利用片段級數據以獲得時間粒度特征。相比于3D CNN的算法,S-TPNet網絡參數大大減少,但在動作識別精度上相對較低。因此,本文在S-TPNet基礎上引入輕量級的時空注意力模型,以提高算法精度。
除網絡結構外,視頻采樣策略也會影響動作識別精度。為減少輸入信息的冗余數量,降低運算量,一般會提取原視頻的部分幀來作為輸入。視頻采樣策略主要分為密集[7]和稀疏采樣兩種。密集采樣對設備的計算和存儲要求都很高。最近,微軟在視頻和語言學習任務研究[8]中提出“少即是多”的稀疏采樣。在每次訓練中僅使用單個或幾個稀疏采樣片段,獲得了不輸于密集采樣訓練所得的網絡性能。稀疏采樣包含隨機采樣和預定義間隔采樣。隨機采樣易導致采樣后的相鄰幀之間具有不穩定的差異,無法有效表達原始視頻的語義內容。預定義間隔采樣不適合數據集中視頻段持續時間差距較大的情況。因此,本文提出了一種自適應等間隔采樣策略,根據每段視頻的總幀數和指定的最小采樣數動態調整采樣間隔,使采樣后序列可以更好地表示原視頻。
本文詳細內容請下載:http://www.viuna.cn/resource/share/2000005217
作者信息:
馮雨威,吳麗君
(福州大學 物理與信息工程學院,福建 福州350108)