《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 基于時空注意力金字塔卷積的動作識別
基于時空注意力金字塔卷積的動作識別
網絡安全與數據治理 2期
馮雨威,吳麗君
(福州大學 物理與信息工程學院,福建 福州350108)
摘要: 動作識別算法需要從視頻中提取空間和時域特征,對計算存儲資源要求較高。基于2D CNN的網絡更為輕量,但從視頻中提取時域特征的能力較弱,動作識別性能通常受到限制。S-TPNet提出時空金字塔模塊以獲取圖像序列的時間粒度特征,有效提升了基于2D CNN的動作識別網絡的性能。基于S-TPNet,設計了時空注意力模型以凸顯空間和時間上的重要特征。為降低輸入數據量,通常抽取局部視頻幀作為輸入,為降低采樣幀與整體視頻之間的不穩定差異,設計了自適應等間隔采樣策略。實驗表明,在未預訓練的情況下,本網絡在UCF-101和HMDB-51數據集上分別將Top-1精度提高了5.1%和3.3%,并且不會大幅增加所需參數。
中圖分類號: TP391
文獻標識碼: A
DOI: 10.19358/j.issn.2097-1788.2023.02.012
引用格式: 馮雨威,吳麗君. 基于時空注意力金字塔卷積的動作識別[J].網絡安全與數據治理,2023,42(2):76-82,88.
Action recognition based on spatial-temporal attention pyramid convolution
Feng Yuwei,Wu Lijun
(College of Physics and Information Engineering,Fuzhou University,Fuzhou 350108,China)
Abstract: Action recognition algorithms need to extract spatial and temporal features from video, which requires high computing and storage resources. The network based on 2D CNN is lighter, but the ability to extract time-domain features from video is weak, and the performance of action recognition is usually limited. S-TPNet proposes a spatial-temporal pyramid module to obtain the time granularity features of image sequences, which effectively improves the performance of the action recognition network based on 2D CNN. Based on S-TPNet, this paper designs a spatial-temporal attention model to highlight the important features of space and time. In order to reduce the amount of input data, local video frames are usually extracted as input. In order to reduce the unstable difference between the sampled frames and the overall video, this paper designs an adaptive equal interval sampling strategy. The experiment shows that without pre training, the network improves Top-1 accuracy by 5.1% and 3.3% on UCF-101 and HMDB-51 datasets, respectively, and does not significantly increase the required parameters.
Key words : spatial-temporal attention;action recognition;adaptive sampling;2D CNN;spatial-temporal pyramid

0 引言

動作識別是從視頻片段中提取有效的空間和時間特征以分辨人的動作類型,在視頻檢索、異常檢測、智能監控、人機交互和自動駕駛等領域逐漸興起。早期算法主要依賴人工提取人體關節點和時空興趣點特征。近年來,基于深度學習的算法可有效提取特征、實現端到端訓練,極大提升了動作識別精度和速度。根據提取特征的方式不同,動作識別算法大致可歸納為基于3D CNN、雙/多流網絡、CNN(2D或3D)與時間特征聚合模塊的組合三種類型。3D CNN[1-2]可直接提取時空特征,但是其采用固定大小的3D卷積核,不能充分挖掘時間粒度特征,并且相比2D卷積核含有更多參數。雙流網絡[3]的輸入通常為RGB幀和光流圖像,提取光流較為繁瑣且易造成延遲。基于CNN與時間特征聚合模塊[4-5]組合的算法通常使用CNN從單幀或視頻片段提取空間特征,然后使用LSTM或時間池化從多個幀或片段間提取時間特征。LSTM隨著時間跨度增大、網絡深度增加,計算成本將急劇增加。

基于2D CNN與時間池化的S-TPNet[6]提出了空間金字塔模塊,利用CNN固有的平移和尺度不變性充分提取空間特征,并使用不同尺寸的時間池重復利用片段級數據以獲得時間粒度特征。相比于3D CNN的算法,S-TPNet網絡參數大大減少,但在動作識別精度上相對較低。因此,本文在S-TPNet基礎上引入輕量級的時空注意力模型,以提高算法精度。

除網絡結構外,視頻采樣策略也會影響動作識別精度。為減少輸入信息的冗余數量,降低運算量,一般會提取原視頻的部分幀來作為輸入。視頻采樣策略主要分為密集[7]和稀疏采樣兩種。密集采樣對設備的計算和存儲要求都很高。最近,微軟在視頻和語言學習任務研究[8]中提出“少即是多”的稀疏采樣。在每次訓練中僅使用單個或幾個稀疏采樣片段,獲得了不輸于密集采樣訓練所得的網絡性能。稀疏采樣包含隨機采樣和預定義間隔采樣。隨機采樣易導致采樣后的相鄰幀之間具有不穩定的差異,無法有效表達原始視頻的語義內容。預定義間隔采樣不適合數據集中視頻段持續時間差距較大的情況。因此,本文提出了一種自適應等間隔采樣策略,根據每段視頻的總幀數和指定的最小采樣數動態調整采樣間隔,使采樣后序列可以更好地表示原視頻。



本文詳細內容請下載:http://www.viuna.cn/resource/share/2000005217




作者信息:

馮雨威,吳麗君

(福州大學 物理與信息工程學院,福建 福州350108)


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 涩涩网站在线看 | 欧美亚洲国产成人精品 | 成人免费看毛片 | 午夜天堂网| 国产成人精品福利网站人 | 成人超污免费网站在线看 | 在线韩国伦理片 | 韩国在线观看日韩 | 乱色伦短篇小说 | 国产精品久久毛片蜜月 | 免费国产成人高清无线看软件 | 最近中文免费字幕在线播放 | 国产日韩视频一区 | 青青青国产免费线在 | 国产精品亚洲第五区在线 | 日本人的色道免费网站 | 精品国产免费人成在线观看 | 欧美大片国产在线永久播放 | 亚洲黄网站wwwwww | 国产专区青青草原亚洲 | 羞羞色在线观看 | 在线亚洲黄色 | 久久精品麻豆日日躁夜夜躁 | 99九九视频 | 手机看片高清日韩精品 | 亚洲国产日韩精品 | 欧美成人hd | 欧美成人免费videos | 久久99精品久久久久久欧洲站 | 特级毛片永久久免费观看 | 欧美日韩亚洲另类 | 玖玖视频精品 | chinese老妇videos freefr性欧美69hd | 久久国产欧美日韩高清专区 | 日本一本在线播放 | 天天干天天拍天天射天天添天天爱 | 久久99国产这里有精品视 | 搞黄网站在线观看 | 亚洲精品一二三四 | 殴美在线| 国产精品成人一区二区三区 |