文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.174976
中文引用格式: 陳凡健. 面向特殊人群行為識別的主動學習與預測方法[J].電子技術應用,2018,44(11):116-120.
英文引用格式: Chen Fanjian. Active learning and prediction method for activity recognition of special populations[J]. Application of Electronic Technique,2018,44(11):116-120.
0 引言
空巢老人的護理問題是目前社會的焦點問題之一,針對這類特殊群體的智能看護系統需求迫切。基于計算機視覺的人體行為識別技術可以實現人體行為的智能識別,對于特殊群體的智能看護有著重要意義。鑒于此,特殊人群的智能護理成為目前人體行為識別研究的新方向。人體行為識別是計算機視覺學科的研究熱點,在視頻監控、電影分級、人工智能領域已有廣泛應用[1]。人體行為常用一個特定的時間和空間模型來描述,行為識別需要獲取充分的時空信息來區分不同的行為類別,同時還需要處理復雜的外界環境因素干擾。然而,人體行為本身極其復雜,環境干擾也復雜多變,因此從視頻中自動識別人體行為還面臨著很大挑戰[2]。目前的人體行為識別方法主要依據低層和中層的行為特征來區分不同行為,譬如全局時空特征[3-4]、局部時空特征[5-6]、深度感興趣點特征[7]和梯度直方圖特征[8-9]等。這些方法在KTH、WEIZANN等簡單行為數據集上可以達到較高的識別率,然而對特殊群體行為的區分能力有限[10]。Action Bank[10]是一種高層的行為特征表示方法,該方法采用許多獨立的行為檢測子進行行為檢測,然后再將檢測輸出轉化為特征向量,采用支持向量機(Support Vector Machines,SVM)對其進行分類,可以有效提高行為識別性能。但是,此方法的識別性能依賴于構建的行為模型,而模型構建需要人工標記大量樣本,人工標記難度和工作量很大。詞袋模型(Bag-of-Words,BoW)[11]是目前比較流行的行為識別方法之一,該方法的主要優點是魯棒性強,計算效率高。但是,該模型只關注行為的局部特征,難以區分局部行為類似而整體行為差異巨大的人體行為,譬如采用手部向外用力的特征難以區分用手推門的動作和用手推人的動作。
為了提高行為識別算法對特殊群體行為識別的識別率,同時降低人工標記樣本的難度和工作量,本文提出一種主動學習與預測的特殊群體行為識別方法。在現有采用局部時空特征描述行為的基礎上,構建包含行為類別、行為屬性、目標屬性、幀內特征和幀間特征的行為圖模型及各條邊的勢能函數,結合信任傳播算法進行行為的類標簽預測,依據行為頂點的熵和各行為頂點之間的互信息量進行主動學習,可以有效提高行為識別率和降低人工標記樣本的工作量。
1 主動學習與預測方法
本文提出一種面向特殊群體行為識別的主動學習與預測方法,采用無向圖模型作為行為描述子,依據信任傳播方法進行類標簽預測,依據信息熵和互信息量構建目標函數,主動學習行為樣本集,自動生成需要人工標記的樣本子集,詳細描述如下。
1.1 行為描述子
圖模型(Graph Model,GM)[12]是采用圖的形式來描述條件獨立的概率分布,這樣可以將概率分布表示成多個因子的乘積形式,從而簡化概率分布的計算。圖模型包含有向圖和無向圖兩類,有向圖模型中各個節點的連接是有方向的,而無向圖模型中各個節點的連接沒有方向。在描述行為時,行為各種特征構成的節點之間的連接并沒有明確的方向,故本文采用無圖模型來描述行為,記為G=(V,E)。其中,V表示圖的頂點集合,E表示圖的邊的集合[13]。
在本文中,圖模型的頂點分為五類:
(1)行為類別頂點:簡記為C,用于描述行為的類別,如奔跑行為、行走行為;
(2)行為屬性頂點:簡記為A,用于描述行為的屬性,可以由行為分類器的分類得分表示;
(3)目標屬性頂點:簡記為O,用于描述目標的屬性,可以由目標分類器的分類得分表示;
(4)幀內特征頂點:簡記為X,用于描述行為的單幀特征,如方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征;
(5)幀間特征頂點:簡記為Y,用于描述行為的視頻相關性特征,如光流直方圖(Histogram of Optical Flow,HOF)特征。
這樣,圖模型的頂點集合可以表示為V={C,A,O,X,Y},如圖1所示。
E表示圖的邊的集合。本文的設計思想是,幀內特征輸入分類器Px后得到目標屬性信息,故幀內特征頂點X與目標屬性頂點O相連接;幀間特征輸入分類器Py得到行為屬性信息,故幀間特征頂點Y與行為屬性頂點A相連接;行為分類時需要參考目標屬性信息和行為屬性信息,故行為類別頂點C與目標屬性頂點O和行為屬性頂點A相連接;另外,考慮到不同行為之間可能存在相關性,故不同的行為類別頂點C也可以相互連接。于是,行為圖模型邊的集合可以表示為E={C-C,C-A,C-O,A-Y,O-X},如圖1所示。
對于一個視頻片段vi,本文提取每一幀圖像中時空興趣點的HOG特征作為幀內特征,提取HOF特征作為幀間特征,具體特征提取過程詳見文獻[6]。特征的訓練與分類采用SVM方法,詳見文獻[10],這里不再贅述。本文主要闡述如何采用圖模型對行為和目標屬性之間的內在關系進行建模,目的是在判定行為類別時既利用視頻的相關性信息,又利用目標的屬性信息,這樣可以降低各種干擾目標的運動對行為判決的影響,從而降低行為識別的虛警率。譬如,在利用光流的激烈變化屬性確定了可疑的斗毆行為后,如果發現可疑斗毆區域中有多個人體目標出現,那么此處發生斗毆行為的可信度很大;但如果在可疑斗毆區域內未發現人體目標出現(譬如只有車輛等其他非人體目標),那么該區域發生斗毆行為的可信度就降低了,此處的激烈光流變化可能是由車輛、樹葉等其他運動目標的激烈運動引起的,故可以判定該區域未發生斗毆行為。
無向圖模型常采用各條邊的勢能函數來描述,對于本文的行為圖模型G=(V,E),下面定義各條邊的勢能函數。
(1)邊O-X的勢
對于一個目標屬性頂點oi,對應的HOG特征向量記為xi,HOG特征的SVM分類器記為Px。這樣,目標屬性頂點O的勢可以用相應特征分類器的分類得分代替,表示為:
(3)邊C-O的勢
邊C-O的勢用于描述行為類別和目標屬性的內在關系,可以用行為類別與目標屬性同時出現的頻率(簡記為同現頻率)來表示,為:
其中,α為權重。為便于計算,同現頻率可以簡單地用行為類別與目標屬性同時出現的次數代替,此時α取值為0.01,且φ(ci,oi)的最大值為1,也即當φ(ci,oi)大于1時將其置為1。同現頻率越高,表明行為類別與目標屬性的關聯度越大。譬如,對于騎馬行為常伴隨著人和馬兩類目標,也即這兩類目標與騎馬行為的同現頻率很高。這樣,對于一個未知的行為,如果行為分類為騎馬行為的得分較高,同時又伴隨有人和馬兩類目標,那么該行為為騎馬行為的可信度很高。
(4)邊C-A的勢
邊C-A的勢用于描述行為類別和行為屬性的內在關系,也可以用行為類別與行為屬性的同現頻率來表示,為:
其中,β為權重。同現頻率也用行為類別與行為屬性同時出現的次數代替,此時β取值為0.02,同樣地,φ(ci,ai)的最大值也為1。需要說明的是,此處權重β的取值大于權重α的取值,主要是考慮到與目標屬性相比,行為屬性對行為分類的貢獻更大。
(5)邊C-C的勢
邊C-C的勢用于描述兩個行為類別頂點之間的連通性。假設在一個時空距離上的行為是相互關聯的,行為類別頂點之間的勢主要由時間和空間上的距離來描述,表示為:
1.2 類標簽預測
信任傳播(Belief Propagation,BP)算法采用局部消息傳遞來擴散信任度,可以很好地解決標簽離散情況下的樣本標記問題。本文采用BP算法計算行為類別頂點C的后驗概率,預測類標簽。具體地,在每一次迭代過程中,信任頂點依據其鄰居頂點收到的消息進行更新。對于任一頂點ci∈C,其鄰居頂點集合記為CN(ci),從頂點ci到其鄰居頂點的消息可以表示為:
其中:
選擇邊緣概率最大的類標簽作為頂點ci預測的類標簽。
1.3 主動學習與預測
考慮到特殊群體行為的多樣性和場景的多變性,在訓練階段人工標記行為類別是非常困難的。本文采用主動學習策略來降低人工標記的難度。
給定一組已標記的樣本集L和一組未標記的樣本集U,以及行為類別數N。為降低人工標記難度,已標記樣本集中的元素數量遠遠小于未標記樣本集中元素數量。對于未標記樣本集中的元素,結合圖模型和主動學習策略從中主動選取需要人工標記的樣本子集S*。基本思路是:首先,按照前述方法構建圖模型G,并計算任一ci∈U的邊緣分布p(ci);然后,計算ci的熵,表示為:
在信息論中,熵越大說明信息的不確定性越大,對應的信息量越豐富。很明顯,信息量越豐富的樣本越需要專家進行標記。因此,本文將熵最大作為選取需人工標記的子集S*的依據之一。
另外,考慮到在許多應用中,各行為樣本可能相互關聯,這樣,ci的邊緣分布可能受鄰居頂點集合中的其他頂點影響。本文采用互信息量來描述兩個頂點之間的相互影響,表示為:
互信息量越大,說明兩個頂點之間的相互影響越大。這樣情況下,如果知道其中一個頂點的標簽,另一個頂點的標簽受其影響很大,可以依據其標簽在圖模型上進行可靠的預測。換言之,不需要同時人工標記兩個相互影響的頂點。因此,本文將互信息量最小作為選取需人工標記的子集S*的另一依據。
綜合所述,本文依據熵最大和互信息量最小兩個準則選取需人工標記的子集S*。基本步驟為:
(1)給定擬選取的S*的元素個數K,S*初始為空;
(2)對任一ci∈U,計算熵H(ci),并按由大到小的順序進行排序,排序后的集合記為As;
(3)如果S*中元素個數小于K,選取As中第一位數據對應的頂點cx,加入集合S*;否則,結束S*的搜索過程,輸出S*;
(4)計算cx與其所有相鄰頂點的互信息量M(cx,cy),選取信息量最小的頂點cy,加入集合S*。
對于得到的最優子集S*,需要專家進行標記。標記之后,再針對S*上的頂點進行類別預測,這樣與這些頂點相鄰的頂點得到的標簽可信度更高。
2 實驗結果與分析
本節對本文方法和目前主流的行為識別方法進行對比分析,首先介紹實驗數據集和對比算法,然后展示和分析實驗結果。
2.1 實驗數據集與對比算法
目前公開的行為識別數據集中,與特殊群體智能看護相關的行為識別數據集只有一個,是ADL數據集[13]。該數據集是由Rirsiavash建立的人體日常行為數據集,主要用于研究特殊人群的智能輔助系統。該數據集包含10個類別的日常行為,詳見表1。其中,每類行為都由5個不同的人體完成,且每個行為重復進行3次。部分行為示例如圖2所示。
目前在該數據集下測試結果排名靠前的算法見文獻[13]-[17]。本文直接引用相應文獻中的識別率指標進行對比分析。
2.2 實驗結果與分析
本文采用該領域常用的識別率和分類混淆矩陣來評價算法性能。表2展示了ADL數據集下不同算法的識別率指標,圖3展示了ADL數據集下本文算法的分類混淆矩陣。其中,對比算法的性能指標取自相應文獻。
需要指出的是,本文算法在訓練時,每類行為選擇4個視頻片段進行學習,主動學習階段的參數K取值為2,也即每類行為只選擇2個視頻片段進行人工標記,其余視頻片段采用本文的主動學習方法進行訓練。
分析以上實驗結果,可以得出以下結論:
(1)從表2可以看出,本文算法在ADL行為數據集下的識別率都是最高的,比相應數據集下現有測試算法高出一個百分點以上。可見,本文方法提高了特殊群體行為識別的識別率指標。
(2)從圖3可以看出,在ADL數據集下的10個行為類別中,本文方法僅在2個行為類別上存在錯分現象,低于識別率次高的文獻[16]所述方法。可見,本文方法區分不同行為的能力強,對群體復雜行為的混淆率低。
(3)對于ADL行為數據集,本文方法在識別率高于其他對比算法的情況下,人工標記的樣本數量小于其他對比算法,如識別率次高的文獻[16]中每類行為需要標記16個樣本。這樣在實際應用過程中,本文方法可以從海量視頻中主動學習行為類別,大幅降低人工標記樣本的難度和工作量。
綜上所述,本文方法不僅提高了特殊群體行為識別的識別率,而且增強了不同行為的區分能力,同時需要人工標記的樣本數量少。
3 結束語
本文提出了一種基于主動學習與預測的特殊群體行為識別方法,主要設計思路包括兩個方面:(1)在行為描述方面,將視頻的幀內特征、幀間特征、目標屬性、行為屬性和行為類別組合在一起,構建成行為的無向圖模型,這樣在行為識別時可以綜合利用多層次的關聯性特征,減少了單純依靠部分特征引起的虛警現象,增強了特征的區分能力,提高了行為識別算法對特殊群體行為識別的識別率;(2)在學習過程中采用主動學習方法,以行為類別頂點的熵最大和行為類別頂點之間的互信息量最小為準則進行主動學習,降低了人工標記樣本的數量和難度。通過在國際上通用的ADL行為數據集上進行對比實驗,證實本文方法可以提高行為識別算法對特殊群體行為識別的識別率,降低不同行為間的分類混淆現象,同時降低了需人工標記的樣本數量。
參考文獻
[1] 楊帥,于忠清,蘇博群,等.基于軌跡分割的老人行為識別方法[J].青島大學學報(自然科學版),2017(1):103-107.
[2] 李瑞峰,王亮亮,王珂.人體動作行為識別研究綜述[J].模式識別與人工智能,2014(1):35-48.
[3] KIHL O,PICARD D,GOSSELIN P H.Local polynomial space-time descriptors for action classification[J].Machine Vision & Applications,2016,27(3):351-361.
[4] MA S,ZHANG J,IKIZLER-CINBIS N,et al.Action recognition and localization by hierarchical space-time segments[C].IEEE International Conference on Computer Vision.IEEE,2014:2744-2751.
[5] 王泰青,王生進.基于中層時空特征的人體行為識別[J].中國圖象圖形學報,2015,20(4):520-526.
[6] EVERTS I,GEMERT J C V,GEVERS T.Evaluation of color spatio-temporal interest points for human action recognition[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2014,23(4):1569-1580.
[7] Wang Yangyang,Li Yibo,Ji Xiaofei.Human action recognition based on normalized interest points and super-interest points[J].International Journal of Humanoid Robotics,2014,11(1):145005.
[8] LI Y,YE J,WANG T,et al.Augmenting bag-of-words:a robust contextual representation of spatiotemporal interest points for action recognition[J].Visual Computer,2015,31(10):1383-1394.
[9] WANG P,LI W,GAO Z,et al.Action recognition from depth maps using deep convolutional neural networks[J].IEEE Transactions on Human-Machine Systems,2016,46(4):498-509.
[10] SADANAND S.Action bank:a high-level representation of activity in video[C].IEEE Conference on Computer Vision & Pattern Recognition,2012:1234-1241.
[11] AGUSTI P,TRAVER V J,PLA F.Bag-of-words with aggregated temporal pair-wise word co-occurrence for human action recognition[J].Pattern Recognition Letters,2014,49(49):224-230.
[12] Pu Songtao,Zha Hongbin.Video object segmentation via two-frame graph model[J].Beijing Daxue Xuebao Ziran Kexue Ban/acta Scientiarum Naturalium Universitatis Pekinensis,2015,51(3):409-417.
[13] FEICHTENHOFER C,PINZ A,ZISSERMAN A.Convolutional two-stream network fusion for video action recognition[C].Computer Vision and Pattern Recognition.IEEE,2016:1933-1941.
[14] FERNANDO B,GAVVES E,ORAMAS M J,et al.Modeling video evolution for action recognition[C].Computer Vision and Pattern Recognition.IEEE,2015:5378-5387.
[15] WANG H,DAN O,VERBEEK J,et al.A robust and efficient video representation for action recognition[J].International Journal of Computer Vision,2016,119(3):219-238.
[16] SINGH S,VELASTIN S A,RAGHEB H.MuHAVi:a multicamera human action video dataset for the evaluation of action recognition methods[C].Seventh IEEE International Conference on Advanced Video and Signal Based Surveillance.IEEE,2010:48-55.
[17] GUO K,ISHWAR P,KONRAD J.Action recognition from video using feature covariance matrices[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2013,22(6):2479-2494.
作者信息:
陳凡健
(茂名職業技術學院 計算機工程系,廣東 茂名525000)