文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2017.07.022
中文引用格式: 蔣兆軍,成孝剛,彭雅琴,等. 基于深度學習的無人機識別算法研究[J].電子技術應用,2017,43(7):84-87.
英文引用格式: Jiang Zhaojun,Cheng Xiaogang,Peng Yaqin,et al. A novel UAV recognition algorithm based on deep learning approach[J].Application of Electronic Technique,2017,43(7):84-87.
0 引言
無人機技術的發展十分迅速。從美軍無人機的使用,到現在無人機在研究、民用等多方面的普及,無人機已成為一種新的潮流[1-2]。隨之而來也帶來很多新問題,此前無人機險撞戰機事件的發生,就給人們敲響了警鐘。因此,無人機警察系統的搭建勢在必行。本文的研究重點為:建立視覺傳感網,用于無人機的圖像捕捉和信息存儲;引入深度學習對無人機進行識別,及時發現“黑飛無人機”,并采取相應報警措施,實現對無人機的全面監管。
1 視覺傳感網
整個視覺傳感網(Visual Sensor Networks,VSNs)由多個節點組成,每個節點都將由攝像機陣列構成,這將作為整個系統的基礎部分[3],如圖1。
城市環境下一個節點的安置示意圖如圖2。
為了減輕對居民的干擾,可以修改攝像機焦距參數,從而限制攝像機的拍攝范圍。通過多臺攝像機交叉覆蓋,成功地將中間的空地區域全方位地納入監控之中。
考慮到多節點所提供的龐大數據量以及優化控制結構的需要,將數據網絡設計成三層結構。位于最底層的第三層由數量不等的節點構成一系列簇組成,每個簇內的節點統一將數據發往一臺次級處理服務器。整個網絡內的次級處理服務器構成網絡的第二層,將數據送往位于第一層的中央高級服務器。
2 基于深度學習的圖像識別中心
無人機警察系統中關鍵組成是圖像識別中心,其任務是將視覺傳感網中的圖像信息進行分析和處理,從圖像中識別出無人機,從而實現對無人機的監控,屬于目標識別領域。目前這一領域已經有了大量的優秀成果出現。最常見有行人檢測問題,可用的特征包括:Haar、HOG、CSS、LBP等多種,這些特征表達了人體的各個重要部分,并且充分考慮了遮擋等情形。王曉剛和歐陽萬里更提出了基于深度學習的行人檢測手段,通過聯合學習行人檢測中的4個重要組成部分——特征提取、人體部件形變處理、遮擋處理和分類,最大化了各自的作用[4]。他們在傳統的卷積神經網絡的基礎上,加入了形變處理層,最終習得的特征具有很強的判別力,優于HOG等特征。王曉剛團隊的方案,是深度學習在目標識別領域的成功應用,給本文的研究提供了研究參考。再比如人臉識別問題[5-6],則具有更復雜的變化,因為人臉受種族、膚色、表情、情緒、光照環境、物體遮擋等眾多因素的影響。推廣到各種特定物體的識別乃至場景識別、深度學習也有很多方案[7]。由于無人機警察系統中圖片信息量豐富,且無人機的飛行狀態多樣,因此識別難度較大。為此,本文將引入深度學習算法,并以卷積神經網絡作為圖像識別中心。
2.1 卷積神經網絡
2006年,Hinton等人首次提出深度學習的概念[8],并開啟了深度學習的研究浪潮,其認為:多隱層的人工神經網絡能夠更好地模擬人腦的思考過程,具有更加優異的學習能力,能夠對數據進行更本質的刻畫,從而提高可視化或者分類的能力。
卷積神經網絡是深度學習中第一個真正多層結構學習算法,其在圖像識別領域優勢明顯。它利用感受野、局部連接等概念極大地減少了參數量,降低了網絡模型的復雜度,提高了訓練效率,且網絡對于平移、縮放的各種變形都具備高度不變性。
卷積神經網絡屬于前饋多層神經網絡的一種,每層由多個二維平面組成,多個神經元組成了每個平面,其結構如圖3所示。
卷積神經網絡利用了一系列的卷積層,降采樣層構建了多層網絡,來模擬人腦感知視覺信號的逐層處理機制,從而提取圖像的多層次特征。
通過加入卷積層,可以實現局部連接網絡,有效減少了需要訓練的網絡參數。例如,對一張大的圖片輸入,其尺寸為r×c,隨機采樣為a×b的小圖片,如果隱含節點為k個,那么最終學習到的特征數為:
池化層是為了解決網絡輸出維數過大、造成分類器難以設計的問題。同樣是根據統計結果的相似性原理,池化操作對卷積得到的結果進行統計計算,減少了需要訓練的系統參數。
權值更新采用BP反向傳播算法。反向傳播的誤差可看做每個神經元的基的靈敏度(即誤差E對基b變化率的偏導函數),然后利用以下關系式:
最后的分類應用了Logistic Regression擴展的一種多分類器:Softmax Regression。其系統方程及系統損失函數分別為:
2.2 基于深度學習的無人機識別流程
由于視覺傳感網獲得的一系列圖像中,關注的對象可能只占其中的一小部分像素區域,又由于對象具有運動性,故在識別中心操作之前將采取幀差法提取感興趣的對象,作為算法的正式輸入[10-11]。二幀差法基本原理如下:
其中i(t)、i(t-1)分別為t、t-1時刻對應像素點的像素值,T為閾值。
基于深度學習卷積神經網絡的無人機識別流程如下所示。
步驟一:數據預處理
(1)幀差法提取目標區域;
(2)數據格式轉換;
(3)預定義標簽;
步驟二:深度網絡訓練、測試
(1)構建卷積神經網絡,確定網絡層次結構和權重參數等;
(2)數據依次進入卷積層、池化層、全連接層,進行計算;
(3)采用Backpropagation Pass反向傳播,進行參數調整;
(4)當誤差滿足或者迭代次數滿足時,網絡停止訓練,進入Accuracy層計算準確率并輸出(只在測試階段執行,訓練時不執行)。
3 識別性能與結果分析
首先構建了視覺傳感網,設置了2個節點,目前系統僅限于白天工作。
輸入2 848張圖片進行訓練,基礎學習率設置為0.001,迭代5 000次后獲得的模型用于之后的測試分析。測試時輸入712張圖片,模型正確分類的情形共有634例,可得:
由于目前無人機識別方面沒有其他現成的模型可供比較,因此本文分析了ROC曲線參數。在信號檢測理論中,接收者操作特征(Receiver Operating Characteristic,ROC)是一種對靈敏度進行描述的功能圖像,該圖像稱為ROC曲線。應用ROC曲線來表示分類器的性能非常直觀。同時為了定量且簡潔地表達這種性能,Area Under roc Curve(AUC)被提出。AUC的值等于ROC曲線正下方的面積,AUC的數值越大,分類器的性能越好。圖4表示的是與ROC曲線繪制相關的一些量,依次為TP(True Positive)、FP(False Positive)、FN(False Negative)、TN(True Negative)。
在隨機分類模型,對于任一樣本輸入,模型對其的預測score是完全隨機的,假設預測score落在區間[0,1]上,則預測概率數學表達為:
因此本文的ROC曲線圖結果如圖5所示。圖中整個曲線越向點(0,1)逼近,模型的性能就越好。
4 結論
本文較好地將深度學習的方法應用到了無人機警察系統這個新穎的概念上,對無人機的識別率比較高。在網絡結構的設計上,可能存在冗余,導致模型收斂速度不夠快,訓練效率有所損失。后期將繼續對網絡結構的進行研究,希望能夠進一步提高模型的質量,并使其具有更廣的適應性。
參考文獻
[1] 閆玉巧.面向無人機的自動檢測系統設計與實現[D].西安:西安電子科技大學,2011.
[2] 胡占雙.無人機飛行姿態檢測及控制研究[D].沈陽:沈陽航空航天大學,2013.
[3] AHMAD N.Modelling and optimization of sky surveillance visual sensor network[D].Mid Sweden University,2012.
[4] OuYang Wanli,Wang Xiaogang.Joint deep learning for pedestrian detection[C].ICCV,2013.
[5] Li Ming,Yu Chengyang,Nian Fuzhong,et al.A face detection algorithm based on deep learning[C].IJHIT,2015.
[6] Nagpal Shruti,Singh Maneet,Singh Richa,et al.Regularized deep learning for face recognition with weight variations[J].IEEE Access,2015,3:3010-3018.
[7] Yuan Yuan,Mou Lichao,Lu Xiaoqiang.Scene recognition by manifold regularized deep learning architecture[J].IEEE Transactions on Networks & learning,2015,16(10):2222.
[8] HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313:504-507.
[9] SAXE A M,KOH P W.On random weights and unsupervised feature learing[C].International Conference on Machine Learing,2011:1089-1096.
[10] 王鑫.檢測不規則圖形的改進廣義Hough變換[D].北京:首都師范大學,2012.
[11] 唐俐勒.視頻監控中運動圖像檢測與測距技術的研究[D].西安:西安科技大學,2010.
作者信息:
蔣兆軍1,成孝剛2,彭雅琴3,王 俊1,李 智2
(1.無錫職業技術學院 汽車與交通學院,江蘇 無錫 214121;
2.南京郵電大學 通信與信息工程學院,江蘇 南京210003;3.三江學院 計算機科學與工程學院,江蘇 南京 210012)