小说阅读网站,好看的历史书籍推荐,网络小说排行榜

基于膠囊網絡的指靜脈識別研究

2018年電子技術應用第10期

余成波，熊遞恩

重慶理工大學電氣與電子工程學院，重慶400050

摘要： 針對卷積神經網絡(CNN)中空間上的指靜脈信息丟失的問題，提出了一種基于膠囊網絡(Capsule Network，CapsNets)的指靜脈識別算法。CapsNets在整個學習過程中以“膠囊”的形式從底層傳遞至高層，如此以向量的形式封裝指靜脈的多維特征，特征會在網絡中被保存，而不是丟失后進行恢復。采用60 000張圖像作為訓練集，10 000張圖為測試集，通過對圖像增強、裁剪后進行網絡學習。通過實驗表明，CapsNets的網絡結構特征相比CNN在處理脊線區域時效果更加明顯，對比VGG精確度增加了13.6%，loss值也收斂到0.01。

關鍵詞： CapsNets 指靜脈識別深度學習 CNN

中圖分類號： TP391.41
文獻標識碼： A
DOI：10.16157/j.issn.0258-7998.182236
中文引用格式： 余成波，熊遞恩. 基于膠囊網絡的指靜脈識別研究[J].電子技術應用，2018，44(10)：15-18.
英文引用格式： Yu Chengbo，Xiong Dien. Research on finger vein recognition based on capsule network[J]. Application of Electronic Technique，2018，44(10)：15-18.

Research on finger vein recognition based on capsule network

Yu Chengbo，Xiong Dien

School of Electrical and Electronic Engineering，Chongqing University of Techology，Chongqing 400050，China

Abstract： This paper propose a finger vein recognition algorithm based on the CapsNets(Capsule Network for short) to solve the problem of the information loss of the finger vein in the Convolution Neural Network(CNN). The CapsNets is transferred from the bottom to the high level in the form of capsule in the whole learning process, so that the multidimensional characteristics of the finger vein are encapsulated in the form of vector, and the features will be preserved in the network, but not in the network after the loss is recovered. In this paper, 60 000 images are used as training set, and 10 000 images are used as test set. The experimental results show that the network structure features of CapsNets are more obvious than that of CNN, the accuracy of VGG is increased by 13.6%, and the value of loss converges to 0.01.

Key words : CapsNets；finger vein recognition；deep learning；CNN

0 引言

近幾年來，在機器學習的發展日益更新中，深度學習算法也不斷進步、更新。從2012年AlexNet^[1]的誕生，一直到2017年VGG^[2]、GoogleNet^[3]、ResNet^[4]等網絡的優化、改進版的出現，保證了深度學習算法在圖像分類的ImagNet挑戰賽上遠勝其他分類算法。卷積神經網絡(CNN)通過卷積提取特征，從底層到高層映射，實現復雜函數逼近，展現了智能學習的能力。文獻[5]提出了采用改進的AlexNet網絡訓練指靜脈圖像，將3×3卷積核改為1×1并減少了特征圖數量，在循環50 000次后，識別率達到99.1%。文獻[6]采用VGG網絡訓練指靜脈圖像，對比了低質、中質、高質圖像和16層VGG網絡、19層VGG網絡的訓練結果，其中16層VGG網絡的誤識率達到最低0.396(高質圖像)。

通過標準高質圖像的訓練，CNN適合運用于指靜脈的識別中，但是同樣存在一些實際問題。通過采集器采集到的圖像有非常大的幾率采集到淺部的指靜脈圖像，同時，在對圖像處理時是基于二維矩陣，CNN對全局指靜脈圖像學習特征時效果并不好，隱藏在表皮層靠后的靜脈不會被學習到，因此會嚴重影響到識別精確度。

如圖1所示，淺部靜脈圖像特點在于局部靜脈較細、顏色較淺、分布不均且不完整，導致這樣的原因主要是因為此靜脈比較靠后，紅外攝像頭不能清晰地穿過組織進行拍攝。然而正常圖像的靜脈粗細、顏色均勻分布明顯。

2017年12月，HINTON G E提出了CapsNets的網絡結構^[10]，并在multiMINIST上訓練精確度為99.23%，實現了在affinist測試集上79%的精確度，遠超CNN的66%，同時CapsNets耗時較少，為目前精確度最高的網絡^[11]。指靜脈圖像常存在靜脈重疊，導致采集過程中常出現一條重疊的靜脈圖像。CNN對空間位置的學習效果不佳，所以在采集圖像時會對同一指頭采集多次，使得網絡盡可能學習到特征圖中每一處靜脈，而CapsNets在空間位置上對靜脈圖像的處理遠超CNN，整個學習過程中以“膠囊”的形式從底層傳遞至高層，封裝多維特征，如此可減少訓練樣本數量的同時也保留了出現概率少的的靜脈特征。為此本文提出了將CapsNets應用于指靜脈識別方法中。

1 CapsNets

1.1 網絡結構

一些主要的計算機視覺任務中都需要一個不同的CNN架構，CNN圖像分類的效果已經得到各位研究人員的認可，但是存在以下問題：

(1)CNN要接受大量圖像的訓練，這使得在獲得訓練樣本時要消耗不少時間，但CapsNets可以使用較少的訓練數據進行訓練。

(2)CNN不能很好地處理歧義。CapsNets即使在密集的場景下，也可以表現出色。

(3)CNN在池化層中丟失了大量的信息。池化層取最大值保留了出現概率較高的特征，同時舍去了出現概率較少的特征，往往我們又需要這些重要的信息，這些層減少了空間分辨率，所以它們的輸出無法對輸入的小變化做出反應。當在整個網絡中必須保存詳細的信息時，這是一個問題。如今，解決這個問題的方法是通過在CNN周圍建立復雜的體系結構來恢復一些丟失的信息。CapsNets詳細的屬性信息在整個網絡中被保留下來而不是丟失后被恢復。輸入的小改動導致輸出的細微變化，信息被保留，這就是所謂的等變性。因此，CapsNets可以在不同的視覺任務中使用相同的簡單一致的架構。

(4)CNN需要額外的組件來自動識別一個部件屬于哪個對象。CapsNets可以為其提供部件的層次結構。

CapsNet是一個非常淺的網絡，加上卷積層和全連接層一共3層。CNN在抽取低級特征上表現非常優秀，相反CapsNets是用來表征某個物體的“實例”，所以它更加適合于去表征高級的實例。所以在CapsNets中的底層加入傳統CNN的卷積層做底層的特征抽取。

如圖2所示，從低級特征到 Primary Capsule，第二卷積層的維度是6×6×8×32，用32個步長為2的9×9×256的濾波器做了8次卷積操作，在CNN中維度為6×6×1×32的層里有6×6×32元素，每個元素是一個標量，在Capsule中，維度為6×6×8×32的層里有6×6×32元素，每個元素是一個 1×8的向量，主要儲存低級別特征的向量。

從Primary Capsule到Digit Capsule，PrimaryCaps和DigitCaps是全連接的，但不是像傳統CNN標量和標量相連，此全鏈接層是向量與向量相連，動態路由算法迭代3次計算c_ij輸出584個v_j。

Digit Capsule到最終輸出，它的長度表示其表征的內容出現的概率，所以在做分類時，取輸出向量的 L2 范數。CapsNets并不像以往的神經網絡輸出的概率總和為1，因為CapsNets有同時識別多個物體的能力。

1.2 膠囊

起初的神經網絡依靠使用單一的標量輸出來總結一個局部池中的重復特征檢測器的活動，CNN會對單一的圖像進行位移、旋轉等處理后的圖像，看做是兩幅圖。然而神經網絡應該使用的是多維特征也就是“膠囊”的形式，這些膠囊對其輸入執行一些非常復雜的內部計算，然后將這些計算的結果封裝成一個包含信息豐富的輸出的向量。每個膠囊會學習辨識一個局部條件和有效變形范圍內隱性定義的視覺實體，并輸出在有限范圍內存在的概率及一組實體參數，這組實體參數會包括相對這個視覺實體的照明條件、精確的位姿和變形信息等。當膠囊工作正常時，視覺實體存在的概率具有局部不變性，也就是當實體在膠囊覆蓋的有限范圍內的外觀流形上移動時，概率不會改變。實體參數卻是“等變的”，隨著觀察條件的變化，實體在外觀流形上移動時實例參數也會相應地變化，因為實例參數表示實體在外觀流形上的內在坐標，如圖3所示。

假設一個膠囊，它檢測圖像中的指靜脈特征，并輸出長度固定三維向量。接著開始在圖像上移動靜脈。同時，向量在空間上旋轉，表示檢測出的靜脈的狀態改變了，但其長度將保持固定，因為膠囊仍然確信它檢測出了靜脈。神經活動將隨著物體在圖像中的移動而改變，然而檢測概率保持恒定，這就是CapsNets追求的不變性，而不是CNN提供的基于最大池化的不變性。

1.3 Squash函數

CNN常用的激活函數包括ReLU、sigmoid等，實現的只是線性疊加后壓縮在0～1或者1～-1之間。在CapsNets中，因為在前層網絡中以向量的形式輸送，所以在做激活時需要對“膠囊”做方向處理。CapsNets的激活函數命名為Squash，表達式如式(2)所示：

1.4 動態路由

膠囊的輸入和輸出的點積測量輸入與輸出的相似性，然后更新路由系數。實踐中的最佳的迭代次數是3次。動態路由的步驟為：

(1)將輸入的圖片進行膠囊封裝后輸出U_j|i，路由迭代次數r；

(2)定義b_ij為l層VN_i連接下一層VN_j的可能性，初始值為0；

(3)循環執行步驟(4)～步驟(7)r次；

(4)對l層的VN_i，將b_ij用Softmax轉化成概率c_ij；

(5)對l+1層的VN_j，加權求和s_j；

(6)對l+1層的VN_j，使用激活函數激活s_j得到v_j；

(7)根據U_j|i和v_j的關系來更新b_ij。

用U_j|i和v_j的點積來更新b_ij，當兩者相似時，點積就大，b_ij也就變大，低層VN_i連接高層VN_j的可能性就變大；相反，當兩者差距大時，點積就小，b_ij也就變小，低層 VN_i連接高層VN_j的可能性就變小。

1.5 損失函數

CapsNets的損失函數類似于SVM的損失函數，如式(3)所示；

式(3)同樣表示最大化正負樣本到超平面的距離。這里給定了2個標定點m⁺=0.9和m^-=0.1，損失希望正例樣本m⁺預測在0.9，超過0.9就沒必要繼續提高了；負例m^-預測在0.1，低于0.1也就沒必要繼續再下降了。λ的值固定為0.5，用于訓練期間的數值穩定性，是為了防止一開始損失過大，導致全部輸出值都在收縮。公式中的兩個項都有平方，因為這個損失函數具有L2范數，總損失是所有類損失的總和。

2 實驗

2.1 數據集

本次實驗采用的數據集是584個人的6根手指（除大拇指與小指）圖像，每根手指重復采集20次，也即數據集大小為584×6×20。其中訓練集為60 000張，測試集為10 000張。

2.2 實驗結果

利用TensorFlow開源框架設計和實現深度神經網絡。進行3次路由循環，迭代訓練31 000次。識別率與loss值如表1所示。

整個實驗在NVIDIA Titanxp上，CapsNet網絡訓練時間花費約6小時，通過圖4可以看出，橫坐標為CapsNets的迭代次數，縱坐標為CapsNets的精確度與loss值，當迭代到2 000次的時候，開始逼近90%的精確度，同時loss已經低至0.2，隨著迭代次數的增加，震動逐漸減少趨近平穩，最后收斂于98.6%，而loss值也驚人地收斂于0.010 7。圖5為VGG-16的訓練圖，可以看出比較平穩，后期的學習并沒提升多少精確度，當迭代到200次的時候網絡精確度趨近84%，最后精確度在85%，而loss值緩慢減小，最后總loss值在0.21。如表2所示，相比VGG-16，CapsNets優勢非常明顯（采用同一個數據集實驗）。

3 結論

通過實驗證實了CapsNets比CNN更佳適合指靜脈識別，由于網絡結構的簡易，使得訓練速度大幅度地提升。同時，因為CapsNets的空間特性使得靜脈特征被更完整地提煉出，增加了識別精確度。但是CapsNets也常與背景糾纏在一起，CapsNets仍處于起步階段，在以后的工作當中，也許在出現龐大的數據集的時候會出現其他問題，不過CapsNets的出現使得我們在人工智能的研究中跨進一大步。

參考文獻

[1] KRIZHEVSKY A，SUTSKEVER I，HINTON G E.ImageNet classification with deep convolutional[C].International Conference on Neural Information Processing Systems，2012，60(2)：1097-1105.

[2] SIMONYAN K，ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[J].Computer Science，arXiv：1409.1556，2014.

[3] SZEGEDY C，LIU W，JIA Y，et al.Going deeper with convolutions[C].IEEE Conference on Computer Vision & Pattern Recognition，2015：1-9.

[4] He Kaiming，Zhang Xiangyu，Ren Shaoqing，et al.Deep residual learning for image recognition[C].IEEE Computer Society，2015.

[5] 吳超，邵曦.基于深度學習的指靜脈識別研究[J].計算機技術與發展，2018(2)：200-204.

[6] HONG H G，LEE M B，PARK K.Convolutional neural network-based finger-vein recognition using NIR image sensors[J].Sensors，2017，17(6)：1-21.

[7] 余成波，秦華鋒.手指靜脈圖像特征提取算法的研究[J].計算機工程與應用，2008，44(24)：175-177.

[8] GONZALEZ R C，WOODZ R E.數字圖像處理[M].阮秋琦，等，譯.北京：電子工業出版社，2007.

[9] Wen Yandong，Zhang Kaipeng，Li Zhifeng，et al.A discriminative feature learning approach for deep face recognition[J].Lecture Notes in Computer Science，Springer，2016，47(9)：499-515.

[10] HINTON G E，KRIZHEVSKY A，WANG S D.Transforming auto-encoders[C].International Conference on Artificial Neural Networks，2011，6791：44-51.

[11] SABOUR S，FROSST N，HINTON G E.Dynamic routing between Capsules[J].NIPS2017，2017.

[12] 劉洋，郭樹旭，張鳳春，等.基于稀疏分解的指靜脈圖像去噪[J].信號處理，2012，28(2)：179-185.

[13] ROSDI B A，CHAI W S，SUANDI S A.Finger vein recognition using local line binary pattern[J].Sensors，2011，11(12)：11357-71.

[14] AREL I，ROSE D C，KARNOWSKI T P.Deep machine learning-a new frontier in artificial intelligence research[J].Computational Intelligence Magazine IEEE，2010，5(4)：13-18.

作者信息:

余成波，熊遞恩

（重慶理工大學電氣與電子工程學院，重慶400050）

原創聲明：此內容為AET網站原創，未經授權禁止轉載。

相關內容