摘 要:簡要回顧了人臉識別技術的研究背景及發展歷程,總結了近三四年人臉識別方法的研究進展,根據三維人臉重構方法的數據來源不同,將其分為基于靜態圖像和視頻序列的三維重構技術。重點對目前多特征和多模態識別技術進行了分類闡述,分析了一些有代表性的算法并對其識別結果進行了比較。最后,總結了人臉識別技術現存的研究難點,并探討了其未來的發展方向。
關鍵詞:人臉識別;三維人臉重構;多特征;多模態
在現有的眾多生物特征(指紋、虹膜、視網膜、掌形等)識別技術中,人臉識別技術具有傳統的識別技術無法比擬的優點,如直接、友好、對用戶干擾少、更易于被接受等。人臉識別技術是一門融合了多學科(生物學、心理學、認知學等)、多技術(模式識別、圖像處理、計算機視覺等)的新的生物識別技術,它具有廣泛的應用和巨大的市場前景,可用于身份確認(verification or authentication 一對一比較)、身份鑒別(identification or recognition 一對多匹配)、訪問控制(門監系統)、安全監控(銀行、海關監控)、人機交互(虛擬現實、游戲)等。在人臉識別研究的早期階段,識別技術主要依賴于人的先驗知識,也就是二維人臉識別方法。20世紀80年代,二維圖像處理技術日趨成熟,在一定約束條件下人臉識別已經能取得較好的效果,但同時也暴露了二維人臉識別技術對環境和人臉姿態變化魯棒性差的缺點。從20世紀90年代開始,隨著計算機性能的飛躍性發展和成像技術的進一步提高,三維人臉識別技術成為目前最受關注的新方法[1]。在國內,比較有代表性的成果是北京奧運會使用的自動人臉識別系統。
1 三維人臉重構方法
三維人臉重構是指通過含有人臉的圖像或視頻中有限的人臉信息來建立人臉三維模型。根據人臉信息來源的不同,本文將三維人臉重構方法分為從靜態圖像重構和從視頻序列重構兩大類。
1.1 從靜態圖像重構三維人臉
傳統的三維重建技術大多是通過特征點的提取和匹配計算特征點的三維坐標來獲取臉部的三維結構。特征點定位有手工標定和自動檢測兩種,特征點數目比較大時,手工標定很難嚴格定義特征點之間的對應關系。ZHANG C等人[2]采用點對點集的距離來間接描述特征點之間的相似度,但是,這種局部相似度不能保證全局最優匹配,且有可能造成畸變。
為了減少點對應性的困難,參考文獻[3]中提出了以形狀匹配為相似性度量的通用頭部形變模型,在不需要嚴格的特征點對應甚至某些特征點缺失的情況下,完成姿態估計和三維重建。為了解決搜索點之間的最佳相似性,文中還提出了一種多級搜索的方法,大大減少了搜索時間,但這只是基于多幅圖像的情況。雖然多幅圖像可以消除人臉特征部件檢測的不確定性,但特定臉的多幅圖像一般難以獲得,所以當前的很多研究都是基于單一圖像的。為了能獲得人臉的完整的臉部特征信息,單一圖像一般要求是正面人臉圖像且是中性表情。
BREUER P[4]和胡元奎[5]等人都是基于單一圖像進行建模。參考文獻[4]中提出了一種融合支持向量機(Support Vector Machine)和三維形變模型(3D Morphable Model)的方法,分別用不同方法檢測人臉和人臉的局部特征(鼻尖、眼角、嘴角),然后確定人臉特征可能的位置并評估特征點的輪廓,通過迭代處理提高算法對頭部方向的魯棒性,最后初始化形變模型的模型試配流程來產生高分辨率的三維人臉模型。但是,形變模型算法需要花費很長的時間對大量的三維人臉數據進行訓練。參考文獻[5]基于通用三維人臉模型的三維人臉合成方法能很好地減少算法的復雜性和訓練時間。他們利用了基于知識的特征點定位算法和ASM(Active Shape Model)方法進行人臉特征點的定位,用SFS(Shape From Shading)算法恢復人臉表面深度,并利用內插算法對通用三維人臉模型進行變形處理以生成適用于特定人臉的三維模型。此算法的優點是只需要一個通用的三維人臉模型即可,不需要進行額外的訓練,而且對訓練數據以及存儲空間的實際需求很容易滿足,具有明顯的優勢。
無論是單一圖像還是多幅圖像,靜態圖像提供的信息都是相對有限的,例如無法提供連續多幀圖像和時間相干性 。于是,在研究從靜態圖像重構人臉模型的同時,少數研究嘗試了從視頻圖像序列重構三維人臉模型的方法。
1.2 從視頻序列重構三維人臉
從視頻重構人臉的過程和從單一圖像重構人臉的過程基本上一樣(如圖1所示),只是源圖像不同。視頻序列雖然也可以使用適合于單一圖像的方法,如參考文獻[4]從圖像序列中選出最合適的一幀圖像(例如正面圖像)來重構三維人臉模型,但這顯然不是應用視頻序列圖像的目的。
PARK U等[6]用通用三維人臉模型和兩個視頻幀來重構特定用戶三維人臉模型。他們從立體視頻中重建臉部標記點的稀疏集合,將其用于薄板樣條TPS(Thin Plate Spline)的試配過程,在TPS試配的基礎上對一般人臉模型進行非線性變換,得到合適的三維人臉模型,將視頻中人臉紋理信息對三維人臉模型進行映射,從而獲得真實的三維人臉模型。該方法應用比較廣泛,但在重建的初始化階段,初始值與通用模型非常相似,導致重建的模型與視頻中的人臉相比更近似于通用人臉模型。此缺點可以利用SFM(Structure From Motion)算法[7]解決。首先,SFM算法能夠保留通用人臉模型的特定特征;其次,通過與通用人臉模型比較,兩臉間的誤差在能量函數最小化過程中都被修正。但是,不使用通用模型,單純用SFM算法對視頻圖像進行三維估計會使深度估計變得困難,可能會帶來其他信息不足或估計誤差等問題。文中的算法流程如圖2所示[7]。
2 多特征融合人臉識別方法
重構三維人臉模型只是人臉識別的重要手段之一,但其算法相對復雜。目前,使用多方法(二維)融合來提高識別性能還是人臉識別領域研究的熱點[8-15]。多方法融合主要分為融合多種臉部特征(膚色、輪廓和紋理等信息)和融合多種模態(二維和三維信息)兩種。由于圖像與形狀信息相對獨立,多特征融合的人臉識別方法曾經很少使用。
2005年前后,SU Hong Tao[8]和周曉彥等人[9]分別提出了融合主分量分析PCA(Principal Component Analysis)與線性判別式分析LDA(Linear Discriminant Analysis)混合特征和融合核主元分析KPCA(Kernel Principal Component Analysis)與核判別式分析KDA(Kernel Discriminant Analysis)的人臉識別算法。在參考文獻[8]中,利用庫中圖像和被檢測圖像的交互信息進行粗分類,在圖形數據的傅里葉頻率區域進行PCA和LDA特征的抽取。由于PCA和LDA能分別反映圖像的不同特性,故融合兩子特征將取得比單一特征更好的分類性能。參考文獻[9]首先求解KDA的最佳判別矢量,然后基于KPCA準則函數求得另一組投影矢量,最后將兩組投影矢量融合成一組新的特征矢量用于特征的提取。
與參考文獻[8]和參考文獻[9]不同,LIU Zhi Ming等[10]應用了顏色和頻率特征。離散傅里葉變換將膚色RIQ空間轉換到頻域并分別求出各個顏色分量的掩飾面(mask),用增強Fisher模型EFM(Enhanced Fisher Model)抽取互補頻率特征(包括檢測臉、庫中人臉和R分量大小),在特征水平上用級聯的方法將其融合在一起,將得到的相似性結果用于分類。分別對各個分量進行互補頻率特征抽取和分類,最后將分類結果通過加權因子再次融合在一起,用于人臉的識別。該方法比單顏色分量時的識別率有很大的提高,這也說明,單一特征所包含的信息都是有限的。充分利用人臉的膚色和紋理結構等各種特征,將會取得較好的識別效果。
3 多模態融合人臉識別方法
多模態融合的人臉識別方法與多特征融合方法一樣,目的是融合二維和三維甚至四維的臉部信息,以提高識別的精度和算法對環境的魯棒性[11,14-15]。
在多模態融合的研究上,比較成功的是MIAN A等人[12]提出的全自動三維人臉識別算法。該算法能全自動檢測人臉鼻子區域,自動修正三維人臉姿態和進行標準化處理,可以在規模比較大的人臉識別中通過粗匹配快速拒絕大多數不適合的人臉并能自動分割易受表情影響和不易受表情影響區域。但是,算法在最后識別階段容易受頭發的影響,且無法自動檢測側面圖像。為了解決此問題,他們在前期研究的基礎上提出了一種有效的多模態(二維/三維)融合和混合(局部/整體特征)匹配的方法[13]。該方法在參考文獻[12]的基礎上,用三維球面人臉描述SFR(Spherical Face Representation)和可變尺度特征變換SIFT(Scale-Invariant Feature Transform)描述子來構建拒絕分類器,通過粗(整體)匹配快速拒絕大部分候選人臉并對剩下的人臉進行區域分割,得到對表情不敏感的局部特征區域(眼睛-前額/鼻子),再用修正的迭代最近點算法(Modified ICP)對這些局部特征進行單獨匹配。
相對三維融合二維信息的方法,三維與四維信息的融合技術應用比較少。參考文獻[14]中PAPATHEODOROR T等人利用人臉紋理結構和表面信息注冊,提出一種自動的四維人臉識別方法。他們利用立體攝像系統,結合面部外觀的二維紋理映射描述符和三維面部幾何的致密三維網格頂點描述符,重構四維人臉數據。在識別階段先進行三維或者四維剛性注冊,然后通過ICP算法和歐氏距離計算兩臉部圖形對應點的距離,根據相似性判斷來進行識別。表1所示是多特征融合與多模態融合的一些代表性算法在各自實驗中的結果。
由于現在人臉數據庫并不統一,不同文獻的實驗數據庫一般不一樣,且所使用的圖像類型(顏色圖像和灰度圖像)與大小不同,因此很難根據它的識別率來判斷某個算法的優劣性。此外,即使使用同一個數據庫,數據庫中也往往含有各種變化劇烈程度不一致的表情、姿態和光照情況,在不同的環境和姿態表情下,算法的結果會有很大的差別。
目前,三維人臉識別方法已經代替二維人臉識別方法成為研究熱點。克服表情姿態和環境影響是目前三維識別研究的主要目的,其手段就是從圖像中重構人臉三維模型。圖像采集設備的差異和成像原理的不同,造成了采集數據的差異,如何更好地獲取更多的有效信息與對數據的正規化一樣成為難題。同時,特征點定位和人臉特征的提取對三維人臉重構非常重要,有效地監測定位和特征提取算法有待進一步地完善。
雖然三維數據獲取技術有了飛速發展,但遠沒有達到像獲取二維圖像那么方便和普及,且基于三維信息的識別技術同樣會受到人臉姿態和環境的影響。此外,由于三維識別算法在某些特定環境下(視頻監控、受限制區域)無法像二維識別技術一樣取得令人滿意的結果,它需要二維方法甚至更高維方法的輔助來提高它的識別精度和魯棒性,故融合多特征的識別技術和融合多模態的人臉識別技術在很長的一段時間內將是最有效的人臉識別方法之一。
參考文獻
[1] 段錦, 周春光, 劉小華. 三維人臉識別研究進展[J] . 小型微型計算機系統, 2004 , 25 (5) : 886-890.
[2] ZHANG C, COHEN S. 3-D face structure extraction and recognition from images using 3-D morphing and distance mapping[ J ] . IEEE Trans on PAMI, 2002 ,11 (11):1249-1258.
[3] XUE Feng, DING Xiao Qing. 3D reconstruction of human face based on shape match morphing model[ J ] . ACTA ELECTRONICA SINICA , 2006, 34(10):1896-1899.
[4] BREUR P, KIM Kwang-In, KIENZLE W, et al . Automat ic 3D face reconstruction from single images or video[C]. Automatic Face & Gesture Recognition, 2008. FG '08. 8th IEEE International Conference on 17-19 Sept. 2008:1-8.
[5] 胡元奎.可變光照和可變姿態下的人臉圖像識別研究[D]. 合肥: 中國科學技術大學, 2006.
[6] PARK U, JAIN A K. 3D face reconstruction from stereo video[C]. Proceedings of the 3rd Canadian Conference on Computer and Robot Vision (CRV’06),2006:41–41.
[7] CHOWDHURY A R, CHELLAPPA R, VO T, et al.3D face reconstruction from video using a generic model[C]. Multimedia and Expo, 2002. ICME '02. Proceedings. 2002 IEEE International Conference on Volume 1,26-29 Aug, 2002,1:449 - 452.
[8] SU Hong Tao, FENG D D, WANG Xiu Ying, et al . Face recognition using hybrid feature[C]. Machine Learning and Cybernetics, 2003 International Conference, 2003(5):3045–3049.
[9] 周曉彥,鄭文明. 一種融合KPCA和KDA的人臉識別新方法[J]. 計算機應用, 2008,28(5):1263-1266.
[10] LIU Zhi Ming , LIU Cheng Jun. A hybrid color and frequency features method for face recognition[J]. Image Processing, IEEE Transactions , 2008,17(10):1975–1980.
[11] LIN C J, CHU C H, LEE C Y, et al . 2D/3D Face Recognition Using Neural Networks Based on Hybrid Taguchi-Particle Swarm Optimization[C]. Intelligent Systems Design and Applications, 2008. ISDA '08. Eighth International Conference on Volume 2,26-28 Nov, 2008:307–312.
[12] MIAN A, BENNAMOUN M, OWENS R. Automatic 3D face detection, normalization and recognition[J]. 3D Data Processing, Visualization, and Transmission, Third International Symposium on 14-16 June, 2006:735–742.
[13] MIAN A S, BENNAMOUN M, OWENS R. An efficient multimodal 2D-3D hybrid approach to automatic face recognition[J]. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,2007,29(11):1927-1943.
[14] T PAPATHEODOROU, RUECKERT D. Evaluation of automatic 4D face recognition using surface and texture registration[C]. Automatic Face and Gesture Recognition, 2004. Proceedings. Sixth IEEE International Conference on 17-19 May, 2004:321–326.
[15] RAMA A, TARRES F, ONOFRIO D, et al . Mixed 2D-3D information for pose estimation and face recognition[C]. Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on Volume 2, 2006:14-19.