文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2018.S1.030
0 引言
近年來隨著移動通信的快速發(fā)展,手持終端在電力行業(yè)的應用也越來越多。在電力現(xiàn)場,施工人員用手持終端完成業(yè)務流程,用圖片和視頻等記錄施工現(xiàn)場,降低了電力行業(yè)的管理成本,提高了工作效率,加強了對業(yè)務的管理。但是現(xiàn)場施工人員依然需要輸入較多的文字信息,特別是在輸入所維護設備的設備型號和設備編號時,型號和編號一般是比較長的英文字母和數(shù)字組合,難以記憶,容易輸入錯誤。從視頻中提取設備型號和編號實現(xiàn)自動錄入將降低施工人員信息輸入難度,減少工作失誤。然而,施工現(xiàn)場光照條件難以預計,拍攝角度不定,如何準確地定位視頻中文字的位置以便進行進一步文字識別仍是一個技術(shù)難題。
文字作為高抽象化的信息載體,在信息交互過程中起著重要作用。隨著智能終端的普及和虛擬現(xiàn)實、增強現(xiàn)實等新概念、新技術(shù)不斷發(fā)展,文字檢測技術(shù)的應用空間正呈現(xiàn)飛躍式的發(fā)展。在日常生活中,有很多場合適合或已經(jīng)正在使用文字檢測技術(shù)來改善我們的體驗。比如,在視頻會議過程中自動定位文字,進而進行關鍵文檔區(qū)域的局部增強、放大或自動保存。其它較為典型的例子還包括,智能輔助駕駛系統(tǒng)通過文字檢測技術(shù)進行的道路交通標識識別,智能手機里的視頻取景自動翻譯功能等。在過去的幾年里,依托圖像、視頻文字定位技術(shù)有大量諸如此類的應用衍生。
現(xiàn)有的文字定位算法可以初略劃分為三類:基于紋理分析的方法、基于區(qū)域分析的方法以及混合算法。基于紋理分析的方法[1]認為文字區(qū)域與其它類型目標的紋理特性相比具有較大的差異,一般借助空間濾波、局部強度分析或小波分析等傳統(tǒng)技術(shù)進行紋理信息的提取。此類方法的一個主要缺點是,紋理特征模型只能適應特定朝向的文字,不能應對文字在影像內(nèi)的幾何變換,因此算法的遷移能力較差。基于區(qū)域分析的方法[2]是以邊沿檢測、聚類分析等方法確定備選的文字區(qū)域,進而用特定的啟發(fā)式策略逐一排除非文字區(qū)域。混合算法可以綜合前兩者的優(yōu)勢,能夠應對圖像的尺度變換、旋轉(zhuǎn)等干擾因素[3]。但這類算法往往需要建立復雜的決策規(guī)則或計算大量的模型參數(shù),因此實用性受到很大限制。
相對于靜態(tài)的圖像數(shù)據(jù)而言,視頻數(shù)據(jù)的時空線索在文字定位、分析過程中具有獨特的優(yōu)勢。近年來,研究者們已經(jīng)對視頻文字定位問題做出了很多有益的探索。然而,目前而言仍然有很多問題還沒有得到很好的解決,比如強烈的尺度變化、畸變、遮擋、成像質(zhì)量退化等[4]。針對圖像文字識別過程中文字形狀畸變的問題,基于連通區(qū)域分析的方法[5]取得了一定的效果。該方法在顏色量化后通過區(qū)域增長將空間近鄰并且特征相似的像素連接成相連通的區(qū)域,不易受文字形狀拓撲變化的影響。遺憾的是,基于連通區(qū)域分析的方法其效果對影像質(zhì)量的依賴程度較高,而視頻數(shù)據(jù)在增加時間分辨率的同時往往要犧牲成像質(zhì)量。對于成像尺度因素,文獻[6]Wu等人在多個尺度上進行紋理特征分析,取得不錯的效果。但該方法計算代價較高,在處理視頻數(shù)據(jù)時難以滿足實時性的要求。Garcia和Apostolidis[7]提出一種邊緣朝向變異特征,該特征能有效刻畫文字區(qū)域由于筆劃朝向多樣性所帶來的邊緣朝向分布特性。Shivakumara等人[8]基于邊緣特征,以貝葉斯分類器進行像素級的分類,進而通過區(qū)域增長技術(shù)得到文字區(qū)域。這一類方法能夠應對文字旋轉(zhuǎn)因素,但難以檢測到平行筆劃較多的文字。
本文提供了一種魯棒的視頻文本定位方法,該方法以改進的連通區(qū)域分析框架有效應對文字旋轉(zhuǎn)、畸變和尺度變化因素,并利用子域映射技術(shù)以保障在視頻數(shù)據(jù)中獲取充分的信息。
1 方法
本文所提出的方法以迭代模式進行視頻文字定位,其技術(shù)流程如圖1所示。該方法有五個主要的技術(shù)模塊:數(shù)據(jù)增強用以提升邊緣響應的對比度;連通區(qū)域分析用以連接備選文字像素;幀間校驗用以甄選備選的文字區(qū)域;子域映射用以挖掘多通道顏色信息進行備選區(qū)域的描述;分類進行特征描述與分類以實現(xiàn)文字區(qū)域與非文字區(qū)域的判別。
1.1 數(shù)據(jù)增強
邊緣是在影像中進行物體劃分最直觀的物理屬性。通常而言,影像中的文字與其背景介質(zhì)相比具有極高的對比度。因此,在分割文字目標時,邊緣信息能夠提供強有效的線索。然而,由于視頻數(shù)據(jù)的幀率較高,單幀影像的曝光時間較短,導致影像中邊緣模糊、對比度下降、噪聲增強等質(zhì)量退化問題。對此,本文以二階拉普拉斯算子進行視頻數(shù)據(jù)的邊緣增強[9],提升邊緣信息的對比度。
首先,采用亮度-色度顏色空間對影像進行表達。然后,針對亮度通道進行差分操作獲取圖像邊緣,并在亮度通道對邊緣位置的像素進行增強。具體算子定義如下:
式中,l(x,y)為(x,y)位置的原始亮度值,f(x,y)為增強后的亮度值。最后,采用形態(tài)學閉操作填充局部不相一致的像素。
以上策略一方面可以羽化邊緣,從而使得文字的邊緣與背景介質(zhì)的對比度加大;另一方面還可以抑制噪聲,使得到針對每個目標可以獲取較為平滑的邊緣。
1.2 子域映射
視頻文字定位問題的另一個關鍵是顏色的表達。計算機視頻采用的顏色模型為RGB三基色模型,該模型便于顏色的硬件實現(xiàn)而不能很好地擬合人的主觀視覺體驗。生理心理學的有關研究表明,人類感知系統(tǒng)的早期視覺感知符合拮抗原則(視覺四色說)而非混合原則(視覺三色說)[10]。色覺拮抗原則認為人眼對光反應的基本視覺單位是成對組織的,包括紅-綠、黃-藍兩對原色,加上黑-白共組成三對拮抗。也就是說,色度-亮度分離的顏色空間,比如Lab、YCbCr、HSV等,更符合人的感知。然而,目前為止并沒有單獨一種顏色模型能夠充分契合人的顏色感知過程。如何綜合多種顏色空間而挖掘其中最為本質(zhì)的顏色子域以有效表征顏色,是一個值得深入研究的問題。對此,機器學習領域中有很多線性、非線性的特征抽取技術(shù)能夠發(fā)揮作用。
本文以主成分分析(principle component analysis,PCA)為例來說明顏色模型的子域映射方法。視頻數(shù)據(jù)以{Xi,t}=i,1,2,…,N,t=1,2,…,M表示,其中N為單幀中的像素數(shù),M是幀數(shù)。Xi,t是像素的9維顏色向量[h,s,v,L,a,b,Y,Cb,Cr],分別對于HSV、Lab、YCbCr顏色空降的三個通道。依據(jù)該數(shù)據(jù)計算協(xié)方差矩陣:
1.3 連通區(qū)域分析
本文基于連通區(qū)域分析框架進行文字成分提取。連通區(qū)域(Connected Component)一般是指影像中取值相同且將空間上具有連續(xù)關系的像素點組成的圖像區(qū)域。連通區(qū)域分析(Connected Component Analysis)旨在將圖像中的各個連通區(qū)域找出并標記。再此基礎上,后續(xù)進一步的處理、分析過程可以各個群體為單位進行。
本文的連通區(qū)域分析過程包含4個環(huán)節(jié):(1)在子域映射表達后對連續(xù)5幀的影像進行聚類分析,賦予每個像素以類別標簽;(2)對每幀影像單獨進行連通區(qū)標記;(3)對連通區(qū)域標記蒙板進行形態(tài)學閉操作,消除較小的孤立團(約5個像素);(4)對相鄰兩幀影像所標定的連通區(qū)域計算交疊面積,并將交疊面積較低的連通區(qū)域去除。
聚類過程中以k均值算法實現(xiàn)類簇的劃分。設qi,t為第t幀標簽為i的連通區(qū)域,若qi,t與其前一幀關聯(lián)區(qū)域qj,t-1的重疊比R小于0.5,則排除qi,t。j與R通過以下公式確定:
1.4 文字分類
經(jīng)過連通區(qū)域標記后,我們從原始影像中獲取了一些文字目標疑區(qū)。對于這些文字目標疑區(qū),傳統(tǒng)的方法設定了一系列的針對形狀輪廓、邊緣朝向等方面的啟發(fā)式規(guī)則來最終判別該區(qū)域是否包含文字,比如筆畫寬度變化(Stroke Width Transform)[2]、邊緣朝向變異性[7]等。這些啟發(fā)式規(guī)則通常是針對特定的語種和特定的問題背景來設立,因此在使用過程中具有較大的局限性。得益于機器學習和模式識別領域的飛速發(fā)展,有很多優(yōu)秀的工具能夠以強大的學習能力在大量數(shù)據(jù)中建立模式,支撐我們進行數(shù)據(jù)驅(qū)動的算法設計。
針對文字定位這一特定任務,本文以矩朝向直方圖(Histogram of Oriented Moments,HOM)[11]進性文字目標疑區(qū)的特征描述。HOM特征針對待測區(qū)域以二階幾何矩檢測朝向,以直方圖統(tǒng)計的方式描述待測區(qū)域的主朝向,具有旋轉(zhuǎn)、尺度、拓撲變換不變性。HOM特征提取形式如圖3所示。在得到文字疑區(qū)的特征表達之后,本文以SVM算法進行二分類鑒別,最終判定待測區(qū)域是否為文字區(qū)域。
2 實驗與分析
為了驗證本文所提方法的有效性,實驗中采用公開數(shù)據(jù)集ICDAR 2013[12]對算法的性能進行分析。ICDAR 2013數(shù)據(jù)集包含24段不同場景的視頻,視頻中有不同類型的文字呈現(xiàn),包括不同字體、尺度、朝向。本文所提方法的模型參數(shù)是在ICDAR 2013數(shù)據(jù)集的訓練集上進行學習,分類過程中的SVM算法采用RBF核函數(shù)。實驗中選用了4種現(xiàn)有算法進行比較分析,算法的性能以3個指標進行評價:準確率(Precision)、召回率(Recall)、F分數(shù)(F-measure)。
表1給出了本文所提出的算法與4種對比算法的結(jié)果比較。從表中可以看出,本文的算法在3個性能指標上都明顯優(yōu)于對比算法。為了進一步解析本文算法性能優(yōu)勢的來源,實驗中分離了算法主要環(huán)節(jié)的作用,結(jié)果如表2所示。其中需要特別說明的是,排除子域映射是指算法直接以RGB顏色模型進行顏色表達;排除連通區(qū)域分析是指算法直接與滑窗方式檢測文字,以窗口內(nèi)的邊緣特征作為特征輸入;排除SVM分類是指算法在HOM特征提取后以硬分割方式判定是否為文字區(qū)域。從表2中可以看出,排除特定策略后本文的算法性能顯著退化。由此可以推斷,本文算法中這些主要環(huán)節(jié)的策略都是有效的、必要的。
3 結(jié)束語
隨著現(xiàn)代網(wǎng)絡通訊技術(shù)的飛速發(fā)展,視頻數(shù)據(jù)已逐漸成為人們交流信息的主要載體。在視覺數(shù)據(jù)中,常常會攜帶一些文字,而這些文字往往包含著影像內(nèi)的重要信息,比如交通標識、數(shù)據(jù)報表、演示文稿等。因此,對視頻內(nèi)的文字進行精準定位進而準確識別,在視頻內(nèi)容的高層語義理解過程中起著極其重要的作用。自然場景的視頻數(shù)據(jù)由于成像條件復雜,給文字定位帶來了很多技術(shù)難點,比如成像尺度變化、畸變、遮擋、成像質(zhì)量退化等。
本文提供了一種魯棒的視頻文本定位方法,該方法以改進的連通區(qū)域分析框架有效應對文字旋轉(zhuǎn)、畸變和尺度變化因素,并利用子域映射技術(shù)進行顏色空間的表達以保障在視頻數(shù)據(jù)中獲取充分的信息。實驗結(jié)果表明,本文所提出的算法較對比算法而言具有更好的文字定位效果,且其中所涉及的核心策略對算法的總體性能都起到了積極的保障作用。
基于子域映射的視頻文字定位方法在電力現(xiàn)場手持終端中的應用能降低電力現(xiàn)場施工人員的文字信息輸入難度,提高工作效率,減少工作失誤,為電力現(xiàn)場手持終端的普及應用提供了必要的技術(shù)手段。
參考文獻
[1] CHEN X, YUILLE A L. Detecting and reading text in natural scenes[C]. IEEE Conference on Computer Vision and Pattern Recognition. 2004: 366-373.
[2] EPSHTEIN B, OFEK E, WEXLER Y. Detecting text in natural scenes with stroke width transform[C]. IEEE Conference on Computer Vision and Pattern Recognition. 2010: 2963-2970.
[3] SHIVAKUMARA P, PHAN T Q, TAN C L. A laplacian approach to multi-oriented text detection in video [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence. 2011, 33(2): 412-9.
[4] ZHANG J, KASTURI R. Extraction of text objects in video documents: recent progress[C]. IAPR International Workshop on Document Analysis Systems. 2008: 5-17.
[5] ZHONG Y, KARU K, JAIN A K. Locating text in complex color images[C]. International Conference on Document Analysis and Recognition. 2002: 146.
[6] WU V, MANMATHA R, RISEMAN E M. Finding text in images [C]. ACM International Conference on Digital Libraries. 1997: 23-26.
[7] GARCIA C, APOSTOLIDIS X. Text detection and segmentation in complex color images[C]. IEEE International Conference on Acoustics, Speech, and Signal Processing. 2002: 2326-2329.
[8] SHIVAKUMARA P, SREEDHAR R P, PHAN T Q, et al. Multioriented video scene text detection through bayesian classification and boundary growing [J]. IEEE Transactions on Circuits & Systems for Video Technology. 2012, 22(8): 1227-1235.
[9] MA T, LI L, JI S, et al. Optimized laplacian image sharpening algorithm based on graphic processing unit [J]. Physica A Statistical Mechanics & Its Applications. 2014, 416: 400-410.
[10] BUCHSBAUM G, GOTTSCHALK A. Trichromacy, opponent colours coding and optimum colour information transmission in the retina [J]. Proceedings of the Royal Society of London. 1983, 220(1218): 89.
[11] KHARE V, SHIVAKUMARA P, RAVEENDRAN P. A new histogram oriented moments descriptor for multi-oriented moving text detection in video[J]. Expert Systems with applications. 2015, 42(21): 7627-7640.
[12] KARATZAS D, SHAFAIT F, UCHIDA S, et al. ICDAR 2013 robust reading competition[C]. International Conference on Document Analysis and Recognition. 2013: 1484-1493.
作者信息:
武立平,王文賢,馬維青
(國網(wǎng)山西省電力公司陽泉供電公司,山西 陽泉 045000)