唐思源,白金牛,楊敏
(包頭醫學院 計算機科學與技術系,內蒙古 包頭 014040)
摘要:臨床經驗及診斷中表明許多疾病都與紅細胞形變有關。因此分析紅細胞的形態特征可以輔助診斷病人的病情。運用模板匹配方法尋找12類形態變異的紅細胞子圖像的位置,應用PCA和LDA算法對12類產生形變的紅細胞進行特征選擇和提取,并針對噪聲問題對算法進行了改進。通過實驗數據對一些分類困難的形變細胞做進一步的數據對比及特征提取分類。實驗表明,該算法及改進的方法能有效區分并提取出不同類型的紅細胞,分類的準確率達到了92.7%。
關鍵詞:紅細胞形變;特征提取;PCA和LDA算法;噪聲
0引言
隨著醫學成像技術的發展和進步,在臨床醫學中,用計算機處理醫學類圖像的應用越來越廣泛。應用計算機技術輔助分析與處理醫學圖像,逐漸成為一門交叉學科。該學科一方面可以對放射儀器采集的圖像進行分析和處理,另一方面對掃描電子顯微鏡(SEM)[1]下的圖像進行處理。本文所采集的圖像就是在SEM下獲取的紅細胞圖像。紅細胞是脊椎動物與外界進行氣體交換的媒介,即呼出二氧化碳,呼入氧氣。當紅細胞發生形變后,不僅影響到血液系統,還會涉及其他系統功能,并且會誘發很多疾病,比如缺鐵性貧血、溶血性貧血等病癥。因此,對紅細胞形狀特征的研究和提取很有研究的價值。
1紅細胞形態分類的研究
人類正常的紅細胞是雙面凹陷的圓餅形狀,中間比較薄,兩邊比較厚,通常在6~9 μm之間,如圖1所示,這種形狀的紅細胞可以最大限度地獲取氧氣。各種血液系統疾病都可引起紅細胞的形變,形變后的紅細胞,其大小、形狀、厚度、染色等都會有所改變,經過大量臨床分析,紅細胞形變后的形態大致分為12類[2], 分別是小紅細胞、大紅細胞、裂紅細胞、口形紅細胞,球形紅細胞、橢圓形紅細胞、半月形紅細胞、刺毛紅細胞、鐮狀紅細胞、水滴形紅細胞、靶形紅細胞、棘形紅細胞,圖像如圖2所示。
本節重點介紹了12類形態變異的紅細胞的形態特征,為下一步對圖像進行特征提取打下基礎。
2紅細胞圖像特征提取的研究
圖像特征[3]是指人們能肉眼觀察到的顏色、形狀、亮度、大小等圖像的信息,能觀察到的特征稱為低層次特征。而有些特征是通過測量或者公式變換計算出來的,稱之為高級特征,比如直方圖、濾波、頻譜等。提取圖像的特征是模式識別的基礎,只有把相同圖像的共有特征提取出來,才能從復雜圖像中提取出需要的圖像信息。例如:可以根據灰度值、角點等特征信息從圖像中提取出文本內容等。基于對顯微鏡下大量紅細胞圖像分析,本文主要從紅細胞的幾何特征、紋理特征中提取幾種對分類有意義的特征值。
2.1圖像特征的提取
提取圖像的特征[4]主要是提取出圖像相關的像素點,并且對像素點進行歸類的過程,廣義上講就是一種變換。在提取圖像特征的時候,特征的選取也很重要,良好的特征應具備區別性大、可靠性高、獨立性好、數量少這四個特點。提取過程如圖3所示。
2.2圖像特征的選擇
在圖像分類過程中,必須從較大的特征集中選擇符合條件的特征量,從得到的特征向量中選擇少而精的向量集,進行分類識別,這樣才能提高分類的準確率。特征選擇[5]就是選取能代表同一類圖像共同屬性的特征集合,也是一個降低特征空間維數的過程。目前,搜尋策略方法是研究者們常用的特征方法,該方法有三種方式:分別為啟發式、窮舉式和隨機方式。
2.3紅細胞幾何特征
常用的特征表達方法有顏色、紋理和形狀等,這些特征信息具有各自的特點,本文采集的紅細胞圖像屬于灰度圖像,紋理和形狀的描述顯得較為突出。根據上文介紹,正常的紅細胞與異常的12類紅細胞的大小、形狀差異比較大,因此幾何特征[6]的提取在文章中顯得尤為重要。首先本文通過計算面積、圓度、矩形度等,得到細胞的原始特征,形成特征后,經過變換、壓縮維數或者用數學方法進行篩選,提取較少的新特征。
本文選用了以下幾個形態特征參數作為紅細胞形態學的特征,它們容易提取并能反映不同紅細胞的差異,其定義如下。
(1)區域面積
區域面積[7]指的是細胞區域的大小,其計算公式為:
(2)區域周長
區域周長就是區域輪廓的長度。其計算公式為:
(3)細胞的圓形度(形狀參數)
圓形度表示細胞是否接近圓形。用公式表示為:X=,X的值越接近1,該細胞圖形的形狀越接近圓形,否則形狀越不規范。
(4)矩形度
矩形度表示圖形面積和矩形面積之比,公式表示為:
R=S0/Sr
(5)伸長度
該參數可以反映圖形的細長程度,定義的公式為:
(6)長軸和短軸
細胞圖像中兩點間最遠距離是長軸長,細胞圖像中兩點間最近距離表示短軸長。
(7)不變矩(中心矩)
所謂中心矩是指以重心為原點進行計算的不變矩陣。
2.4紅細胞紋理特征
紋理[8]是經過變換后,圖像局部特征的一種表現,紋理可以對圖像中不同區域的方向、粒度、結構和規則性的差異進行有效的描述,針對不同結構的紋理特征,目前存在著很多種分析方法,這些方法有統計法、結構法和空間頻域聯合分析法。本文應用統計法和結構法相結合的算法,計算圖像的灰度-基元共生矩陣,并從矩陣中提取出能描述紅細胞紋理特征參數的特征向量值,來描述不同類型紅細胞的紋理特性,需要的紋理特征參數[9]如下:
能量:ASM=∑L-1i=0∑L-1j=0P2δ(i,j)
熵:
對比度:
相關:
上述幾種參數是應用灰度共生矩陣進行紋理分析的主要參數,可以將它們組合起作為紋理分析的特征參數使用。
2.5紅細胞特征提取
首先應用模板匹配的方法尋找12類形態變異的紅細胞子圖像的位置,選擇一個紅細胞的形狀模板,將模板的中心放在一個所匹配的圖像點上,然后計算模板中有多少個點與圖像點相匹配,對整幅的圖像重復該過程,最佳匹配點即計數最大的點,定位紅細胞的位置。模板匹配可以被定義為一種參數估計方法,算法如下:(1)求似然函數的最大值。將模板定義為一個離散函數,為所匹配的帶噪聲的圖像計算圖像的標準偏差,得到概率函數,因為影響每個像素的噪聲都是獨立的,所以模板所處位置的概率是該模板所覆蓋的每個像素的聯合概率。得到聯合概率函數,最終可得似然函數,在最大似然估計中,需要選擇參數,求得似然函數最大值。(2)計算最大化模板和圖像之間的互相關。通過求似然函數的最大值,使目標函數的變化率最小化,由公式給出最小化問題的解,再通過計算式,得到最佳的匹配位置。此外,互相關的取值范圍取決于模板的大小,并且相對于圖像光照條件的變化來說也不是不變的。可以對互相關進行歸一化處理,其中窗口內的點像素的平均值是模板像素的平均值。通過歸一化后,并對紅細胞圖像進行二值化處理,可以減少計算量,得到最佳的匹配位置。
其次,應用主成分分析(Principa1 Components Analysis,PCA)方法[10]與線性判別分析(Linear Discriminant Analysis,LDA)方法相結合的算法來提取紅細胞的特征,該算法既可以降低空間維數,又可以克服兩種算法的缺點。PCA算法[11]的優點是:識別速度快、識別率高,對于扭曲變形的圖像有很強的魯棒性,缺點是: 對光照敏感。LDA算法[11]的優點是:改善了光照敏感性,對光照不均勻的圖像也能很好地計算出特征向量值進行特征的提取。本文的算法步驟如下:(1)空間降維及子空間融合。首先,利用PCA方法進行空間降維,將高維空間的樣本投影到低維空間。接著,將PCA算法與LDA算法構成的特征子空間進行融合,獲得其融合特征空間。(2)空間投影及求特征值。先進行規范化處理, 把規范化后的樣本A投影到融合特征子空間中,利用公式:yd=Axk(k=1,2,…,d)得到一組投影向量y1,y2,…,yd,把投影向量排列成矩陣形式,把矩陣轉換成直方圖,通過直方圖提取出細胞樣本A的特征值。(3)特征選擇及特征提取。通過計算分辨率系數,選擇分辨率強的特征值,然后利用LDA特征選擇的線性分類方法對紅細胞進行特征提取。(4)去除噪聲。由于經過降維之后,很多噪聲數據還殘留在細胞特征信息里,本文通過求解Fisher準則函數[12],對特征提取算法做去除噪聲的改進處理。定義Fisher準則函數如下:,其中sw是非奇異矩陣,w是投影向量,本文通過具體分析sw、sb的特征空間,使Fisher準則函數最大化,求出對應的特征向量,滿足等式sbwi=λSwWi(i=1,2,…,m)的解即為紅細胞的特征值,否則視為噪聲。通過改進處理后,同一類的樣本特征值聚集在一起,而不同類的噪聲樣本相對比較分散。
最后,對12類紅細胞,共332個紅細胞提取了7類與實驗密切相關的幾何特征值,這7類特征值的平均值見表1所示。
該算法在MATLAB環境下實現,隨機選取電子顯微鏡下100張紅細胞圖像進行實驗,應用本文提出的主成分分析法和線性判別法進行特征的選擇與提取,并通過實驗數據提出對一些分類困難的紅細胞進行進一步數據對比及特征分類的方法。實驗結果表明,該算法的分類準確率達到了92.7%,是一種有效的方法。
3結論
本文通過對紅細胞圖像進行篩選,最終選取了形態特征、紋理特征中的9個特征值組成的特征庫,并增加了數據對比,明顯提高了對12類紅細胞分類的準確性。在今后的工作中要繼續挖掘新的特征,比如色度和亮度特征、顆粒特征等,對那些環境復雜、形態不規則的細胞進行提取。
參考文獻
[1] GEDDE M M,YANG E,HUESTIS W H.Shape response of human erythrocytes to altered cell pH[J].Blood, 2015, 86(6):1595 1599.
[2] CASTLEMAN K R.Digital image processing[M].Beijing:Tsinghua University Press,2008.
[3] VAPNIK V N. Statistical learning theory [M].New York: Wiley Press, 2008.
[4] BERTHOLD K P H.Robort vision[M].Cambridge: MIT Press,2009.
[5] DUNCAN J S,AYACHE N.Medical image analysis: progress over two decades and the challenges ahead[J].IEEE Transactions on Pattern Analysis and Machine Intelligenee,2009,22(1):85 106.
[6] 王浩軍,鄭崇勛,李映,等.支持向量機在血細胞分類中的應用[J].生物醫學工程學雜志,2003,20(3):484 487.
[7] 田婭,饒妮妮,蒲立新.國內醫學圖像處理技術的最新動態[J].電子科技大學學報,2012,31(5):485 489.
[8] 朱學芳.計算機圖像處理導論[M].北京,科學技術文獻出版社,2013.
[9] 阮秋琦.數字圖像處理[M].北京:電子工業出版社,2010.
[10] 王亮申,歐宗瑛.圖像紋理分析的灰度基元共生矩陣法[J].計算機工程, 2014, 23(30):19 21.
[11] 孫即祥.現代模式識別[M].合肥:國防科技大學出版社, 2011.
[12] 曾明,孟慶浩,張建勛,等.基于形態特征和SVM的血液細胞核自動分析[J].計算機工程,2008,34(2):14 19.