文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2017.02.030
中文引用格式: 呂巖,房立清,趙玉龍,等. 基于LFOA算法的相關向量機核參數優化[J].電子技術應用,2017,43(2):124-127.
英文引用格式: Lv Yan,Fang Liqing,Zhao Yulong,et al. Parameters optimization research of relevance vector machine based on LFOA[J].Application of Electronic Technique,2017,43(2):124-127.
0 引言
相關向量機(Relevance Vector Machine,RVM)[1]是建立在支持向量機(Support Vector Machine,SVM)基礎上的一種學習方法,依靠稀疏貝葉斯統計理論建立訓練模型。RVM與SVM相比,函數形式相似,但RVM的核函數不需要滿足Mercer條件以及能提供概率式輸出使它更具優勢[2]。近年來RVM在回歸估計、模式識別及工程領域方面[3]得到了較為廣泛的應用,但仍存在最優核參數不易確定的問題,所以部分學者將智能優化算法應用到RVM核參數尋優中[4],取得了一定的成效。
果蠅算法[5](Fruit fly Optimization Algorithm,FOA)是由PAN W T根據果蠅覓食的行為提出的一種智能優化算法。雖然該算法被廣泛應用到各個領域[6],但在實際應用過程中,也存在陷入局部最優解的情況,文獻[7]提出了具有Levy飛行特征的雙子群果蠅優化算法(LFOA),有效地解決了FOA陷入局部最優的問題,提高了算法的性能。為了提高RVM分類器的性能,本文提出了一種基于LFOA算法的RVM核函數參數優化方法,并通過UCI標準數據庫的仿真實驗,驗證了方法的有效性和可靠性。
1 相關向量機
1.1 模型描述
假設每個樣本獨立分布,p(t|x)采用Bernoulli分布,可得預測結果t的后驗概率的似然函數為:
根據概率預測公式,新的輸入向量x?鄢所對應的目標向量t?鄢求得的條件概率為:
根據稀疏Bayes理論,給權值向量w分配獨立的零均值Gauss先驗分布:
經過多次迭代后可發現大部分權值都變得很小,只有很少一部分權值非零,根據式(1),只有非零權值對應的訓練向量對目標值起作用,稱為相關向量(RVs),則RVM模型可重新表示為:
1.2 RVM多分類
最后,通過式(8)累加所有分類器的概率輸出,并采用“最大概率贏[9]”的策略將xtest判定為累加后驗概率最大的類別。
1.3 核參數對RVM分類性能的影響
相關向量機的核函數可將低維數據樣本映射到高維特征空間,從而實現樣本的線性可分,所以其參數的設置對RVM的分類性能有著極其重要的影響。研究以比較常用、非線性映射能力較強的徑向基核函數[10](RBF Kernel)為例,利用UCI數據庫中Sonar分類數據(共208個樣本)進行試驗,將Sonar數據集中的全部數據作為訓練樣本對RVM分類模型進行訓練,同時也將全部數據作為測試樣本輸入已訓練的RVM模型中進行學習能力測試。核參數值與相關向量(RVs)和訓練時間的關系如表1所示。
根據表1可知,隨著核函數參數逐漸增大,相關向量的數量呈現逐漸下降的趨勢,不同核參數所對應的訓練時間不同,為進一步說明核函數參數對RVM性能的影響,圖1給出了分類準確率隨著核參數的變化趨勢。
由圖1和表1可知,改變核函數參數實際上是改變映射函數關系,進而改變數據樣本映射到高維特征空間的可區分程度,所以核參數的選取對RVM性能有較大程度的影響,同時也只有選擇適當的核參數,RVM的學習能力和泛化能力才能得到提升。
2 LFOA-RVM核參數優化方法
2.1 LFOA算法
LFOA算法是將Levy飛行特征和果蠅算法相結合,利用Levy飛行的高度隨機性使果蠅種群容易跳出局部最優,LFOA算法的具體步驟參見文獻[7]。
LFOA算法在尋優過程中,分別計算果蠅個體與當代最優個體和最差個體的歐式距離Distbest和Distworst,若Distbest<Distworst,則將果蠅個體劃分到較優子群,否則劃分為較差子群,迭代過程中,兩個子群的果蠅個體數量是動態變化的。較優子群圍繞最優個體按式(9)進行Levy飛行:
2.2 LFOA-RVM優化核參數流程
基于LFOA算法優化RVM核參數的流程如圖2所示,具體步驟如下:
(1)將數據集分為訓練樣本和測試樣本,訓練樣本用于RVM核參數選擇和建立RVM分類模型,測試樣本則用于檢驗RVM分類器性能;
(2)初始化LFOA算法種群規模、迭代次數、果蠅個體起始位置和搜索距離以及Levy飛行步進長度等參數;
(3)對訓練樣本采用5折交叉驗證[11](5-fold cross validation),將交叉驗證平均準確率作為適應度函數,選擇最大準確率對應的核參數值作為RVM分類模型參數的設定值;
(4)根據果蠅個體的適應度,按照與最優個體和最差個體間的歐氏距離大小將果蠅分類,并按式(9)和式(10)進行位置更新;
(5)計算新位置果蠅的適應度,按照規則更新全局信息;
(6)重復步驟(4)和(5),最終輸出最優核參數值。
3 仿真實驗
3.1 數據源與參數設置
為了驗證LFOA-RVM的有效性,從UCI機器學習標準數據庫中選取了4個數據集進行仿真實驗。算法采用MATLAB R2011b實現,RVM工具箱為SB2_Release_200[12],實驗中使用的UCI數據集如表2所示。
為了便于對比,分別利用LFOA、FOA、遺傳算法(GA)和粒子群算法(PSO)同時對RVM的核參數進行尋優。將全部算法的種群規模設置為20,最大迭代次數為100,g的搜索范圍設置為0~500;在LFOA算法中步進長度設置為1.5;GA算法中,交叉概率pc=0.7,變異概率pm=0.1;PSO算法中局部搜索參數c1=1.5,全局搜索參數c2=1.7。
3.2 結果分析
利用表2中的4組數據按照2.2節所述的優化流程對LFOA-RVM性能進行測試,尋優迭代過程中的適應度曲線如圖3所示。
根據圖3可知,FOA、GA和PSO算法在尋優時都不同程度的出現了陷入局部最優解而無法跳出的情況,與以上3種算法相比,LFOA由于Levy飛行高度的隨機性從而更容易跳出局部最優,并且適應度更高,尋優速度更快。
4組數據集測試樣本的測試結果如表3~6所示。在表3~6中,平均準確率為使用數據集進行5次實驗后得到的平均測試準確率;最高準確率為實驗過程中得到的最高測試準確率;最優核參數為達到最高測試準確率時RVM分類模型核函數參數的值。
根據測試結果可知,LFOA-RVM不論是解決二分類問題或者是多分類問題,都可以達到較高的測試準確率,并且4組UCI數據集的最優核參數值跨度較大,表明了LFOA算法具備較強的全局搜索能力,驗證了利用LFOA算法進行RVM核參數尋優的有效性。為了便于比較各算法的尋優穩定性,計算出多次實驗的測試結果方差,如表7所示。
由表7可知,Ionosphere、Wine和Segment數據集進行多次測試,LFOA算法所得的方差小于其他幾種算法,Vehicle數據集中LFOA測試結果的方差雖略大于FOA,但明顯小于其他兩種算法,表明了LFOA-RVM測試結果的波動程度較小,驗證了該方法具有較高的尋優穩定性;LFOA結合了FOA算法局部尋優精度高與Levy飛行容易跳出局部最優值的優勢,提高了全局搜索能力,所以與FOA、GA和PSO 3種算法相比,LFOA算法搜索精度更高,性能更穩定。綜合以上分析可知,LFOA算法可較精確地搜索RVM的最優核參數,并能達到較高的測試準確率,較其他幾種算法而言,具備一定優勢。
4 結論
RVM核函數參數的選取對其分類性能有著顯著的影響。針對這一問題,本文采用LFOA算法對RVM核參數進行尋優,通過幾個典型的UCI數據集進行測試,得出該算法可較精確地搜索到RVM的最優核參數,具備較強的局部尋優精度和全局搜索能力,有效地提高了RVM分類模型的性能。相比于傳統的果蠅算法、遺傳算法和粒子群算法具有更高的尋優精度和穩定性,為選取最優RVM核函數參數提供了一種新方法、新途徑。
參考文獻
[1] TIPPING M E.Sparse Bayesian learning and the relevance vector machine[J].Journal of Machine Learning Research,2001,1(3):211-244.
[2] 范庚,馬登武,張繼軍,等.基于決策樹和相關向量機的智能故障診斷方法[J].計算機工程與應用,2013,49(14):267-270.
[3] 張旭峰,楊豐瑞,鄭建宏.基于RVM的可重用性SoC測試平臺設計[J].電子技術應用,2006,32(5):82-84.
[4] 陳景柱.布谷鳥優化混合核相關向量機的網絡流量預測[J].計算機與現代化,2015(5):94-97.
[5] PAN W T.A new fruit fly optimization algorithm:Taking the financial distress model as an example[J].Knowledge-Based Systems,2012,26(Complete):69-74.
[6] 劉翠玲,張路路,王進旗,等.基于FOA-GRNN油井計量原油含水率的預測[J].計算機仿真,2012,29(11):243-246.
[7] 張前圖,房立清,趙玉龍.具有Levy飛行特征的雙子群果蠅優化算法[J].計算機應用,2015,35(5):1348-1352.
[8] 任學平,龐震,辛向志,等.基于小波包最優熵與RVM的滾動軸承故障診斷方法[J].軸承,2014(11):48-53.
[9] 周勇,何創新.基于獨立特征選擇與相關向量機的變載荷軸承故障診斷[J].振動與沖擊,2012,31(3):157-161.
[10] 姚全珠,蔡婕.基于PSO的LS-SVM特征選擇與參數優化算法[J].計算機工程與應用,2010,46(1):134-136.
[11] 姚暢,陳后金,YANG Y Y,等.基于自適應核學習相關向量機的乳腺X線圖像微鈣化點簇處理方法研究[J].物理學報,2013,62(8):1-11.
[12] TIPPING M E.An efficient MATLAB implementation of the sparse Bayesian modelling algorithm[CP/OL].(2009-03-12)[2016-05-10].http://www.Relevancevector.com.
作者信息:
呂 巖,房立清,趙玉龍,張前圖
(軍械工程學院 火炮工程系,河北 石家莊050003)