摘 要: 建立了一種基于支持向量機的地表水環境質量分類模型,并將其用于浙江省主要市界交界面的地表水環境質量分類。該模型采用徑向基核函數,以一對多方式實現多分類。分別以網格搜索、粒子群優化和遺傳算法三種優化方法對支持向量機的控制參數進行尋優。實驗表明,采用網格搜索法確定支持向量機控制參數可以得到最好的水質分類結果,分類準確率可達到82%,由此證明以支持向量機對水質進行分類是可行的。
關鍵詞: 支持向量機;水質分類;分類模型;網格搜索;主成分分析
0 引言
地表水環境質量分類是進行水環境治理保護的一項重要內容,建立地表水環境質量分類模型是對地表水環境質量進行正確分類的一項基礎工作。近年來,常見的水環境質量分類方法有綜合指數法[1]、灰色聚類法[2]、人工神經網絡[3]等,但前兩類方法中的模型屬于傳統模型,并沒有很好地解決水環境質量分類中的評價因子和水質等級之間存在的非線性關系[4]。
支持向量機(Support Vector Machine, SVM)[5]作為近年發展起來的一種機器學習方法,是一種建立在統計學習理論和結構風險最小化原則基礎上的監督式學習方法[6],能很好地解決小樣本、非線性、高維數和局部極小點等問題,已成為機器學習界的研究熱點之一[7]。目前,SVM已廣泛應用于統計分類、回歸分析和時間序列預測等實際問題。SVM作為分類模型,無論是訓練速度還是分類準確率均明顯優于神經網絡[8]。因此,本文嘗試將SVM分類模型用于地表水環境質量分類。
1 支持向量機分類
SVM的研究最初是針對模式識別中的二類線性可分問題,對于二類線性不可分問題則通過非線性映射,將數據由低維空間映射到高維特征空間,使其在高維空間線性可分,進而得到最優分類超平面,實現問題的求解。
設輸入空間Rn中的訓練集為:
通過非線性映射到高維Hilbert空間H,得到新的訓練集:
若在高維特征空間建立一最優超平面:
其中,是最優超平面的法向量,b是最優超平面的偏移量。對于部分不能被最優超平面直接分開的數據,通過引入松弛變量ξi使約束條件弱化,同時由懲罰因子C控制對錯分樣本的懲罰程度。則二類線性不可分的原始問題可以轉化為:
再引入拉格朗日乘數αi≥0,βi≥0,得:
根據Wolfe對偶定義,對L關于、b、ξ求極小,可得:
然后將上述極值條件代入拉格朗日函數,對α求極大,獲得其對偶問題:
同時得到分類函數:
其中,為核函數。最優超平面僅依賴于相應αi不為零的訓練點(xi,yi)所對應的輸入xi,稱其為支持向量(Support Vector, SV)。選擇不同的核函數,可以生成不同的SVM,本文選用徑向基核函數:
,γ為核函數寬度。
2 支持向量機地表水環境質量分類模型
用SVM對地表水環境質量進行分類有兩個問題需要考慮:首先水質分類問題屬于多分類問題,要采用多分類的SVM;其次從SVM分類算法可以看出,懲罰因子C及徑向基核函數寬度γ是SVM的兩個控制參數,訓練時需對它們進行調整,即存在控制參數尋優問題。
2.1 多分類方法
SVM多分類的方法有多種[9],常用的有一對一(One Against One)和一對多(One Against All)兩種方法[10],由于一對一分類器訓練速度比較慢,故本文采用一對多方法。
2.2 控制參數尋優
交叉驗證(Cross Validation, CV)是一種用來驗證分類器性能的統計分析方法,常用的CV方法有幾種,本文采用k-fold Cross Validation(k-CV),其基本思想是將原始樣本分成k組,每個子集樣本分別做一次驗證集,同時剩下的k-1組子集樣本作為訓練集,得到k個模型,取這k個模型驗證集的分類準確率的平均值作為此分類器的性能指標。
采用徑向基核函數時需要調節懲罰因子C和核函數寬度γ兩個SVM控制參數,本文使用3種控制參數尋優方法,分別是網格搜索法(Grid Search)、粒子群優化算法(Particle Swarm Optimization, PSO)和遺傳算法(Genetic Algorithm, GA)。
網格搜索法分兩步進行,其基本原理是先在大范圍內粗略尋找較佳參數,采用k-CV方法對訓練集進行測試,并得到使分類準確率較高的控制參數。再在上述控制參數附近的小范圍內精確搜索,再次進行尋優,找到最優參數。PSO是一種基于群體智能的演化計算方法,它是通過粒子在解空間追隨最優的粒子進行搜索的。本文中利用PSO對SVM參數優化時以對訓練集進行CV得到的準確率作為適應度函數,最大進化次數設置為200,種群最大數量設置為20。GA是通過模擬“優勝劣汰,適者生存”的自然界演化法則而生成的一種并行隨機搜索最優化方法。本文中GA以對訓練集進行CV得到的準確率為適應度函數,最大進化代數設置為500,種群最大數量設置為20。
3 實驗
3.1 實驗數據集
實驗數據來源于浙江省環境保護廳網站(http://www.zjepb.gov.cn)發布的浙江省主要市界交界面水質自動監測月報(2009年1月~2012年1月)。其中主要檢測項目為PH值、溶解氧(DO)、高錳酸鹽指數(CODMn)、氨氮(NH3-N)這4個參數。根據《地表水環境質量標準》(GB 3838-2002),水質分類有Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ類,如表1所示。
3.2 監測數據分析
主成分分析(Principal Component Analysis, PCA)是一種分析、簡化數據集的技術。PCA可以在盡可能減少信息損失的情況下,將高維數據降至低維,在二維或三維空間以圖形方式直觀顯示數據的分布情況[11],因此本文采用PCA觀測地表水環境監測數據的復雜程度。在本實驗中,監測數據總共有360個樣本,除Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ類之外,對于低于Ⅴ類的水質,本文稱之為劣Ⅴ類,這樣一共有6類,即本文需解決的地表水環境質量分類問題是6分類問題。對其監測數據進行PCA分析后得到前4個主成分分量的貢獻率如圖1所示,相應前2個及前3個主成分分量數據分布分別如圖2與圖3所示。
由圖1可知,PCA分析結果中前4個主成分的貢獻率分別為52.067 6%、22.555 4%、14.899 6%和10.477 4%,這說明PCA分析后的每個主成分分量都比較重要,若降維則會對水質分類結果有較大的影響,因此本文對訓練與測試SVM分類模型的數據不進行降維處理。從圖2及圖3可以看出,待分類處理的檢測數據分布是比較復雜的,例如圖2的Ⅲ類與Ⅳ類、Ⅴ類與劣Ⅴ類以及圖3中的Ⅰ類、Ⅱ類和Ⅳ類之間都存在比較嚴重混疊,用常規方法難以準確分類。因此,本文通過建立SVM分類模型,實現地表水環境質量的分類。在360個樣本中取其中的182個樣本數據作為SVM的訓練集,剩余的178個樣本數據作為SVM的測試集。
3.3 實驗結果與分析
使用網格搜索法、PSO參數尋優法和GA參數尋優法3種方法得到的訓練集交叉驗證(CV)分類準確率、測試集分類準確率及整個程序運行所需要的時間如表2所示(每種控制參數尋優方法均運行3次)。
從表2可以看出,網格搜索法的測試集分類準確率可以達到82.022 5%,PSO參數尋優法雖然也可以達到82.022 5%,但是沒有網格搜索法穩定,且整個程序運行所需要的時間是網格搜索法的3倍多。GA參數尋優法的測試集分類準確率則普遍沒有PSO參數尋優法高,且整個程序運行所需要的時間也比PSO參數尋優法長。通過比較這3種控制參數尋優方法可知,用網格搜索法對SVM中的參數進行尋優是可行的,且得到的水質分類結果最好。
4 結論
本文通過建立SVM多分類模型實現地表水環境質量分類,并在建模過程中以網格搜索法、PSO參數尋優法和GA參數尋優法分別對SVM的控制參數進行了尋優。從實驗結果可知,采用網格搜索法進行SVM參數尋優,可以得到較高的測試集分類精度,表明采用SVM多分類模型進行地表水環境質量分類是可行的。
參考文獻
[1] 王文強. 綜合指數法在地下水質評價中的應用[J]. 水利科技與經濟,2008, 14(1): 54-55.
[2] 鄧聚龍. 灰色理論系統[M]. 武漢:華中科技大學出版社, 2002.
[3] FARMAKI E G, THOMAIDIS N S, EFSTATHIOU C E. Artificial neural networks in water analysis: theory and application [J]. International Journal of Environmental Analytical Chemistry, 2010, 90(2): 85-105.
[4] 鄭一華. 基于支持向量機的水質評價和預測研究[D]. 南京:河海大學,2006.
[5] CORTES C, VAPNIK V. Support-vector networks [J]. Machine Learning, 1995, 20(3): 273-297.
[6] 張學工. 關于統計學習理論與支持向量機[J]. 自動化學報,2000, 26(1): 32-42.
[7] 鄧乃揚,田英杰. 數學挖掘中的新方法:支持向量機[M]. 北京:科學出版社,2004.
[8] Cao Jian, Hu Hongsheng, Qian Suxiang, et al. Research on the water quality forecast method based on SVM [C]. SPIE, 2009,7500.
[9] 聶盼盼, 臧洌, 劉雷雷. 基于對支持向量機的多分類算法在入侵檢測中的應用[J]. 計算機應用, 2013, 33(2): 426-429.
[10] JOUTSIJOKI H, JUHOLA M. Comparing the one-vs-one and one-vs-all methods in benthic macroinvertebrate image classification [C]. Proceeding in 7th International Conference, MLDM 2011, NewYork, USA, 2011:399-413.
[11] PARDO M, SBERYEGLIERI G. Coffee analysis with an electronic nose [J]. IEEE Transactions on Instrumentation and Measurement, 2002, 51(6): 1334-1339.