《電子技術應用》
您所在的位置:首頁 > 測試測量 > 設計應用 > 樣本不平衡的睡眠數據分期研究
樣本不平衡的睡眠數據分期研究
2016年微型機與應用第18期
李玉平, 夏斌
上海海事大學 信息工程學院,上海 201306
摘要: 睡眠數據中各個階段的樣本數差異較大,睡眠數據的自動分期是一個典型的樣本不平衡的機器學習問題。均衡樣本方法通過抽樣的手段來平衡樣本,是解決樣本不平衡問題的主要方法。采用均衡樣本方法來平衡睡眠數據的不同階段的樣本,并且結合多域特征(時域、頻域、時頻域以及非線性)和隨機森林分類算法進行分類預測。比較分析了樣本均衡處理和非均衡處理的分類結果,發現均衡處理后的數據取得了更好的分類效果。
Abstract:
Key words :

  李玉平, 夏斌

  (上海海事大學 信息工程學院,上海 201306)

       摘要:睡眠數據中各個階段的樣本數差異較大,睡眠數據的自動分期是一個典型的樣本不平衡的機器學習問題。均衡樣本方法通過抽樣的手段來平衡樣本,是解決樣本不平衡問題的主要方法。采用均衡樣本方法來平衡睡眠數據的不同階段的樣本,并且結合多域特征(時域、頻域、時頻域以及非線性)和隨機森林分類算法進行分類預測。比較分析了樣本均衡處理和非均衡處理的分類結果,發現均衡處理后的數據取得了更好的分類效果。

  關鍵詞:睡眠分期;數據不平衡;隨機森林

0引言

  睡眠是生命過程中必不可少且十分重要的生理現象。依據國際R&K標準[1],睡眠期可分為快速眼動期、非快速眼動期(S1,S2,S3,S4)以及清醒期,區別分期主要以眼球是否進行了陣發性快速運動為標準。根據上述睡眠分期標準,睡眠數據可分為6類,且不同類別的數據量之間具有較大的差異性,即睡眠數據分期存在樣本不平衡的問題。在應用機器學習研究睡眠分期過程中,樣本不平衡會導致睡眠分期結果不準確,睡眠分期的可信度降低。在以前的睡眠分期研究中,研究的主要是睡眠數據特征的提取以及分類算法的選?。?4],并沒有研究睡眠分期樣本不平衡問題。本文采用EEG、EOG、EMG 3種信號5個通道的睡眠數據,研究中發現,EOG信號會出現在EEG信號的一些睡眠分期(如清醒狀態和快速眼動狀態)中,這種數據會對睡眠分期產生不好的影響[5]。本文通過對睡眠分期樣本不平衡的研究以及信號混雜的處理,進一步提高睡眠分期的準確度,同時對相關睡眠疾病的診斷和治療提供重要的參考意義。

  基于以上睡眠數據分期的討論,本文采用均衡采樣的方法解決睡眠分期樣本不平衡問題,同時研究睡眠數據的特征提取以減少信號混雜對睡眠分期的影響。

1方法

  1.1特征提取

  睡眠數據的特征主要劃分為時域特征、頻域特征、時頻域特征以及非線性特征。本文中,提取EEG、EOG和EMG每種信號各38種特征。

  特征參數如下:第1~6種是6個時域特征[68]:均值(Mean)、方差(Variance)、峰度(Kurtosis)、偏度(Skewness)、過零率(Number of zero crossing,NZC)、最大值(MaxV);第7~19種是頻域特征[810]:對4個子節律波分別提取各自范圍的功率譜能量(SP_),計算0.01~30 Hz頻帶的總功率譜能量(SP_D),以及總功率譜能量的規范化能量比(NSP_),即theta/beta、beta/alpha、(theta+alpha)/beta, (theta+alpha)/(beta+alpha);第20~35種是時頻域特征[810]:4個子節律波在當前頻帶范圍上小波系數的均值、能量、標準差以及相對于總頻帶范圍的絕對平均值;第36~38種特征分別是Petrosian分形指數、Hurst指數、排列熵[1112]。

  1.2均衡采樣

  睡眠數據存在樣本不平衡的問題,在6類的數據中,最多一類的數據集與最少的一類數據集的比例達到10倍以上,存在嚴重不平衡現象。本文應用均衡采樣的方法處理樣本失衡的問題[13]:(1)分別計算6類睡眠分期數據的個數n1、n2、n3、n4、n5、n6;(2)去掉個數最少和個數最多的個數值,剩余為n1、n2、n3、n4,計算這4類個數的平均值n;(3)對6類數據按個數平均值n采樣,不足平均個數的類別重復采樣,超過平均個數的類別欠采樣;(4)整合6類數據采樣得到的新數據集即為均衡處理后的數據[4,14]。

  1.3隨機森林分類器

  隨機森林模型是決策樹集成的算法,并且由一隨機向量決定決策樹的構造。通過訓練集得到隨機森林模型后,當有一個新的輸入樣本進入時,就讓隨機森林的每一棵決策樹分別進行判斷,判斷樣本所屬類別,然后計算哪一個類別被選擇最多,就預測該樣本所屬的類別。隨機森林算法特征參數較多,測試結果不會出現過擬合的情形;能夠處理高維度特征的睡眠數據,不用做特征選擇,對數據集的適應能力強;訓練速度快,能夠檢測不同特征之間的影響[13,15]。

  隨機森林實現過程為:(1)原始訓練集為N,采用集成算法有放回地隨機選取k個樣本集構建k棵分類樹,每次沒有被抽到的樣本組成k個袋外數據;(2)設定mall變量,在每棵樹的每個節點處隨機抽取mtry個變量(mtry,n,mall),然后在mtry中選擇一個最佳的分類變量,變量分類的閾值通過檢查每一個分類點確定;(3)每一棵樹最大限度地生長,不做任何修剪;(4)將構造的多棵分類樹組成隨機森林,用隨機森林分類器對新的數據進行判別與分類,分類的結果按樹分類器投票數確定。

2實驗與結果

  2.1數據

  本文采用9名受試者的睡眠數據來驗證分類方法和數據不平衡處理的可行性。數據集記錄了這9名志愿者一晚上的睡眠數據,以1~9命名這些數據集。數據包含15個通道的睡眠時的信號數據以及呼吸頻率和身體溫度。對應的EEG、EOG、EMG信號按100 Hz進行采樣。數據集處理部分,分別進行了7/3分和留一方法,采用這兩種方法驗證睡眠分期樣本不平衡的處理效果。

  2.2數據預處理

  首先采用巴特沃夫濾波器提取原始睡眠數據中0.01~35 Hz的數據,并應用高斯歸一化方法對數據進行歸一化處理。由于采樣的睡眠數據可能存在標簽不正確的問題,因此會剔除不正確的標簽數據。具體方法是,首先找出空標簽或標簽異常(不在已有類別中的標簽),根據標簽對應的位置,剔除這些標簽對應的數據集,最后更新數據集。采用以上方法進行數據預處理之后,得到7 461條數據。

  2.3均衡采樣數據

  經預處理和特征提取之后,對9個受試者的數據進行整合,數據總量為59 680。采用7/3分數據集,即70%數據做訓練集,30%數據做測試集,訓練集數據量為41 773,測試集數據量為17 907。為了驗證均衡采樣的可行性,對訓練集做均衡處理,得到22 465條新的訓練集。

  2.4結果

  本文第一種驗證方法是7/3數據集,結果如下:表1是所有數據集7/3分,對訓練集進行均衡處理的分類結果準確率;表2是均衡采樣數據集和普通數據集分類結果對比;表3是不同信號組合,均衡采樣分類結果對比。

圖像 002.png

圖像 003.png

圖像 004.png

圖像 001.png

第二種驗證方法是對9個受試者的數據集進行留一驗證。分別提取其中8個受試者的數據集作為訓練集做均衡處理,剩下1個受試者的數據集作為測試集。分類結果如圖1所示。

  由表1得知,同時考慮EEG、EOG、EMG 3種信號5個通道的數據集,得到的分類準確率達到84.33%,wake類別的分類準確率最高,模型對wake類別的泛化能力最好,而S1類別數據量最少,同時分類效果也最差。由表2得知:均衡處理之后,wake、S1、S3、rem這4類睡眠分期結果得到了提升,S4基本一致,S2的結果降低了。由表3知:提取一種信號EEG時,睡眠分期準確率比同時提取多種信號時的準確率低。由圖1留一驗證知,2、5、9號受試者睡眠分期的結果達到了80%以上,分類效果較好;3、6號受試者睡眠分期準確率較低。

3結論

  本研究采用了EEG、EOG、EMG 3種信號5個通道數據集,并且應用均衡采樣的方法處理訓練集數據不平衡問題,睡眠分期結果較好,平均分類準確率得到了提升,并且有4個睡眠分期的分類結果都得到了提升。在今后對睡眠分期樣本不平衡的研究中,可以采用加權隨機森林或其他的方法處理睡眠數據集不平衡的問題。

  參考文獻

 ?。?] RECHTSCHAFFEN A Q, KALES A A. A manual of standardized terminology, techniques, and scoring system for sleep stages of human subjects[J]. Psychiatry & Clinical Neurosciences, 1968,55.

 ?。?] 李谷,范影樂,龐全.基于排列組合熵的腦電信號睡眠分期研究[J].生物醫學工程學志,2009,26(4):869-872.

 ?。?] Liu Derong,Pang Zhongyu,LLOYD S R.A neural network method for detection of obstructive sleep apnea and narcolepsy based on pupil size and EEG[J].IEEE Transactions on Neural Networks,2008,19(2):308-318.

 ?。?] ANAND A, PUGALENTHI G, FOGEL G B, et al. An approach for classification of highly imbalanced data using weighting and undersampling[J]. Amino Acids, 2010,39(5):1385-1391.

 ?。?] BREIMAN L, FRIEDMAN J, OLSHEN R, et al. Classification and regression trees[M]. New York: Chapman & Hall,1984.

 ?。?] SMITH J R. Automated EEG analysis with microcomputers[J]. Medical Instrumentation, 1980,14(6):319-321.

 ?。?] VURAL C, YILDIZ M. Determination of sleep stage separation ability of features extracted from EEG signals using principal component analysis[J]. Journal of Medical Systems,2010,34(1):83-89.

 ?。?] QQ圖片20161023220227.pngA comparative study on classification of sleep stage based on EEG signals using feature selection and classification algorithms[J]. Journal of Medical Systems,2014,38(3):1-21.

 ?。?] HAMIDA T B, AHMED B. Computer based sleep staging: challenges for the future[C]. 2013 IEEE GCC Conference and Exhibition, 2013:280-285.

 ?。?0] AKIN M. Comparison of wavelet transform and FFT methods in the analysis of EEG signals[J]. Journal of Medical Systems,2002,26(3):241-247.

  [11] FELL J, RSCHKE J, MANN K, et al. Discrimination of sleep stages: a comparison between spectral and nonlinear EEG measures[J]. Electroencephalography and Clinical Neurophysiology, 1996,98(5):401-410.

 ?。?2] PEREDA E, GAMUNDI A, RIAL R, et al. Nonlinear behavioor of human EEG: fractal exponent versus correlation dimension in awake and sleep stages[J]. Neuroscience Letters, 1998,250(2):91-94.

 ?。?3] 毛文濤,王金婉,等.面向貫序不均衡數據的混合采樣極限學習機[J].計算機應用,2015, 35(8):2221-2226.

 ?。?4] He Haibo,GARCIA E A. Learning from imbalanced data[J],IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263-1284.

 ?。?5] BREIMAN L. Random forests[J]. Machine Learning,2001, 45(1):5=32.


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 免费看国产精品久久久久 | bl高h各种play浪荡受np | 精品中文字幕一区在线 | 亚洲免费在线视频播放 | 羞羞视频污 | 91av久久| 欧美大片va欧美在线播放 | 新久草 | 一个人看的www免费视频 | 人人爽人人看 | 亚洲精品xxxx| 成人免费黄色网 | 亚洲精品一二区 | 狠狠干综合网 | 日韩国产另类 | 在线欧美日韩 | 黄色大全免费看 | 91短视频在线免费观看 | 天天插天天狠 | 日韩欧美一区二区三区在线 | 黄网站色视频免费观看w | 亚洲一区二区三区中文字幕 | 樱花aⅴ一区二区三区四区 影音先锋色69成人资源 | 小明看片成人永久在线观看 | 成人短视频免费 | 黄色三级一级片 | 中文字幕亚洲综合久久菠萝蜜 | 免费看片亚洲 | 日韩ab| 夜色爽爽 | 欧美在线视频一区二区三区 | 波多野结衣在线观看3人 | 国产一级黄色网 | 亚洲黄色片免费看 | 亚洲综合在线另类色区奇米 | 中国特级黄色片 | 91成年人视频 | 99久久亚洲 | 国产午夜大片 | 日韩福利影视 | 免费aⅴ视频|