摘 要: 將灰關聯分析方法應用于語音/音樂信號的分類和識別,并給出了對音頻信號" title="音頻信號">音頻信號進行灰關聯分析的方法和步驟。利用語音和音樂信號的短時能量均方根的概率統計特征建立目標的參考數據和比較數據,進行語音和音樂信號的灰關聯分析,確定目標識別與分類的判據,并對兩類信號進行識別。仿真結果表明灰關聯分析方法應用于音頻信號分類和識別具有一定的可行性。
關鍵詞: 灰關聯分析 特征 語音和音樂識別 仿真
語音和音樂是兩類最重要的音頻數據,語音和音樂的自動分類" title="自動分類">自動分類在基于內容的音頻檢索、視頻的摘要以及語音識別等眾多領域都有重要的應用價值。
目前,國內外語音信號" title="語音信號">語音信號識別多采用基于感覺特征(例如響度、音調、諧度等)和過零率、功率譜、MFCC系數等多種語音/音樂分類特征的模式識別技術實現信號的自動識別[1~5]。然而當識別對象的參數不完整、不齊全時,這些方法有的不能給出正確可靠的結果,有的無法進行識別,有的識別的可靠性較差。由于語音信號環境的復雜和多變性,語音和音樂信號參數有時很難完全得到,上述方法在實際應用中存在一定的局限性。
因此,如何有效利用現有的少量音頻數據,準確地進行音頻信號自動分類識別,尤其是語音和音樂的分類,并作為提取音頻內容語義和結構的重要手段之一,其研究日益引起人們的重視。灰色系統理論特別是灰關聯分析方法的發展,為解決這一問題提供了可能。
1 語音/音樂信號的灰關聯分析方法
灰色系統理論屬系統論的范疇,灰色是指信息不完全。灰色系統理論主要研究系統模型不明確、行為信息不完全、運行機制不清楚這類系統的建模、預測、決策和控制等問題[9]。在進行序列關聯分析時,必須先確定參考數列,然后比較其它序列與參考序列的接近程度,進而做出判斷。灰關聯分析的主要步驟:(1)確定參考序列和比較序列;(2)求灰關聯系數;(3)求灰關聯度;(4)按灰關聯度大小排序。
2 參考序列和比較序列的確定
選取一段無停頓的語音信號和音樂信號作為待識別音頻信號,音頻信號的特征提取" title="特征提取">特征提取本質上起到了降維作用,用較少的維度表現了時域上的音頻信號。考慮到只有在5~20ms的時間間隔內才可以認為音頻信號的特征基本保持不變。因此本文選取短時能量均方根的概率統計方法提取語音和音樂信號的特征。
圖1(a)和圖2(a)分別為語音和音樂信號短時能量的均方根(RMS)的時域波形[4]。其采樣頻率均為11025Hz,矩形窗長度N取10ms,時間長度為30s。
式(1)中,x(n)為音頻信號,矩形窗序列沿音頻樣點序列逐幀移動,每段幀長度為N。
30s的RMS的概率分布即信號分布頻數直方圖如圖1(b)、圖2(b)所示。由圖可知兩分布有較明顯的差異,可以作為識別語音和音樂信號的特征依據。進一步研究發現其概率分布服從不同參數時的廣義χ2分布[4]。
選取上述30s的語音和音樂信號RMS概率分布作為參考序列,記為xj={xj(k)|k=1,2,…,K},其中x1為語音參考序列,x2為音樂參考序列。選取同一語音源音樂源的數據作為比較序列,記作yi={yi(k)|k=1,2,…,K},其中y1為語音比較數列,y2為音樂比較序列。K為特征數量,本文取K=10。為檢驗不同長度比較序列的灰關聯度,特征提取的比較序列時間長度分別取0.1s、1s、10s。圖3為與30s的語音和音樂參考信號RMS概率分布比較圖。由圖3可知,比較序列的時間長度越長,概率分布與參考序列的相似程度就越大,當比較序列時長為10s時,概率分布幾乎與參考序列吻合。
?
為保證音頻序列的可比性,在進行灰關聯分析時,需要對序列進行初值化生成處理,即對一個數列的所有數據均用其第一個數去除。這個新序列表明原始數列中不同時刻的值相對于第一個時刻值的倍數。
3 計算灰關聯系數
在語音/音樂識別中,由于目標的類型為兩個,有兩個參考序列,為區分不同的類型,就需要求一組比較序列與二組參考序列的灰關聯度。如果在局部環境下計算每一組比較序列分別與二組參考序列的灰關聯系數,則在不同局部條件下所得到的灰關聯度將失去可比性。因此,為實現對音頻類型的識別,在計算某一個比較序列與各個參考序列的灰關聯度時,必須是在相同最大" title="最大">最大值和最小值下計算,從而得到“全局環境”的灰關聯度系數。
計算全局環境下的灰關聯系數的算法如下:
其中,Nj={1,2},Ni={1,2},K={1,2,…,10},常數ξ稱為分辨系數,ξ∈[0,1],其作用是調整比較環境的大小。ξ????
4 計算灰關聯度
灰關聯分析的實質,就是對數列曲線進行幾何關系的比較。若兩數列曲線重合,則關聯性好,關聯系數為1,兩數列關聯度也等于1。同時兩數列曲線不可能垂直,即無關聯性,所以關聯系數大于0,故關聯度也大于0。由于在比較全過程中,關聯系數不止一個,因此,取關聯系數的平均值作為比較全過程的關聯程度rji的度量,即:
5 按灰關聯度大小排序
對參考序列xj和比較序列yi的關聯度從大到小進行排序,即得灰關聯序列。本文采用最大灰關聯度的識別原則。
通過500次蒙特卡羅實驗,表1給出時間長度0.1s、1s、10s比較序列,采用最大灰關聯度的識別結果。
圖4為進行100次蒙特卡羅仿真,三種時間長度的語音和音樂比較信號與各比較序列的最大灰關聯度。
從圖4中可以看出:
(1) 在時間長度為0.1s時,語音、音樂信號與其兩類模本的關聯度值相交。這是由于所表征序列的特征值并不完全的原因。
(2) 時間長度為1s時,語音比較信號與其參考信號的關聯度均大于0.85,音樂比較信號與語音參考信號的關聯度大于0.6小于0.95;而音樂比較信號與其參考信號的關聯度均大于0.73小于0.9,語音比較信號與音樂參考信號的關聯度大于0.7小于0.85。同為語音模本的條件下,97%以上的語音信號關聯值大于音樂信號的關聯值。而模本為音樂的條件下,92%以上的音樂信號關聯值大于語音信號的關聯值。由此,在不同參考信號下,通過設置閾值可以作為識別語音和音樂信號的依據。
(3) 時間長度為10s時,語音比較信號與同類模本的關聯值高于與音樂比較信號的關聯值20%~35%,高于語音參考信號與音樂模本的關聯值25%~30%;而音樂比較信號與同類模本的關聯值以90%的準確率大于語音比較信號的關聯值,并且高于音樂比較信號與語音模本的關聯值5%~20%。所以,當信號特征提取充分時,識別率可達100%。
事實上,音頻信號的灰關聯可以認為是近似相關,參考序列與比較序列的特征值相關程度越高,其關聯值就越大,反之則較小。
參考文獻
1 J. Saunders. Real-time discrimination of broadcast speech/music. Proc. IEEE ICASSP, 1996
2 E. Scheier, M. Slaney. Construction, evaluation of a robust multifeature speech/music discriminator.Proc.IEEE ICASSP, 1997
3 E. Wold, T. Blum, D. Keislar, J. Wheaton. Content-based classification, search, and retrieval of audio.IEEE Multimedia Mag. 1996;3:27~36
4 C. Panagiotakis, G. Tziritas. A Speech/Music Discriminator Based on RMS and Zero-Crossings. IEEE Transactions on Multimedia. 2005;(2):155~166
5 盧 堅,陳毅松. 語音/音樂自動分類中的特征分析.計算機輔助設計與圖形學學報, 2002;14(3):233~237
6 關 欣,何 友,衣曉基. 基于灰關聯分析的雷達輻射源識別方法研究. 系統仿真學報, 2004;16(11):2601~2607
7 謝松云,董大群,王本剛. 基于灰關聯分析的目標識別方法研究. 系統仿真學報, 2002;14(2):257~261
8 邱憲文,羅景青. 灰關聯分析與雷達信號識別. 雷達與對抗,1999;2:25~29
9 鄧聚龍.灰色控制系統.武漢:華中理工大學出版社,1997.10