文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2016.11.018
中文引用格式: 司明,李志華,劉定星. 數據壓縮在次聲監測中的應用[J].電子技術應用,2016,42(11):70-73.
英文引用格式: Si Ming,Li Zhihua,Liu Dingxing. The application of data compression in infrasound monitoring[J].Application of Electronic Technique,2016,42(11):70-73.
0 引言
次聲波信號簡稱次聲信號,頻率范圍為10-4~20 Hz,具有頻率低、波長大、傳播距離遠、衰減小、穿透能力強等特點[1]。通過檢測和分析次聲信號對聲波源進行定位,研究次聲波的產生和傳播規律來揭示次聲波信號與對應事件的關聯性,達到監測和預報事件的目的[2]。實踐證明,次聲監測對自然災害、工業生產、交通運輸、人民的生命和財產安全等有著極其重要的意義。
隨著科技的不斷發展,次聲監測的應用越來越廣泛,次聲監測中數據量也急劇增加,人們面對傳輸、存儲及處理這些海量信息的壓力越來越大,所以進行數據壓縮成了一種迫切的需求,也是一種行之有效的方法[3]。次聲數據監測儀器采集的數據存在大量冗余、密切相關等特點,為數據壓縮提供了可能。對這些次聲監測儀器采集的數據進行壓縮,也可以充分應用傳輸和記錄信道,提高次聲監測的效率[4]。
次聲數據壓縮與其他常見的數據壓縮有很多相似之處。早期人們使用變長碼編碼、香農-范諾編碼以及去相關性的馬爾可夫模型等來壓縮聲波數據;后來隨正交變換的出現,將原始數據轉換為一組相關性很小的系數,再對變換后的系數進行各種二次量化和編碼處理實現數據壓縮[5-6]。目前的研究結果表明,選擇合適的壓縮方法和參數,壓縮數據產生的誤差比數據處理流程中引入的誤差還要小,而且壓縮比相比于無損壓縮要大很多[7]。這表明有損數據壓縮是可以用于數據處理和解釋階段的。
1 數據壓縮方法和原理
數據壓縮歸納起來可分為兩大類型:第一類為壓縮-存儲-回放系統,通常又稱數字錄放系統;第二類為壓縮-傳輸-解壓系統,通常又稱數字通信系統[8]。兩種物理過程均可用圖1所示的數據壓縮系統模型來概括。
1.1 改進型離散余弦變換
改進型離散余弦變換(Modified Discrete Cosine Transform,MDCT)是將信號從一個域變換到一個域中,在該域中更容易完成壓縮。DCT屬于正交變換,正交變換實現數據壓縮的本質是經過多維坐標中適當的旋轉和變換,把散布在各個坐標軸上的原始數據集中到新的、適當的坐標系中的少數坐標軸上。DCT具有熵保持、解相關、能量重新分配和集中的特性。與其他5種正交變換(KLT、SLT、DFT、WHT和Haar)相比,DCT具有很好的性能,算法也相對簡便,實現成本低,所以被廣泛應用在信號處理中[9-10]。
次聲監測數據的壓縮過程使用了一維離散余弦變換(1D-DCT)。1D-DCT的正交變換矩陣為:
因數據量大需分段作DCT,而相鄰段變換后數據邊界處存在不連續的“跳邊效應”,所以采用改進型離散余弦變換(MDCT)。即用長度為2M的矩形窗函數h(m)截取原始數據的2M個樣點,將截取的h(m)x(m)變換為:
改進型離散余弦反變換(IMDCT)為:
MDCT也稱余弦調制濾波器組,采用重疊轉換M個樣點的方法消除“跳邊效應”。該變換也有快速算法,不會因重復轉換樣點給整個數據壓縮系統附加運算量,而且性能好于DCT,可廣泛應用在聲頻壓縮中[11]。
1.2 壓擴量化
均勻量化的優點是簡便,缺點是量化噪聲較大,用于量化MDCT的系數會影響數據壓縮質量,所以選擇改善信噪比的非線性壓縮與擴張量化(簡稱壓擴量化)。壓擴量化是非均勻量化方法,即用一個非線性對數函數y=F(x)將信號“壓縮”后再作最佳量化,恢復時用反變換x=F-1(y)對量化值進行“擴展”得到重建數據。
壓擴量化在小信號域量化區間小,大信號域量化區間大。因為低電平信號出現概率大、量化噪聲小,高電平量化噪聲大、但出現概率小,所以可以提高數據量化后的信噪比[12]。目前國內外常用?滋律和A律兩種對數壓擴量化器(歸一化)。
μ律曲線公式:
其中,A為壓擴參數,通常取A=87.6,可以通過13或18折線逼近來實現。
μ律和A律的特性基本相同,只在小信號區μ律量化器的信噪比略高于A律量化器,但在大信號區則不如A律量化器。
1.3 Huffman編碼/譯碼
Huffman編碼相比于其他3種統計編碼(香農-范諾編碼、游程編碼、算數編碼)的算法簡單,編碼效率高,Huffman譯碼是編碼的逆過程。編碼的方法步驟如下:
(1)將信源符號的概率按照由大到小的順序建立列表。
(2)取2個最小的概率進行組合相加,然后將組合后的概率之和作為新的符號概率,重復步驟(1)和(2),直到概率總和達到1為止。
(3)將每個組合中的上邊一個指定為0,下邊一個指定為1。
(4)構造由概率1處到每個信源符號概率的編碼樹,順次記下編碼樹分支上的0和1,即為Huffman碼字。
為了提高編碼速度,采用自適應Huffman編碼,即從一顆空的Huffman編碼樹開始,隨著輸入符號的讀入和編碼、譯碼,不斷修改碼樹[13]。
2 數據壓縮和解壓設計
由于數據壓縮參數、應用環境、使用技術、應用目的等不同,數據壓縮系統的設計也是多種多樣的。
結合次聲信號的特點,以及監測數據體信息冗余和互相關的特征,采用MDCT將次聲監測數據體從時域轉換到另一域中。選用小信號域量化噪聲低的μ律量化器,對作MDCT后的系數進行二次“壓縮”及基于Max-Lloyd算法(簡稱M-L算法)的最佳量化。由于數據能量集中到了MDCT系數的前段部分,所以對MDCT系數進行量化時,保留百分之一數據長度的前段變換系數,只對剩余的變換系數進行量化,這樣做可以有效降低量化噪聲,也不影響數據壓縮程度。最后通過自適應Huffman編碼,實現對次聲監測數據的壓縮。解壓過程除去MDCT系數量化部分外,其他過程為上述逆過程。
設計選用MATLAB數據處理軟件實現對數據的轉換、量化、壓縮和解壓處理。整個設計框圖如圖2所示。
3 數據壓縮測試
3.1 壓縮系統評價指標
壓縮比(Compression Ratio,CR)是衡量數據壓縮系統性能好壞的一個重要指標。其定義為:
CR又稱bpc(bit per character),表示壓縮一個字符平均所需的比特數。以下測試是對次聲監測數據文本文件的壓縮。
離散時間域重建數據的保真度常用信噪比SNR來度量,其計算公式為:
3.2 次聲監測數據壓縮測試
取已有次聲監測數據,使用該數據壓縮系統對其進行壓縮處理。表1為對3個文件中的次聲監測數據壓縮測試的結果。
從表1可以看出,該數據壓縮設計對原始數據文件進行壓縮后,信噪比都大于90 dB,并且文件2和文件3壓縮后數據量大幅減少,這樣可以很大程度地減輕后續數據存儲、傳輸和處理的壓力。
圖3~圖5是對這3個文件的原始波形、重建波形及其兩者誤差波形進行測試的結果。
從表1和圖3(c)可以看出,CR=2.52時信噪比高達113.7 dB,實現了對原始波形的高保真重建。隨著壓縮比的增大,原始波形與重建波形的誤差增大,信噪比降低。從圖5(b)看到,CR=9.56時,重建數據已經開始濾掉原始數據中的高頻微弱信號,MDCT開始主要體現出濾波器組的作用,在有用信號電平很低時,選擇過高的壓縮比會造成有用信號的掉失,所以對壓縮比的選取應當小于10。圖6~圖8是對3個文件的原始數據和重建數據進行頻譜測試的結果。
從圖6和圖7可以看出原始數據和重建數據的頻譜相關性比較好,100 Hz以內的波形基本無衰減。從圖8看到重建數據的頻譜從20 Hz開始衰減,到100 Hz時重建數據的頻率已經基本衰減為零,但原始數據中還存在20 Hz~100 Hz的信號,很明顯地看出該壓縮系統在較大壓縮比情況下,衰減甚至濾掉了信號帶寬以外的較高頻信號。
4 小結
改進型離散余弦變換、非線性壓擴量化和霍夫曼編碼相結合的數據壓縮技術,相比于其他聲波壓縮技術更適用于低頻的次聲波數據壓縮。該技術在CR≤10時,不僅實現了對次聲監測數據的低失真壓縮處理,而且濾掉了信號中的高頻干擾,保存了次聲波帶寬內的有用信號。
參考文獻
[1] 李彥,歐陽紅群,劉小偉.次聲波簡易監測方法及分析[J].物理實驗,2010,30(10):40-43.
[2] 楊慶生,張少偉,夏雅琴.不同地域前次聲波異常信號的分析[J].北京工業大學學報,2016,42(2):167-168.
[3] 吳家安.數據壓縮技術及應用[M].北京:科學出版社,2009.
[4] Khalid Sayood.Introduction to data compression[M].Harbin:Harbin Industrial University Press,2014.
[5] 張俊蘭,周峰.數據壓縮的發展歷程[J].延安大學學報(自然科學版),2008,27(3):24-27.
[6] 杜美華,孫建英.正交變換的幾何意義及其應用[J].哈爾濱師范大學自然科學學報,2014,30(3):36-39.
[7] 胡麗麗,李杰.數據采集存儲系統無損壓縮算法的設計與實現[J].計算機測量與控制,2010,18(12):2833-2835.
[8] 吳樂南.數據壓縮(第三版)[M].北京:電子工業出版社,2012.
[9] Shaban Al-Ani Muzhir,Abd Rajab Maha.Biometrics hand geometry using Discrete Cosine Transform(DCT)[J].Science and Technology,2013,3(4):34-37.
[10] 張婧,徐國根.基于DCT的遙感圖像壓縮算法應用[J].航空電子技術,2015,46(1):25-28.
[11] 閆保中,劉泥石.一種有效的MDCT/IMDCT快速算法[J].應用科技,2011,38(3):12-15.
[12] 賈瑞蓮,肖沙里,郭成.A律語音壓縮編解碼器的FPGA實現[J].重慶工商大學學報,2016,33(1):59-64.
[13] 劉政.一種自適應Huffman算法在無線傳感器網絡數據壓縮的應用[J].重慶理工大學學報,2013,27(2):84-89.