《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 業(yè)界動態(tài) > 基于FPGA實現(xiàn)FIR濾波器的研究

基于FPGA實現(xiàn)FIR濾波器的研究

2008-09-11
作者:郭曉宇 潘 登 楊同中

??? 摘? 要: 針對在FPGA中實現(xiàn)FIR濾波器的關鍵——乘法運算的高效實現(xiàn)進行了研究,給出了將乘法化為查表" title="查表">查表的DA算法,并采用這一算法設計了FIR濾波器。通過FPGA仿真驗證,證明了這一方法是可行和高效的,其實現(xiàn)的濾波器的性能優(yōu)于用DSP和傳統(tǒng)方法實現(xiàn)的FIR濾波器。最后介紹了整數(shù)的CSD表示和還處于研究階段的根據(jù)FPGA實現(xiàn)的要求改進的最優(yōu)表示。?

??? 關鍵詞: FPGA? DA? FIR濾波器? CSD

?

??? 數(shù)字濾波器" title="數(shù)字濾波器">數(shù)字濾波器是語音與圖像處理、模式識別、雷達信號處理、頻譜分析等應用中的一種基本的處理部件,它能滿足濾波器對幅度和相位特性的嚴格要求,避免模擬濾波器所無法克服的電壓漂移?溫度漂移和噪聲等問題。有限沖激響應(FIR)濾波器能在設計任意幅頻特性的同時保證嚴格的線性相位特性。?

??? 目前FIR濾波器的實現(xiàn)方法有三種:利用單片通用數(shù)字濾波器集成電路?DSP器件和可編程邏輯器件實現(xiàn)。單片通用數(shù)字濾波器使用方便,但由于字長和階數(shù)的規(guī)格較少,不能完全滿足實際需要。使用DSP器件實現(xiàn)雖然簡單,但由于程序順序執(zhí)行,執(zhí)行速度必然不快。FPGA有著規(guī)整的內(nèi)部邏輯陣列和豐富的連線資源,特別適合于數(shù)字信號處理" title="數(shù)字信號處理">數(shù)字信號處理任務,相對于串行運算為主導的通用DSP 芯片來說,其并行性和可擴展性更好。但長期以來,FPGA一直被用于系統(tǒng)邏輯或時序控制上,很少有信號處理方面的應用,其原因主要是因為在FPGA中缺乏實現(xiàn)乘法運算的有效結(jié)構。現(xiàn)在這個問題得到了解決,使FPGA在數(shù)字信號處理方面有了長足的發(fā)展。?

1 分布式運算原理?

??? 分布式算法" title="分布式算法">分布式算法(DA)早在1973年就已經(jīng)被Croisier提出來了,但是直到FPGA出現(xiàn)以后,才被廣泛地應用在FPGA中計算乘積和。?

??? 一個線性時不變網(wǎng)絡的輸出可以用下式表示:?

???

??? 假設系數(shù)c[n]是已知常數(shù),x[n]是變量,在有符號DA系統(tǒng)中假設變量x[n]的表達式如下:?

???

式中,xb[n]表示x[n]的第b位,而x[n]也就是x的第n次采樣。于是,內(nèi)積y可以表示為:?

???

??? 重新分別求和(也就是分布式算法的由來),其結(jié)果如下:?

???

??? 從(1)式可以發(fā)現(xiàn),分布式算法是一種以實現(xiàn)乘加運算為目的的運算方法。它與傳統(tǒng)算法實現(xiàn)乘加運算的不同在于執(zhí)行部分積運算的先后順序不同。分布式算法在實現(xiàn)乘加功能時,是通過將各輸入數(shù)據(jù)的每一對應位產(chǎn)生的部分積預先進行相加形成相應的部分積,然后再對各個部分積累加形成最終結(jié)果的,而傳統(tǒng)算法是等到所有乘積已經(jīng)產(chǎn)生之后再來相加完成乘加運算的。與傳統(tǒng)串行算法相比,分布式算法可極大地減少硬件電路的規(guī)模,提高電路的執(zhí)行速度。它的實現(xiàn)框圖如圖1(虛線為流水線寄存器)所示。?

?

?

2 用分布式原理實現(xiàn)FIR濾波器?

2.1 串行方式?

??? 當系統(tǒng)對速度的要求不高時,可以采用串行的設計方法,即采用一個DA表?一個并行累加器和少量的寄存器就可以了。?

在用LUT實現(xiàn)串行分布式算法的時候,假設系數(shù)為8位,則DA表的規(guī)模為2N×8位。可以看到如果抽頭系數(shù)N過多,則DA表的規(guī)模將十分龐大。這是因為LUT的規(guī)模隨著地址空間的變化(也就是N的增加)而呈指數(shù)增加。例如EPF10K20包含1152個LC,而一個27×7位的表就需要394個LC[2]。當N過大時,一個FPGA器件就不夠用了。?

??? 為了減小規(guī)模,可以利用部分表計算,然后將結(jié)果相加。假定長度為LN的內(nèi)積為:?

???

??? 將和分配到L個獨立的N階并行DA的LUT之中,結(jié)果如下:?

???

??? 如圖2所示,實現(xiàn)一個4N的DA設計需要3個次輔助加法器。表格的規(guī)模從一個24N×B位的LUT降到4個2N×B的位表。?

?

?

??? 如果再加上流水線寄存器,由于EPF10K20每個LC后面都跟有一個寄存器,所以并沒有增加電路規(guī)模,而速度卻得到了提高。?

2.2 并行方式?

??? 采用并行方式的好處是處理速度得到了提高。由于數(shù)據(jù)是并行輸入,所以計算速度要比串行方式快,但它的代價是硬件規(guī)模更大了。下面舉出全并行的例子。?

??? 設 ? sum[0]=c[0]x0[0]+c[1]x0[1]+...+c[N-1]x0[N-1]?

???????? sum[B-1]=c[B-1]xB-1[0]+c[1]xB-1[1]+...+c[N-1]xB-1[N-1]?

??? 可將(1)式改寫成如下形式:?

??? y=sum[0]+sum[1]21+sum[2]22+...+sum[B-1]2B-1???? (2)?

??? 利用式(2)可得一種直觀的加法器樹,如圖3所示。?

?

?

??? 雖然硬件規(guī)模加大了,但是如果把系數(shù)的個數(shù)限制在4個或8個,再加上流水線寄存器,這個代價還是值得的。而且每張表都是相同的,不用為每個采樣都設計一張表,減小了設計量。?

??? DA算法的主要特點是巧妙地利用ROM查找表" title="查找表">查找表將固定系數(shù)的MAC運算轉(zhuǎn)化為查表操作,其運算速度不隨系數(shù)和輸入數(shù)據(jù)位數(shù)的增加而降低,而且相對直接實現(xiàn)乘法器而言在硬件規(guī)模上得到了極大的改善。利用ALTERA的FLEX10K實現(xiàn)的16階8位系數(shù)的并行FIR濾波器,其時鐘頻率可以達到101MHz,而實現(xiàn)的16階8位系數(shù)的串行FIR濾波器,其時鐘頻率可以達到63MHz,每9個時鐘周期可完成一次計算。但是其系數(shù)是傳統(tǒng)二進制的,造成了很大的冗余(對于用逐位相加法實現(xiàn)的乘法器,當系數(shù)有一位為零時不用相加,零位越多,冗余越大),而且查找表的大小隨著濾波器階數(shù)的增加成指數(shù)增加,雖然可以采用將大查找表分解為小查找表,但是無法從根本上解決這一問題,這些都是DA方法的缺點。后面將對FIR濾波器實現(xiàn)給出新的設計方法,進一步降低邏輯資源的消耗。?

3 CSD碼及最優(yōu)化方法?

??? 一個整數(shù)X與另一整數(shù)Y的乘積的二進制表示可以寫成:?

???

??? 對于標準二進制,由于sn=0時的對應項Y2n并不參與累加運算,所以可以用另一種表示方法使非零元素的數(shù)量降低,從而使加法器的數(shù)目減少,降低硬件規(guī)模。有符號數(shù)字量(SD)有三重值?邀0,-1,+1?妖,如果任意兩個非零位均不相鄰,即為標準有符號數(shù)字量(CSD)。例如:?

???

??? 可以證明CSD表示對給定數(shù)是唯一的并且是最少非零位的[3]。CSD表示相對于標準二進制表示的改進在于引入了負的符號位,從而降低了非零位個數(shù),大大降低了邏輯資源的占用(大約平均降低33%的邏輯資源)[2]。?

??? 當用硬件實現(xiàn)時,常常限制系數(shù)位數(shù),即每個系數(shù)與N個正(負)2的冪次之和近似。標準二進制數(shù)在整數(shù)軸上是緊密和均勻分布的,而CSD碼是非均勻分布的,其對實系數(shù)的量化誤差比標準二進制大[3],雖然增加N可以減小量化誤差,但是會增大邏輯資源的消耗;而且CSD表示無法應用流水線結(jié)構,從而降低處理速度。???

??? 還可采用優(yōu)化的方法將系數(shù)先拆分成幾個因子,再實現(xiàn)具體因子。這就是最優(yōu)化的代碼。例如對系數(shù)用最優(yōu)化法,系數(shù)93可以表示成93=3·31,每個因子需要一個加法器,如圖4所示。?

?

?

??? 從圖中可以看出,CSD碼需要三個加法器,而最優(yōu)法只需要兩個加法器;CSD碼的重要缺陷在于每一級加法都需要初節(jié)點參與,而最優(yōu)表示僅依賴上一級加法的結(jié)果,因此也就更適合流水線處理。Dempster等人提出了需要1到4個加法器的所有可能配置表。利用這張表,就可以合成成本在0與4個加法器之間的所有8位二進制整數(shù)[4]。???

??? 本文首先給出了一種巧妙利用FPGA的查找表,將乘法轉(zhuǎn)化為查找表運算的DA算法,并用ALTERA的FLEX10K器件分別實現(xiàn)了一個8位16階的串行與并行FIR濾波器,系統(tǒng)頻率分別達到63MHz與101MHz,采樣速度分別達到7MSPS與101MSPS。而DSP實現(xiàn)的FIR濾波器只能達到5MSPS,明顯低于FPGA。用傳統(tǒng)的位串行方法實現(xiàn)的一個8階8位FIR濾波器,也只能達到5MSPS,明顯低于串行式DA方法;接著,針對系數(shù)的二進制表示非零位不是最少(即實現(xiàn)系數(shù)乘法的加法器不是最少)的問題,介紹了整數(shù)的CSD表示以及最優(yōu)表示,它們可以用較小的代價和與加法器級數(shù)無關的處理速度實現(xiàn)整數(shù)乘法運算,能比DA方法用更少的邏輯資源實現(xiàn)FIR濾波器。這些算法都不同于傳統(tǒng)的設計觀念,為基于FPGA的DSP設計提出了新的思路,必將在高速FIR濾波器設計?高速FFT設計中得到廣泛的應用。隨著FPGA集成規(guī)模的不斷提高,許多復雜的數(shù)學運算已經(jīng)可以用FPGA來實現(xiàn),利用單片F(xiàn)PGA實現(xiàn)系統(tǒng)的設想即將變?yōu)楝F(xiàn)實。?

參考文獻?

1 ALTERA Data Book, 2001?

2 Uwe Meyer-Baese著, 劉 凌, 胡永生譯.數(shù)字信號處理的FPGA實現(xiàn).北京:清華大學出版社,2003?

3 Shousheng He,Mats Torkelson.FPGA Implementation of FIR?Filters Using Pipelined Bit-serial Canonical Signed Digit?Multipliers. IEEE Custom Integrated Circuits Conference,?1994?

4 A.Dempster,M.Macleod.Use of Minimum-Adder Multiplier?Blocks in FIR Digital Filters. IEEE Transactions on Circuits and Systems II, 1995;42:569~577

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 欧美久 | 国产卡1卡2卡三卡在线 | 欧美一区二区三区四区视频 | 一个人看的视频免费高清在线 | 高清国产美女一级a毛片在线 | 国内精品免费一区二区观看 | 二级特黄绝大片免费视频大片 | 中文字幕在线观看一区二区三区 | 免费一级毛片能看的 | 99视频网址 | 久久精品一区 | 狠狠色狠狠色很很综合很久久 | 成年人影院在线观看 | 丁香六月久久 | 国产伦精品一区二区三区免 | 男女乱淫真视频免费一级毛片 | 亚洲精品天堂在线观看 | xxxxx日本 | 午夜免费r级伦理片 | 亚洲天堂久久精品 | 国内精品福利在线视频 | 欧美日韩国产手机在线观看视频 | 黄色三级视频在线观看 | a毛片久久免费观看 | 一区二区免费视频观看 | 日皮视频免费看 | 成人久久精品 | 亚洲九九精品 | 性xxxxx外性hd | 最刺激黄a大片免费观看下截 | 成人黄色片网站 | 黄色成人一级片 | 国产一级大片 | 日韩精品视频免费观看 | 台湾中文娱乐综合久久久 | 欧美日韩中文视频 | 亚洲人体在线 | 天天摸夜夜摸爽爽狠狠婷婷97 | 久久成人免费 | 91精品欧美激情在线播放 | 好看的看黄a大片爽爽影院 好黄好猛好爽好痛的视频 好吊爽在线播放视频 |