1. 程式人生 > >FPGA工程師的個人工作經歷總結

FPGA工程師的個人工作經歷總結

很早之前就想對這幾個月工作經歷寫的東西,一是作為自己的總結,二是自己也很想將自己這段時間的一些經歷和大家分享一下,希望對初學者而言能使得他們能少走一些彎路。只是公司裡的事情很多,最近經常加班,所以一直拖到現在。 能來到這家公司應該是一種緣份--緣起NIOS。當初三月份altera來我們學校建立SOPC實驗室的時候自己還不知道NIOS是什麼東西,只是想在altera的FAE講完NIOS後多問他幾個時序約束的問題,然後拷一份PPT回去。但是想不到因為那一份NIOS的培訓資料,我認識了論壇裡的cawan,他給我講了很多NIOS的東西,之後是丁哥在SOC版帖了位NIOS大賽的通知,然後我和隊友就去報了名,並去川大參加了NIOS的培訓,認識了峻龍的FAE----也是我現在的boss。在這裡要謝謝cawan、丁哥、和我一起參加NIOS競賽的隊友劉科以及我的BOSS,是他們讓我有了這一段的經歷。 在公司裡的幾個月,做的專案其實不多,但是收穫還是有一些,我覺得收穫最大的是 設計理念的改變,這也是我這段時間最想總結的,我會在後面逐漸闡述。

時序是設計出來的



我的boss有在華為及峻龍工作的背景,自然就給我們講了一些華為及altera做邏輯的一些東西,而我們的專案規範,也基本上是按華為的那一套去做。在工作這幾個月中 ,給我感觸最深的是華為的那句話:時序是設計出來的,不是仿出來的,更不是湊出來的。在我們公司,每一個專案都有很嚴格的評審,只有評審通過了,才能做下一步的工作。以做邏輯為例,並不是一上來就開始寫程式碼,而是要先寫總體設計方案和邏輯詳細設計方案,要等這些方案評審通過,認為可行了,才能進行編碼,一般來說這部分工作 所佔的時間要遠大於編碼的時間。 總體方案主要是涉及模組劃分,一級模組和二級模組的介面訊號和時序(我們要求把介面訊號的時序波形描述出來)以及將來如何測試設計。在這一級方案中,要保證在今後的設計中時序要收斂到一級模組(最後是在二級模組中)。什麼意思呢?我們在做詳細設計的時候,對於一些訊號的時序肯定會做一些調整的,但是這種時序的調整最多隻能波及到本一級模組,而不能影響到整個設計。記得以前在學校做設計的時候,由於不懂得設計時序,經常因為有一處訊號的時序不滿足,結果不得不將其它模組訊號的時序也改一下,搞得人很鬱悶。 在邏輯詳細設計方案這一級的時候,我們已經將各級模組的介面時序都設計出來了,各級模組內部是怎麼實現的也基本上確定下來了。 由於做到這一點,在編碼的時候自然就很快了,最重要的是這樣做後可以讓設計會一直處於可控的狀態,不會因為某一處的錯誤引起整個設計從頭進行。

做邏輯的難點在於系統結構設計和模擬驗證


剛去公司的時候BOSS就和我講,做邏輯的難點不在於RTL級程式碼的設計,而在於系統結構設計和模擬驗證方面。目前國內對可綜合的設計強調的比較多,而對系統結構設計和模擬驗證方面似乎還沒有什麼資料,這或許也從一個側面反映了國內目前的設計水平還比較低下吧。以前在學校的時候,總是覺得將RTL級程式碼做好就行了,模擬驗證只是形式而已,所以對HDL的行為描述方面的語法不屑一顧,對testbench也一直不願意去學--因為覺得畫波形圖方便;對於系統結構設計更是一點都不懂了。到了公司接觸了些東西才發現完全不是這樣。其實在國外,花在模擬驗證上的時間和人力大概是花在RTL級程式碼上的兩倍,現在模擬驗證才是百萬門級晶片設計的關鍵路徑。模擬驗證的難點主要在於怎麼建模才能完全和準確地去驗證設計的正確性(主要是提高程式碼覆蓋),在這過程中,驗證速度也是很重要的。驗證說白了也就是怎麼產生足夠覆蓋率的激勵源,然後怎麼去檢測錯誤。我個人認為,在模擬驗證中,最基本就是要做到驗證的自動化。這也是為什麼我們要寫testbench的原因。在我現在的一個設計中,每次跑模擬都要一個小時左右(這其實算小設計)。由於畫波形圖無法做到驗證自動化,如果用通過畫波形圖來模擬的話,一是畫波形會畫死(特別是對於演算法複雜的、輸入呈統計分佈的設計),二是看波形圖要看死,三是檢錯率幾乎為零。那麼怎麼做到自動化呢?我個人的水平還很有限,只能簡單地談下BFM(busfunctionmodel,匯流排功能模型)。以做一個MAC的core為例(背板是PCI匯流排),那麼我們需要一個MAC_BFM和PCI_BFM及PCI_BM(PCIbehaviormodel)。MAC_BFM的主要功能是產生乙太網幀(激勵源),隨機的長度和幀頭,內容也是隨機的,在傳送的同時也將其複製一份到PCI_BM中;PCI_BFM的功能則是仿PCI匯流排的行為,比如被測收到了一個正確幀後會向PCI匯流排傳送一個請求,PCI_BFM則會去響應它,並將資料收進來;PCI_BM的主要功能是將MAC_BFM傳送出來的東西與PCI_BFM接收到的東西做比較,由於它具有了MAC_BFM的傳送資訊和PCI_BFM的接收資訊,只要設計合理,它總是可以自動地、完全地去測試被測是否工作正常,從而實現自動檢測。華為在模擬驗證方面估計在國內來說是做的比較好的,他們已建立起了比較好的驗證平臺,大部分與通訊有關的BFM都做好了,聽我朋友說,現在他們只需要將被測放在測試平臺中,並配置好引數,就可以自動地檢測被測功能的正確與否。在功能模擬做完後,由於我們做在是FPGA的設計,在設計時已經基本保證RTL級程式碼在綜合結果和功能模擬結果的一致性,只要綜合佈局佈線後的靜態時序報告沒有違反時序約束的警告,就可以下到板子上去除錯了。事實上,在華為中興,他們做FPGA的設計時也是不做時序模擬的,因為做時序模擬很花時間,且效果也不見得比看靜態時序分析報告好。當然了,如果是ASIC的設計話,它們的模擬驗證的工作量要大一些,在涉及到多時鐘域的設計時,一般還是做後仿的。不過在做後仿之前,也一般會先用形式驗證工具和通過靜態時序分序報告去檢視有沒有違反設計要求的地方,這樣做了之後,後仿的工作量可以小很多。在HDL語言方面,國內語言很多人都在爭論VHDL和verilog哪個好,其實我個人認為這並沒有多大的意義,外面的大公司基本上都是用verilog在做RTL級的程式碼,所以還是建議大家儘量學verilog。在模擬方面,由於VHDL在行為級建模方面弱於verilog,用VHDL做模擬模型的很少,當然也不是說verilog就好,其實verilog在複雜的行為級建模方面的能力也是有限的,比如目前它還不支援陣列。在一些複雜的演算法設計中,需要高階語言做抽象才能描述出行為級模型。在國外,模擬建模很多都是用SystemC和E語言,用verilog的都算是很落後的了,國內華為的驗證平臺好像是用SystemC寫。在系統結構設計方面,由於我做的設計還不夠大,還談不上什麼經驗,只是覺得必須要具備一些計算機系統結構的知識才行。劃分的首要依據是功能,之後是選擇合適的匯流排結構、儲存結構和處理器架構,通過系統結構劃分要使各部分功能模組清晰,易於實現。這一部分我想過段時間有一點體會了再和大家分享,就先不誤導大家了。

規範很重要



工作過的朋友肯定知道,公司裡是很強調規範的,特別是對於大的設計(無論軟體還是硬體),不按照規範走幾乎是不可實現的。邏輯設計也是這樣:如果不按規範做的話,過一個月後除錯時發現有錯,回頭再看自己寫的程式碼,估計很多訊號功能都忘了,更不要說檢錯了;如果一個專案做了一半一個人走了,接班的估計得從頭開始設計;如果需要在原來的版本基礎上增加新功能,很可能也得從頭來過,很難做到設計的可重用性。在邏輯方面,我覺得比較重要的規範有這些:
1.設計必須文件化。要將設計思路,詳細實現等寫入文件,然後經過嚴格評審通過後才能進行下一步的工作。這樣做乍看起來很花時間,但是從整個專案過程來看,絕對要比一上來就寫程式碼要節約時間,且這種做法可以使專案處於可控、可實現的狀態。

2.程式碼規範。

a.設計要引數化。比如一開始的設計時鐘週期是30ns,復位週期是5個時鐘週期,我們可以這麼寫:

parameter CLK_PERIOD = 30;
parameter RST_MUL_TIME = 5;
parameter RST_TIME = RST_MUL_TIME * CLK_PERIOD;
。。. rst_n = 1‘b0;
# RST_TIME rst_n = 1’b1;
。。. # CLK_PERIOD/2 clk <<= ~clk;


如果在另一個設計中的時鐘是40ns,復位週期不變,我們只需對CLK_PERIOD進行重 新例化就行了,從而使得程式碼更加易於重用。

b.訊號命名要規範化。
1) 訊號名一律小寫,引數用大寫。
2) 對於低電平有效的訊號結尾要用_n標記,如rst_n。
3) 埠訊號排列要統一,一個訊號只佔一行,最好按輸入輸出及從哪個模組來到哪 個模組去的關係排列,這樣在後期模擬驗證找錯時後 方便很多。如:


module a(
//input
clk,
rst_n,
//globle signal
wren,
rden,
avalon_din,
//related to avalon bus
sdi,
//related to serial port input
//output
data_ready,
avalon_dout,
//related to avalon bus
。.
);

4)一個模組儘量只用一個時鐘,這裡的一個模組是指一個module或者是一個en tity。在多時鐘域的設計中涉及到跨時鐘域的設計中最好有專門一個模組做時鐘域的隔 離。這樣做可以讓綜合器綜合出更優的結果。
5)儘量在底層模組上做邏輯,在高層儘量做例化,頂層模組只能做例化,禁止出現任何膠連邏輯(glue logic),哪怕僅僅是對某個訊號取反。理由同上。
6)在FPGA的設計上禁止用純組合邏輯產生latch,帶D觸發器的latch的是允許的 ,比如配置暫存器就是這種型別。
7)一般來說,進入FPGA的訊號必須先同步,以提高系統工作頻率(板級)。 所有模組的輸出都要暫存器化,以提高工作頻率,這對設計做到時序收斂也是極有好處的。
8) 除非是低功耗設計,不然不要用門控時鐘--這會增加設計的不穩定性,在要用到門控時鐘的地方,也要將門控訊號用時鐘的下降沿 打一拍再輸出與時鐘相與。
clk_gate_en-----------------|D Q|------------------|\ gate_clk _out||---------| )---------------o|》|||/clk|--------|---
9)禁止用計數器分頻後的訊號做其它模組的時鐘,而要用改成時鐘使能的方式,否則這種時鐘滿天飛的方式對設計的可靠性極為不利,也**增加了靜態時序分析的複雜性。

如FPGA的輸入時鐘是25M的,現在系統內部要通過RS232與PC通訊,要以rs232_ 1xclk的速率傳送資料。

不要這樣做:

always (posedge rs232_1xclk or negedge rst_n)

begin 。。.

end

而要這樣做:

always (posedge clk_25m or negedge rst_n)

begin 。。.

else if ( rs232_1xclk == 1‘b1 ) 。。.

end

如何提高電路工作頻率

對於設計者來說,我們當然希望我們設計的電路的工作頻率(在這裡如無特別說明,工作頻率指FPGA片內的工作頻率)儘量高。我們也經常聽說用資源換速度,用流水的 方式可以提高工作頻率,這確實是一個很重要的方法,今天我想進一步去分析該如何提高電路的工作頻率。
我們先來分析下是什麼影響了電路的工作頻率。 我們電路的工作頻率主要與暫存器到暫存器之間的訊號傳播時延及clock skew有關。在FPGA內部如果時鐘走長線的話,clock skew很小,基本上可以忽略, 在這裡為了簡單起見,我們只考慮訊號的傳播時延的因素。
訊號的傳播時延包括暫存器的開關時延、走線時延、經過組合邏輯的時延(這樣劃分或許不是很準確,不過對分析問題來說應該是沒有可以的),要提高電路的工作頻率 ,我們就要在這三個時延中做文章,使其儘可能的小。 我們先來看開關時延,這個時延是由器件物理特性決定的,我們沒有辦法去改變,所以我們只能通過改變走線方式和減少組合邏輯的方法來提高工作頻率。
1.通過改變走線的方式減少時延。
以altera的器件為例,我們在quartus裡面的timing closure floorplan可以看到有很多條條塊塊,我們可以將條條塊塊按行和按列分,每一個條塊代表1個LAB,每個LAB裡有8個或者是10個LE。它們的走線時延的關係如下:同一個LAB中(最快) 《 同列或者同 行 《 不同行且不同列。 我們通過給綜合器加適當的約束(不可貪心,一般以加5%裕量較為合適,比如電路工作在100Mhz,則加約束加到105Mhz就可以了,貪心效果反而不好,且極大增加綜合時間)可以將相關的邏輯在佈線時儘量布的靠近一點,從而減少走線的時延。(注:約束的實現不完全是通過改進佈局佈線方式去提高工作頻率,還有其它的改進措施)
2.通過減少組合邏輯的減少時延。
上面我們講了可以通過加約束來提高工作頻率,但是我們在做設計之初可萬萬不可將提高工作頻率的美好願望寄託在加約束上,我們要通過合理的設計去避免出現大的組 合邏輯,從而提高電路的工作頻率,這才能增強設計的可移植性,才可以使得我們的設計在移植到另一同等速度級別的晶片時還能使用。 我們知道,目前大部分FPGA都基於4輸入LUT的,如果一個輸出對應的判斷條件大於四輸入的話就要由多個LUT級聯才能完成,這樣就引入一級組合邏輯時延,我們要減少組合邏輯,無非就是要輸入條件儘可能的少,,這樣就可以級聯的LUT更少,從而減少了組合邏輯引起的時延。
我們平時聽說的流水就是一種通過切割大的組合邏輯(在其中**一級或多級D觸發器,從而使暫存器與暫存器之間的組合邏輯減少)來提高工作頻率的方法。比如一個32位的計數器,該計數器的進位鏈很長,必然會降低工作頻率,我們可以將其分割成4位和8位的計數,每當4位的計數器計到15後觸發一次8位的計數器,這樣就實現了計數器的切割,也提高了工作頻率。
在狀態機中,一般也要將大的計數器移到狀態機外,因為計數器這東西一般是經常是大於4輸入的,如果再和其它條件一起做為狀態的跳變判據的話,必然會增加LUT的級聯,從而增大組合邏輯。以一個6輸入的計數器為例,我們原希望當計數器計到111100後狀態跳變,現在我們將計數器放到狀態機外,當計數器計到111011後產生個enable訊號去觸發狀態跳變,這樣就將組合邏輯減少了。
上面說的都是可以通過流水的方式切割組合邏輯的情況,但是有些情況下我們是很難去切割組合邏輯的,在這些情況下我們又該怎麼做呢? 狀態機就是這麼一個例子,我們不能通過往狀態譯碼組合邏輯中加入流水。如果我們的設計中有一個幾十個狀態的狀態機,它的狀態譯碼邏輯將非常之巨大,毫無疑問, 這極有可能是設計中的關鍵路徑。那我們該怎麼做呢?
還是老思路,減少組合邏輯。我們可以對狀態的輸出進行分析,對它們進行重新分類,並根據這個重新定義成一組組小狀態機,通過對輸入進行選擇(case語句)並去觸發相應的小狀態機,從而實現了將大的狀態機切割成小的狀態機。在ATA6的規範中(硬碟的標準),輸入的命令大概有20十種,每一個命令又對應很多種狀態,如果用一個大的狀態機(狀態套狀態)去做那是不可想象的,我們可以通過case語句去對命令進行譯碼,並觸發相應的狀態機,這樣做下來這一個模組的頻率就可以跑得比較高了。 總結:提高工作頻率的本質就是要減少暫存器到暫存器的時延,最有效的方法就是避免出現大的組合邏輯,也就是要儘量去滿足四輸入的條件,減少LUT級聯的數量。我們可以通過加約束、流水、切割狀態的方法提高工作頻率。

fpga01 -   數字前端及FPGA設計相關書目泛讀及點評

                  Zynq片內XADC應用筆記

                  Zynq器件時鐘子系統介紹

                  建立及保持時間、建立及保持餘量的理解

                  軟核MicroBlaze的C程式設計經驗及技巧

                  Tcl在Vivado中的應用

                  Vivado的使用介紹:使用IP核

                  大話setup time與hold time

                  Vivado使用詳細介紹1:建立工程,編寫程式碼,行為模擬,Testbench

fpga02 - 防止毛刺的時鐘切換電路的設計思想

                  函式發生器實現方法簡述

                  Vivado使用詳細介紹2綜合實現管腳分配時鐘設定燒寫

                  基於FPGA的DDR3多埠讀寫儲存管理設計

                  在低成本FPGA開發板上實現Oberon系統

                  全可程式設計抽象化:你的程式設計你做主

                  XILINX FPGA FIFO使用技巧

                  智慧視覺系統中如何處理多影象感測器?

                  FPGA時鐘和復位電路設計

                  同步器的設計

fpga03 - 數字IC工程師的技能樹

                  FPGA設計,視時序為一切

                  在FPGA設計中,時序就是全部

                  利用FPGA對大規模MIMO通道進行特性描述

                  如何將PetaLinux移植到Xilinx FPGA上

                  關於FPGA設計模擬和硬體實測不一致問題的討論

                  FPGA適合用在哪兒?OpenCL,C,和C++語言對FPGA和全SoC有什麼用?

fpga04 - 利用Xilinx FPGA實現高效並行實時上取樣