FPGA影象處理入門(一)
本人有過多年用FPGA做影象處理的經驗,在此也談一下自己的看法。用FPGA做影象處理最關鍵的一點優勢就是:FPGA能進行實時流水線運算,能達到最高的實時性。因此在一些對實時性要求非常高的應用領域,做影象處理基本就只能用FPGA。例如在一些分選裝置中影象處理基本上用的都是FPGA,因為在其中相機從看到物料影象到給出執行指令之間的延時大概只有幾毫秒,這就要求影象處理必須很快且延時固定,只有FPGA進行的實時流水線運算才能滿足這一要求。
所以要了解FPGA進行影象處理的優勢就必須理解FPGA所能進行的實時流水線運算和DSP,GPU等進行的影象處理運算有何不同。DSP,GPU,CPU對影象的處理基本是以幀為單位的
FPGA對影象進行實時流水線運算是以行為單位的。FPGA可以直接和影象感測器晶片連接獲得影象資料流,如果是RAW格式的則還可以進行差值以獲得RGB影象資料。FPGA能進行實時流水線處理的關鍵是它可以用其內部的Block Ram快取若干行的影象資料。這個Block Ram可以說是類似於CPU裡面的Cache,但Cache不是你能完全控制的,但Block Ram是完全可控的,可以用它實現各種靈活的運算處理。這樣FPGA通過快取若干行影象資料就可以對影象進行實時處理,資料就這樣一邊流過就一邊處理好了,不需要送入DDR快取了之後再讀出來處理。
這樣的資料流處理顯然是順序讀取資料的,那麼也就只能實現那些順序讀取資料的演算法,也就是影象處理中那一大類用3x3到NxN的運算元進行的濾波、取邊緣、膨脹腐蝕等演算法。可能大家會覺得這些運算似乎都是最基本的影象處理運算,只是個前端的預處理,似乎用處不大。但問題是隻有FPGA做這樣的運算才是速度最快效率最高的,比如用CPU做一個取邊緣的演算法根本就達不到實時。另外別小看了這種NxN運算元法,它可以有各種組合和玩法,可以實現分選多種顏色,甚至分辨簡單形狀等功能。FPGA進行的這種運算元法處理是並行流水線演算法,其延時是固定的,比如用3x3的運算元進行處理其給出結果的延時是兩行影象的時間。還有這個運算元法
FPGA中的Block Ram是重要和稀缺資源,能快取的影象資料行數是有限的,所以這個NxN的運算元中的N不能特別大。當然FPGA也可以接DDR把影象快取到其中再讀出來進行處理,但這種處理模式就和CPU差不多了,達不到最高的實時性。其實有些我們認為需要隨機讀取資料的影象處理演算法也是可以並行流水線化的,比如連通域識別。《FPGA實現的連通域識別演算法升級》這是我的一篇文章。
現在貌似神經網路也可以用FPGA來實現,並且據說效率比較高。我暫時還沒玩過這個,但知道為什麼FPGA在進行某些運算的時候效率會比較高。因為在密集運算中,耽誤時間和消耗功耗的操作往往不是運算本身,而是把資料從記憶體中搬來搬去。GPU,CPU在進行運算時要把資料從記憶體中取出來,算好了在放回去。這樣記憶體頻寬往往成了運算速度的瓶頸,資料搬運過程中的功耗佔的比重也不會小。FPGA則可以通過堆很多計算硬體的方法把要做的運算都展開,然後資料從中流過,完成一個階段的運算之後就直接流入第二個階段,不需要把一個計算階段完成後的資料再送回記憶體中,再讀出來交給下一個階段的運算。這樣就會節省很多時間和功耗。現在用FPGA做影象處理就是這樣乾的,比如先用一個3x3的運算元進行濾波,再用一個3x3的運算元進行取邊緣,在FPGA流水線演算法中,濾波處理完了資料立即就會進行取邊緣處理,是不需要像CPU那樣存回記憶體再讀出來的。
綜上所述,我覺得用FPGA進行影象處理的前景還是挺廣闊的,越來越多的工業應用場合都要求更高的實時性,而這正是FPGA所適合的。還有機器學習領域,神經網路這種層狀的,不需要很隨機的讀取資料的運算是比較適合用FPGA來做的。不過FPGA不擅長浮點運算,如果能整出不需要浮點運算的神經網路,那麼FPGA在這方面的應用將會更大。
可能制約FPGA在這些方面應用的關鍵還是人才的缺乏。大家不知道FPGA擅長什麼,想用卻又不知道怎麼用。網上很多傳說都說這個FPGA程式設計很底層,很不好用。這些說法也對也不對。剛開始學的時候是會有一些困惑。關鍵是這其中要經歷一個思維方式的轉變,從CPU程式設計思維到硬體程式設計思維的轉變。轉變過來了之後就會發現,其實FPGA還是很單純很靈活很好用的,硬體描述語言沒有高階語言那麼複雜。下面這個庫有基本的影象處理Verilog程式碼:
https://link.zhihu.com/?target=https%3A//github.com/becomequantum/Kryon