CUDA學習之CUDA本質和原理-CUDA技術深入解析

阿新 • • 發佈：2019-01-17

從NVIDIA官方網站上找的CUDA資料可以看出CUDA的實現流程如下圖:

CUDA的實現流程

從圖上我們可以看出CUDA在整個GPU計算中充當的就是翻譯的角色,我們知道GPU的結構和CPU差別很大,GPU強調的是並行性重複性的計算工作,GPU因為結構和CPU不同,計算指令也不一樣,而在GPU加速中,CUDA就是負責把CPU的計算指令翻譯成GPU的計算指令,同時還負責視訊記憶體和計算機系統記憶體中資料的交換操作.

我們可以形象的的把顯示卡也看成一臺結構不一樣的計算機,它以GPU為CPU,視訊記憶體為記憶體,CUDA就負責把我們平常使用的CPU指令轉換成這臺顯示卡計算機所能接受的指令,並負責資料在這兩臺計算機之間的交換

.而CUDA程式本身還是要靠CPU來執行的.

A grafikán túl
CUDA的計算流程

開發人員使用一種全新的程式設計模式將並行資料對映、安排到GPU中。CUDA程式則把要處理的資料細分成更小的區塊，然後並行的執行它們。這種程式設計模式允許開發人員只需對GPU程式設計一次，無論是包含多處理器的GPU產品或是低成本、處理器數量較少的產品。當GPU計算程式執行的時候，開發者只是需要在主CPU上執行程式，CUDA驅動會自動在GPU上載入和執行程式。主機端程式可以通過高速的PCI Express匯流排與GPU進行資訊互動。資料的傳輸、GPU運算功能的啟動以及其它一些CPU 和GPU互動都可以通過呼叫專門的執行時驅動中的專門操作來完成。

這些高階操作把程式設計師從手動管理GPU運算資源中解放出來。

編譯過程

CUDA的核心部分是專門開發的C編譯器。C語言對大多數開發人員都十分熟悉的，可以使程式設計人員專注於開發並行程式而不是處理負責的圖形API。為了簡化開發，CUDA的C編譯器允許程式設計師將CPU 和 GPU的程式碼混合記錄到一個程式檔案中。一些簡單程式碼被增加到的C程式中，通知CUDA編譯器哪些函式由CPU處理，哪些為GPU編譯。然後程式被CUDA編譯器編譯，而CPU處理的程式碼則由開發者的標準C編譯器編。

科技改變生活！NVIDIA Tesla深入解析

PTX中間媒介語言

整個編譯過程需要幾個階段。首先，所有的程式碼都要讓CPU來處理，這些都會從檔案中提取，並且他們都會通過標準的編譯器。用於GPU處理的程式碼，首先要轉換成中間媒介性語言——PTX

。中間語言更像是一種彙編程式，並且能夠中和潛在的無效程式碼。在最後的階段，中間語言會轉換成指令。這些指令會被GPU所認同，並且會以二進位制的形式被執行。

NVIDIA CUDA技術基於一種全新的用於開拓GPU運算效能的軟體架構，CUDA程式執行時，GPU作為主CPU的協處理器工作，GPU可以處理大量的並行資訊，同時CPU組織、解釋、與後臺交流要處理的資訊。應用程式的計算密集型部分要被執行很多次，每次由主應用程式提交的不同資料，經過編譯後由GPU並行執行。科技改變生活！NVIDIA Tesla深入解析

CUDA輔助CPU進行通用運算功能的示意圖

CUDA可以用來生產資源，比如生成幾何圖形，在程式中進行材質貼圖等等，同時這些也可以傳遞到傳統的圖形API來生成。3D圖形API也可以將渲染後的結果傳送到CUDA進行後續處理。CUDA本身就是基於圖形晶片，而這種圖形晶片也具備通用計算的能力。這裡有許多互動性的例子，在GPU的視訊記憶體中儲存資料將更具優勢，系統可以繞過速度相對較慢的PCI-Express匯流排，直接呼叫視訊記憶體中的資料。

另一方面需要指出的是，針對這種在視訊記憶體內的資源共享來說，圖形資料並不總是短小精悍的，並且也會給程式設計師帶來一些頭痛的問題。例如，轉換解析度或者顏色深度時，圖形資料就有優先權。因此，如果在緩衝中的資源需要增加的時候，驅動程式會毫不猶豫的將應用程式分配給CUDA來執行。這樣CUDA計算和圖形處理就不會產生衝突。對於資料的分配和管理，CUDA還有待於更進一步完善。尤其是當我們的系統中有幾個GPU的時候，我們首先就無法使用SLI模式了，我們只能用一顆GPU來完成顯示工作。不過這也是避免系統混亂的最好辦法。

CUDA API其本質上來講是由各種操作視訊記憶體的函式組成的。cudaMalloc用來分配記憶體，cudaFree用來釋放記憶體，cudaMemcpy用來互相拷貝記憶體和視訊記憶體之間的資料。

名詞解析

thread執行緒 在CUDA裡定義thread執行緒的概念。因為這裡所指的執行緒，與傳統的“CPU執行緒”是有所區別的，同時也不是我們在GPU文章裡所指的“執行緒”。在GPU中，執行緒是最基本的元素，它貫穿於資料處理的始終。與CPU中的執行緒不同，CUDA的執行緒是非常輕巧微小的，這就意味著，單獨的執行緒處理起來會非常的簡單快速。

warp 不要試圖從字面理解warp的概念，因為它僅僅是一種象徵性的比喻，一個由NVIDIA自創的術語罷了。NVIDIA的意思是CUDA的整個處理工作，就像是一架織布機，織物在織布機內快速的來回穿過。

在CUDA中的一個warp，是由32個執行緒組成的。這也是SIMD處理中，資料的最小封包單位。CUDA採用的是多處理並行架構，它的主旨就是儘量能並行處理更多的資料。

grid 柵格，將許多個block塊封裝起來。這種資料機制的優勢就在於可以同時在GPU中處理多個block塊。這種方式將GPU所有硬體資源都緊密的聯絡在一起。

從CUDA原理中得到的優化PC啟示:

PhysX物理加速也是建立在CUDA技術之上的,CUDA執行時不但要佔用CPU資源,還要在顯示卡的GPU和視訊記憶體中劃分出一定的資源來用做GUP計算如:物理加速,通用計算等.通過對CUDA的分析我們就不難理解為什麼9500GT級別的顯示卡在開啟物理加速以後為什麼效能不升反降的原因.

隨著,大量遊戲對物理加速的支援和許多軟體開始對GPU加速的支援,顯示卡將不單是圖形處理,GPU的效能,流處理器的數量,和視訊記憶體的大小將直接影響著使用者遊戲和軟體的執行速度.在新應用下我們選擇顯示卡應該著重考慮以下幾方面:

1.顯示卡的GPU效能,效能強大的GPU才能夠更好的執行物理加速和CUDA通用計算,特別是在執行3D遊戲時,GPU要同時負責圖形加速和物理加速,對GPU效能有一定要求.

2.流處器的數量和頻率,流處理器數目越多頻率越高,平行計算能力越強

3.視訊記憶體的大小和速度,大容量的高速視訊記憶體在CUDA計算中能夠在更短的時間內交換更多的資料,在3D遊戲中也不會因為視訊記憶體太小而影響效能.

NVIDIA推薦的CUDA和物理加速顯示256M的9600GT以上的顯示卡,但是在目前來看,物理加速和CUDA要能夠流暢執行的話,一塊512M DDR3的9600GT是基本的要求,512M視訊記憶體才有足夠的視訊記憶體空間給CUDA作為GPU計算記憶體使用.而如果視訊記憶體只有256M,在CUDA計算量大的時候將直接影響效能,如果是3D遊戲,圖形處理也將受到影響.

CUDA學習之CUDA本質和原理-CUDA技術深入解析

CUDA學習之CUDA本質和原理-CUDA技術深入解析

CUDA學習之使用GPU輸出HelloWorld

CUDA學習之使用clock()函式

CUDA學習之淺談cuBLAS

我的CUDA學習之旅4——Sobel運算元影象邊緣檢測CUDA實現

我的CUDA學習之旅1——大影象分塊處理程式（包括求均值，最大值等）

機器學習之支援向量機原理和sklearn實踐

Python自動化3.0-------學習之路------日期和時間！

lua學習之閉包實現原理

oracle學習之基本查詢和條件過濾，分組函數使用

shell學習之變量和引號

jquery學習之初始化和獲取值

大數據學習之（Storm）-原理詳解！

小白的java學習之路 “ 類和對象”

Linux學習之十三-vi和vim編輯器及其快捷鍵

Python學習之路 —— *args 和**kwargs

JSP學習之---運用useBean和jdbc操作。實現簡答前臺操作資料庫。

python學習之列表物件實現原理解析

C++PrimerPlus學習之記憶體模型和名稱空間

機器學習之擬合和過擬合問題

CUDA學習之CUDA本質和原理-CUDA技術深入解析

相關推薦