CUDA軟體系統知識

阿新 • • 發佈：2018-11-15

本博文是根據中科大資訊學院譚立湘老師的課件加上自己的理解整理出來的

************************************************************************************

NVIDIA在2007年推出CUDA這個統一計算架構

CUDA的基本思想是支援大量的執行緒級並行，並在硬體中動態地排程和執行這些執行緒

CUDA軟體體系可以分為三層結構

CUDA函式庫（CUDA Library）
CUDA執行時API（Runtime API）https://blog.csdn.net/qq_41598072/article/details/81030272
CUDA驅動API（Driver API）

Difference between the driver and runtime APIs

https://docs.nvidia.com/cuda/cuda-driver-api/driver-vs-runtime-api.html#driver-vs-runtime-api

CUDA軟體環境：

CUDA支援Windows、Linux、MacOS三種主流作業系統，支援CUDA C及CUDA Fortran等多種語言。無論使用何種語言或介面，指令最終都會被驅動程式轉換成PTX（ParallelThread Execution，並行執行緒執行，CUDA架構中的指令集，類似於組合語言）程式碼，交由GPU核心計算。CUDA最主要的包含兩個方面：ISA指令集架構與硬體計算引擎；實際上是硬體和指令集。見下圖中的綠色部分，CUDA 架構的元件組成是：
(1)NVIDIA GPU中的平行計算引擎；
(2)對硬體初始化、配置的OS核心級支援；
(3)使用者模式的驅動，為開發者的PTX 指令集架構(ISA，Instructionset architecture)

Kernel

Kernel函式：

Kernel函式是指為GPU裝置編譯的一個函式。也就是一個編譯好的、在GPU上並行執行的計算函式。Kernel在GPU上以多個執行緒的方式被執行。
執行在GPU上的CUDA平行計算函式稱為kernel函式（核心函式）。一個完整的CUDA程式是由一系列的裝置端kernel函式並行部分和主機端的序列處理部分共同組成的。這些處理步驟會按照程式中相應語句的順序依次執行，滿足順序一致性。

CUDA程式設計中的術語:

Host：宿主，指CPU，系統的CPU。負責啟動應用程式，執行程式的序列部分，將程式的並行、計算密集的部分offload到GPU上執行，並最終返回程式的執行結果。
Device：裝置，指GPU，CPU的協處理器。負責程式的並行、計算密集部分的處理，並將處理結果返回給Host。

Block：執行緒塊
——執行Kernel的一組執行緒組成一個執行緒塊。(一個Kernel只做同一件事)
一個執行緒塊最多可包含1024個並行執行的執行緒，執行緒之間通過共享記憶體有效地共享資料，並實現執行緒的通訊和柵欄同步。
執行緒ID：執行緒線上程塊中的執行緒號（唯一標識）
基於執行緒ID的複雜定址，應用程式可以將執行緒塊指定為任意大小的二維或三維陣列，並使用2個或3個索引來標識每個執行緒。

對於大小是（Dx，Dy）的二維執行緒塊，索引為（x，y）的執行緒的執行緒ID為（x+y*Dx）
對於大小為（Dx，Dy，Dz）的三維執行緒塊，索引為（x，y，z）的執行緒的執行緒ID為：

（x+yDx+zDx*Dy）

Grid：執行緒塊組成的執行緒網格（最多2^32 個blocks）
執行相同Kernel、具有相同維數和大小的執行緒塊可以組合到一個網格中。這樣單個Kernel呼叫中啟動的執行緒數就可以很大。同一網格中的不同執行緒塊中的執行緒不能互相通訊和同步。
Grid 是一個執行緒塊陣列，執行相同的核心，從全域性記憶體讀取輸入資料，將計算結果寫入全域性記憶體。

Block ID：執行緒塊ID
執行緒塊ID是執行緒塊在Grid中的塊號。實現基於塊ID的複雜定址，應用程式可以將Grid指定為任意大小的二維陣列，並用2個索引來標識每個執行緒塊。對於大小為（Dx，Dy）的二維執行緒塊，索引為（x，y）的執行緒塊的ID為（x+y*Dx）。現已支援三維
Wrap：執行緒束
一個執行緒塊中連續的固定數量（32）的執行緒組。
將執行緒塊中的執行緒劃分成wrap的方式是：每個wrap包含執行緒ID連續遞增的32個執行緒，從執行緒0開始遞增到執行緒31。

Stream：
CUDA的一個Stream表示一個按特定順序執行的GPU操作序列。諸如kernel啟動、記憶體拷貝、事件啟動和停止等操作可以排序放置到一個Stream中。
一個Stream包含了一系列Grids，並且可以多個Stream並行執行。

在CUDA 架構下，GPU晶片執行時的最小單位是thread。
若干個thread可以組成一個執行緒塊（block）。一個block中的thread能存取同一塊共享記憶體，可以快速進行同步和通訊操作。
每一個block 所能包含的thread 數目是有限的。執行相同程式的block，可以組成grid。不同block 中的thread 無法存取同一共享記憶體，因此無法直接通訊或進行同步。
不同的grid可以執行不同的程式（kernel）。

Grid是由執行緒塊組成的網格。每個執行緒都執行該kernel，應用程式指定了Grid和執行緒塊的維數，Grid的佈局可以是一維、二維或三維的。
每個執行緒塊有一個唯一的執行緒塊ID，執行緒塊中的每個執行緒具有唯一的執行緒ID。同一個執行緒塊中的執行緒可以協同訪問共享記憶體，實現執行緒之間的通訊和同步。
每個執行緒塊最多可以包含的執行緒的個數為1024個，執行緒塊中的執行緒以32個執行緒為一組的Wrap的方式進行分時排程。每個執行緒在資料的不同部分並行地執行相同的操作。

CUDA處理流程：

在CUDA 的架構下，一個程式分為兩個部份：Host 端和Device 端。Host 端是指在CPU 上執行的部份，而Device 端則是在GPU上執行的部份。Device端的程式又稱為kernel函式。
通常Host 端程式會將資料準備好後，複製到GPU的記憶體中，再由GPU執行Device 端程式，完成後再由Host 端程式將結果從GPU的記憶體中取回。
CPU 存取GPU 記憶體時只能通過PCI-E 介面，速度有限。

1)從系統記憶體中複製資料到GPU記憶體
2)CPU指令驅動GPU執行；
3)GPU 的每個CUDA核心並行處理
4)GPU 將CUDA處理的最終結果返回到系統的記憶體

CUDA程式設計模型：

CPU作為主機端只能有一個
GPU作為裝置端可以有多個
CPU主要負責邏輯處理
GPU負責密集型的平行計算

完整的CUDA程式包括主機端和裝置端兩部分程式碼，主機端程式碼在CPU上執行。
裝置端程式碼（kernel函式）執行在GPU上。其中一個kernel函式對應一個grid，每個grid根據需要配置不同的block數量和thread數量。

CUDA包含兩個並行邏輯層：block層和thread層。
在執行時block對映到SM
thread對映到SP（Core）
如何在實際應用程式中高效地開發這兩個層次的並行是CUDA程式設計與優化的關鍵之一。
Stream > Grid > Block > Warp > Thread
學校年級班級小組學生

Kernel的啟動引數

cuda程式執行流程：
單顯示卡只需要考慮紅色的，多顯示卡要七步曲
1)cudaSetDevice(0); //獲取裝置；只有一個GPU時或預設使用0號GPU時可以省略
2)cudaMalloc((void**) &d_a,sizeof(float)*n); //分配視訊記憶體
3)cudaMemcpy(d_a,a,sizeof(float)*n,cudaMemcpyHostToDevice); //資料傳輸
4)gpu_kernel<<<blocks,threads>>>(***); //kernel函式
5)cudaMemcpy(a,d_a,sizeof(float)*n,cudaMemcpyDeviceToHost); //資料傳輸
6)cudaFree(d_a); //釋放視訊記憶體空間
7)cudaDeviceReset( ); //重置裝置；可以省略

完整的向量點積CUDA程式

/*
a = [a1, a2, …an], b = [b1, b2, …bn]
a*b = a1*b1 + a2*b2 + … + an*bn
*/

#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>
#include <stdlib.h>
#include <malloc.h>
#define N 10
__global__ void Dot(int *a, int *b, int *c) //宣告kernel函式
{
	__shared__ int temp[N]; // 宣告在共享儲存中的變數
	temp[threadIdx.x] = a[threadIdx.x] * b[threadIdx.x];
	//__syncthreads();
	if (0 == threadIdx.x)
	{
		//Kernel函式中利用threadIdx.x 獲得執行緒索引號
		//threadIdx是內建變數，它指定block內thread索引號
		int sum = 0;
		for (int i = 0; i < N; i++)
			sum += temp[i];
		*c = sum;
		printf("sum Calculated on Device:%d\n", *c);
	}
}

void random_ints(int *a, int n)
{
	for (int i = 0; i< n; i++)
		*(a + i) = rand() % 10;
}

int main()
{
	int *a, *b, *c;
	int *d_a, *d_b, *d_c;
	int size = N * sizeof(int);
	cudaMalloc((void **)&d_a, size);
	cudaMalloc((void **)&d_b, size);
	cudaMalloc((void **)&d_c, sizeof(int));
	a = (int *)malloc(size); random_ints(a, N);
	b = (int *)malloc(size); random_ints(b, N);
	c = (int *)malloc(sizeof(int));
	printf("Array a[N]:\n");
	for (int i = 0; i < N; i++) printf("%d ", a[i]);
	printf("\n");
	printf("Array b[N]:\n");
	for (int i = 0; i < N; i++) printf("%d ", b[i]);
	printf("\n\n");
	cudaMemcpy(d_a, a, size, cudaMemcpyHostToDevice);
	cudaMemcpy(d_b, b, size, cudaMemcpyHostToDevice);
	Dot << <1, N >> >(d_a, d_b, d_c); //單block多thread
	cudaMemcpy(c, d_c, sizeof(int), cudaMemcpyDeviceToHost);
	int sumHost = 0;
	for (int i = 0; i < N; i++)
		sumHost += a[i] * b[i];
	printf("sum Calculated on Host=%d\n", sumHost);
	printf("Device to Host: a*b=%d\n", *c);
	free(a); free(b); free(c);
	cudaFree(d_a); cudaFree(d_b); cudaFree(d_c);
	return 0;
}

CUDA軟體系統知識

本博文是根據中科大資訊學院譚立湘老師的課件加上自己的理解整理出來的 ************************************************************************************ NVIDIA在2007年推出CUDA這個統一計算架構

軟體設計師1--計算機系統知識

第一章計算機系統知識計算機五大部件：運算器、控制器、儲存器、輸入裝置、輸出裝置 CPU的功能：程式控制、操作控制、時間控制、資料處理 CPU的組成：運算器、控制啊、暫存器組、內部匯流排運算器：算數邏輯單元、累加暫存器、資料緩衝暫存器、狀態暫存器

如何選擇網路視訊會議軟體_視訊會議系統知識

遠端視訊會議的實現及普及為企業協作與通訊帶來了飛躍性的進展，許多企業每年因此節約了大量的差旅費用，更幫助企業各部門管理人員節約了大量寶貴的時間，提高了工作效率。伴隨著網際網路技術的進步，移動端的應用進一步滿足了相關人員對於隨時隨地開啟視訊會議的需求，行動式電子產

mongodb系統知識(10)

ons type 指定 imp 關閉 .sh store -c csv 1.關閉數據庫 ctrl + c；或者db.shutdownServer() 2.導入導出 mongoexport -d 指明使用的庫 -c　指明要導出的表 -o 指明要導出的文件名 -csv 指定

mongodb系統知識(11)

pan 訪問 ren manage mov radmin style top ack 1.上鎖解鎖　　db.runCommand({fsync:1,lock:1}) 　　解鎖　　db.currentOp() 2.數據修復　　db.repairDatabase() 3.

linux系統知識 - 信號基礎

www 後臺 color 傳遞發送 class ref 接收 lan 作者：Vamei 出處：http://www.cnblogs.com/vamei 歡迎轉載，也請保留這段聲明。謝謝！參考鏈接 http://www.cnblogs.com/vamei/archive/

linux系統知識 - 系統架構

內核的功能管理 .html 自身功能系統調用計算一個 lan 作者：Vamei 出處：http://www.cnblogs.com/vamei 歡迎轉載，也請保留這段聲明。謝謝！參考地址 http://www.cnblogs.com/vamei/archive/

linux系統知識 - 進程&線程

ash 解釋 nohup 即使 get 過程 area 以及後臺任務作者：Vamei 出處：http://www.cnblogs.com/vamei 歡迎轉載，也請保留這段聲明。謝謝！參考鏈接 http://www.cnblogs.com/vamei/archive/

桌面系統知識

desktop vmware microsoft 電源還在 ati 版本 locker ftw 1.常見的虛擬機產品有哪些？VmwareVMware WorkstationVMware vSphere微軟Virtual PCVirtual ServerHyper-VCit

goroutine背後的系統知識

垃圾 posix 流水線代碼片段不支持 img 流程不可用 ike Posted on 2013/03/04 by Zhennan Go語言從誕生到普及已經三年了，先行者大都是Web開發的背景，也有了一些普及型的書籍，可系統開發背景的人在學習這些

計算機系統知識

nco 簡單的主從模式名稱決定分別是 raid 考試要求計算機系統知識一、計算機組成（運算器、控制器、存儲器、原碼、反碼、補碼）? 運算器算術邏輯單元（ALU）、累加器、狀態寄存器、通用寄存器組等組成。算術邏輯運算單元（ALU）的基本功能為加、減、乘、除四

linux系統ext文件系統知識

數據庫 locks sda 大小不同 sata node ext 區域 ext2文件系統細節我們都知道，操作系統中的數據分為文件內容和文件屬性兩部分，其中文件內容就是文件的實體數據，而文件屬性就是文件類型、權限、屬主、修改時間等信息。操作系統會將上述文件的內容放入磁盤

軟考_網路管理員學習筆記001之計算機軟體基礎知識(作業系統篇01)

作業系統 1 定義答： a .作業系統在計算機系統中負責組織和管理系統中的各種軟，硬體資源； b. 組織計算機系統的工作流程； c.

Syncsort正式推出Trillium軟體系統中文版

全球領先的資料質量解決方案供應商Syncsort今日宣佈推出Trillium Software System（Trillium 軟體系統，TSS）中文版，為中國企業提供便捷的本地化服務，幫助他們應對大資料時代下資料質量管理的挑戰。 Trillium軟體系統是Syncsort的T

唸佛挖礦軟體系統開發APP

唸佛挖礦系統開發，唸佛挖礦模式開發，唸佛挖礦app開發，唸佛挖礦軟體開發，唸佛挖礦開發找【頁面頂部有V電】 //第一種建立陣列的方式:建構函式方式 var colors = new Array();//未知陣列長度 //var colors = new Array(4

軟考-軟體工程知識精煉

1.軟體開發模型瀑布模型：該模型給出了軟體生存週期各階段的固定的順序，上一階段完成後才能進行下一階段。這種模型缺乏靈活性，無法通過開發活動來澄清本來不夠明確的需求。演化模型：在獲取一組基本的需求後，通過快速分析構造出該軟體的一個初始可執行版本，然後根據使用者在使用原型的

一文讀懂推薦系統知識體系-上（概念、結構、演算法）

本文主要闡述：推薦系統的3個W 推薦系統的結構推薦引擎演算法瀏覽後四章的內容請見下篇。 1. 推薦系統的3個W 1.1 是什麼(What is it？) 推薦系統就是根據使用者的歷史行為、社交關係、興趣點、所處上下文環境等資訊去

CUDA硬體架構知識

本博文是根據中科大資訊學院譚立湘老師的課件加上自己的理解整理出來的 ************************************************************************************ 1.NVIDIA的GPU顯示卡歷程： Tesla-

阿里、百度、京東一線網際網路架構師都在用的技術體系，高併發，微服務，軟體系統架構

可以說，Java是現階段中國網際網路公司中，覆蓋度最廣的研發語言，掌握了Java技術體系，不管在成熟的大公司，快速發展的公司，還是創業階段的公司，都能有立足之地。有不少朋友問，除了掌握Java語法，還要系統學習哪些Java相關的技術，今天分享一個，網際網路Java技術學習路線圖。一：常見模式

軟體系統專案教學指導參考

軟體系統專案教學指導參考 [email protected] 一、前言軟體專案教學法是以一個完整的專案系統的介紹整個專案的實現原理。以學為本、因學施教;邊做專案邊學習，把看到的、聽到的結合起來,一步一步的深入系統的瞭解專案的實現原理。把枯燥的學習變成互動交流，提高學生學習的積

CUDA軟體系統知識

本博文是根據中科大資訊學院譚立湘老師的課件加上自己的理解整理出來的

************************************************************************************

NVIDIA在2007年推出CUDA這個統一計算架構

CUDA的基本思想是支援大量的執行緒級並行，並在硬體中動態地排程和執行這些執行緒

CUDA軟體體系可以分為三層結構

CUDA函式庫（CUDA Library）

CUDA執行時API（Runtime API）https://blog.csdn.net/qq_41598072/article/details/81030272

CUDA驅動API（Driver API）

Difference between the driver and runtime APIs

CUDA軟體環境：

Kernel函式：

CUDA程式設計中的術語:

Host：宿主，指CPU，系統的CPU。負責啟動應用程式，執行程式的序列部分，將程式的並行、計算密集的部分offload到GPU上執行，並最終返回程式的執行結果。

Device：裝置，指GPU，CPU的協處理器。負責程式的並行、計算密集部分的處理，並將處理結果返回給Host。

對於大小是（Dx，Dy）的二維執行緒塊，索引為（x，y）的執行緒的執行緒ID為（x+y*Dx）

對於大小為（Dx，Dy，Dz）的三維執行緒塊，索引為（x，y，z）的執行緒的執行緒ID為：

（x+y*Dx+z*Dx*Dy）

Stream： CUDA的一個Stream表示一個按特定順序執行的GPU操作序列。諸如kernel啟動、記憶體拷貝、事件啟動和停止等操作可以排序放置到一個Stream中。 一個Stream包含了一系列Grids，並且可以多個Stream並行執行。

CUDA處理流程：

1)從系統記憶體中複製資料到GPU記憶體

2)CPU指令驅動GPU執行；

3)GPU 的每個CUDA核心並行處理

4)GPU 將CUDA處理的最終結果返回到系統的記憶體

CUDA程式設計模型：

CPU作為主機端只能有一個

GPU作為裝置端可以有多個

CPU主要負責邏輯處理

GPU負責密集型的平行計算

完整的CUDA程式包括主機端和裝置端兩部分程式碼，主機端程式碼在CPU上執行。 裝置端程式碼（kernel函式）執行在GPU上。其中一個kernel函式對應一個grid，每個grid根據需要配置不同的block數量和thread數量。

Kernel的啟動引數

cuda程式執行流程：

單顯示卡只需要考慮紅色的，多顯示卡要七步曲

完整的向量點積CUDA程式

相關推薦

（x+yDx+zDx*Dy）

Stream：
CUDA的一個Stream表示一個按特定順序執行的GPU操作序列。諸如kernel啟動、記憶體拷貝、事件啟動和停止等操作可以排序放置到一個Stream中。
一個Stream包含了一系列Grids，並且可以多個Stream並行執行。

完整的CUDA程式包括主機端和裝置端兩部分程式碼，主機端程式碼在CPU上執行。
裝置端程式碼（kernel函式）執行在GPU上。其中一個kernel函式對應一個grid，每個grid根據需要配置不同的block數量和thread數量。