CUDA 核函式執行引數

阿新 • • 發佈：2018-12-17

CUDA核函式執行引數

呼叫定義的和函式時採用類似於下面的形式：

kernel<<<1,1>>>(param1,param2,...)

“<<< >>>”中引數的作用是告訴我們該如何啟動核函式(比如如何設定執行緒)。下面我們先直接介紹引數概念，然後詳細說明其意義。

1. 核函式執行引數

當我們使用 gloabl 宣告核函式後:

__global__ void kernel(param list){  }

在主機端(Host)呼叫時採用如下的形式：

kernel<<<Dg,Db, Ns, S>>>(param list);

引數解釋：

Dg： int型或者dim3型別(x,y,z)。用於定義一個grid中的block是如何組織的。 int型則直接表示為1維組織結構。
Db： int型或者dim3型別(x,y,z)。用於定義一個block中的thread是如何組織的。 int型則直接表示為1維組織結構。
Ns： size_t型別，可預設，預設為0。用於設定每個block除了靜態分配的共享記憶體外，最多能動態分配的共享記憶體大小，單位為byte。 0表示不需要動態分配。
S： cudaStream_t型別，可預設，預設為0。表示該核函式位於哪個流。

2. 執行緒結構

關於CUDA的執行緒結構，有著三個重要的概念： Grid

, Block, Thread

GPU工作時的最小單位是 thread。
多個 thread 可以組成一個 block，但每一個 block 所能包含的 thread 數目是有限的。因為一個block的所有執行緒最好應當位於同一個處理器核心上，同時共享同一塊記憶體。於是一個 block中的所有thread可以快速進行同步的動作而不用擔心資料通訊壁壘。
執行相同程式的多個 block，可以組成 grid。不同 block 中的 thread 無法存取同一塊共享的記憶體，無法直接互通或進行同步。因此，不同 block 中的 thread 能合作的程度是比較低的。不過，利用這個模式，可以讓程式不用擔心顯示晶片實際上能同時執行的 thread 數目限制。例如，一個具有很少量執行單元的顯示晶片，可能會把各個 block 中的 thread 順序執行，而非同時執行。不同的 grid 則可以執行不同的程式(即 kernel)。

下圖是一個結構關係圖：

此外，Block, Thread的組織結構可以是可以是一維，二維或者三維。以上圖為例，Block, Thread的結構分別為二維和三維。

CUDA中每一個執行緒都有一個唯一標識ThreadIdx，這個ID隨著組織結構形式的變化而變化。 (注意：ID的計算，同計算行優先排列的矩陣元素ID思路一樣。)

回顧之前我們的向量加法：

Block是一維的，Tread是二維的：

// Block是一維的，Thread也是一維的
__global__ void addKernel(int *c, const int *a, const int *b)
{
    int i = blockIdx.x *blockDim.x + threadIdx.x;  
    c[i] = a[i] + b[i];
}

Block是一維的，Tread是二維的：

// Block是一維的，Thread是二維的
__global__ void addKernel(int *c, int *a, int *b)
{
    int i = blockIdx.x * blockDim.x * blockDim.y + threadIdx.y * blockDim.x + threadIdx.x;
    c[i] = a[i] + b[i];
}

Block是二維的，Tread是三維的：

// Block是二維的，Thread是三維的
__global__ void addKernel(int *c, int *a, int *b)
{
    int blockId = blockIdx.x + blockIdx.y * gridDim.x;  
    int i = blockId * (blockDim.x * blockDim.y * blockDim.z)  
        + (threadIdx.z * (blockDim.x * blockDim.y))  
        + (threadIdx.y * blockDim.x) + threadIdx.x; 
    c[i] = a[i] + b[i];
}

下表是不同計算能力的GPU的技術指標(更多可參見 CUDA Toolkit Documentation)

也可以通過下面的程式碼來直接查詢自己GPU的具體指標：

#include "cuda_runtime.h"
#include <iostream>

int main()
{
    cudaError_t cudaStatus;

    // 初獲取裝置數量
    int num = 0;
    cudaStatus = cudaGetDeviceCount(&num);
    std::cout << "Number of GPU: " << num << std::endl;

    // 獲取GPU裝置屬性
    cudaDeviceProp prop;
    if (num > 0)
    {
        cudaGetDeviceProperties(&prop, 0);
        // 列印裝置名稱
        std::cout << "Device: " <<prop.name << std::endl;
    }

    system("pause");
    return 0;
}

其中 cudaDeviceProp是一個定義在driver_types.h中的結構體。

3. 記憶體結構

如下圖所示,每個 thread 都有自己的一份 register 和 local memory 的空間。同一個 block 中的每個 thread 則有共享的一份 share memory。此外，所有的 thread(包括不同 block 的 thread)都共享一份 global memory、constant memory、和 texture memory。不同的 grid 則有各自的 global memory、constant memory 和 texture memory。

這種特殊的記憶體結構直接影響著我們的執行緒分配策略，因為需要通盤考慮資源限制及利用率。這些後續再進行討論。

4. 異構程式設計

如下圖所示，是常見的GPU程式的處理流程，其實是一種異構程式，即CPU和GPU的協同。

主機上執行序列程式碼，裝置上則執行並行程式碼。

參考資料：

https://blog.csdn.net/shuzfan/article/details/76679378

https://blog.csdn.net/canhui_wang/article/details/51730264

CUDA 核函式執行引數

CUDA核函式執行引數呼叫定義的和函式時採用類似於下面的形式： kernel<<<1,1>>>(param1,param2,...) “<<< >>>”中引數的作用是告訴我們該如何啟動核函式(比如如何設定執行緒)。

【走進CUDA】~詳解CUDA核函式及執行時引數

核函式是GPU每個thread上執行的程式。必須通過__gloabl__函式型別限定符定義。形式如下： __global__ void kernel(param list){ } 核函式只能在主機端呼叫，呼叫時必須申明執行引數。呼叫形式

對CUDA核心函式執行時間測量的方法

方法一： cudaEvent_t start1; cudaEventCreate(&start1); cudaEvent_t stop1; cudaEventCreate(&stop1); cudaEventRecord(start

用實驗理解SVM的核函式和引數

原創宣告：本文為 SIGAI 原創文章，僅供個人學習使用，未經允許，不能用於商業目的。歡迎搜尋關注微信公眾號SIGAICN，獲取更多原創乾貨導言支援向量機（SVM）在很多分類問題上曾經取得了當時最好的效能，使用非線性核的支援向量機可以處理線性不可分的問題。僅僅通過一個簡單的核

pthread_create函式詳解（向執行緒函式傳遞引數）

一、pthread_create函式： 1、簡介：pthread_create是UNIX環境建立執行緒的函式 2、標頭檔案：#include <pthread.h> 3、函式宣告： int pthread_create(pthread_t* restric

Windows下DEVC++ 5.11 的printf函式對引數的執行順序

printf函式為其引數建立一個[棧]，從右到左將引數壓入棧，再從棧內將裡面的元素依次列印。函式舉例 #include <stdio.h> int p(int a) { print

對SVM與核函式的理解及sklearn引數詳解

支援向量機是在深度學習流行開來之前，效能表現最好的一種機器學習方法。在看這篇blog之前，預設讀者已經有了對支援向量機的基本概念的認識。一、支援向量機的進一步理解支援向量機的優化目標在邏輯迴歸優化目標基礎上進一步產生的。具體優化目標不說了，參看各種svm的書籍和部落格

svmtrain和svmclassify引數細說_核函式選擇

1. >>help svmtrain SVMSTRUCT = svmtrain(TRAINING, Y) trains a support vector machine (SVM)

Python 進階 —— 使用修飾器執行函式的引數檢查

引數檢查：1. 引數的個數；2. 引數的型別；3. 返回值的型別。考慮如下的函式： import html def make_tagged(text, tag): return '<{0}>{1}</{0}>'

C# 利用函式反射、XML序列化/反序列化儲存函式執行與輸入引數列表

最近在寫工業機械臂控制的程式碼，需要實現如下的一個功能：將機械臂需要執行的函式與輸入引數按照順序儲存成檔案，載入檔案後能夠直接命令機械手進行動作。介面使用winform進行開發。函式名與引數的儲存、載入的部分，考慮到日後函式的增刪，使用了函式反射+XML

LIBSVM中的SVM型別、核函式及相關引數簡介

可選引數: -s svm_type : set type of SVM (default 0)//-s用於設定SVM的型別0 -- C-SVC (multi-class classification)//硬間隔及軟間隔或核函式，最基本的SVM，C表示懲罰因子，C越大表示對錯誤分類的懲罰越大1 -- nu-SV

關於C語言中printf函式的引數執行順序

RT...看到有類似的題目，說是從右到左,, 藍後在VS2012中寫了如下的程式碼...但是執行出來的結果如下,, 這是為啥... 留一疑惑在這先. ok，這裡有了一個解釋： i++會建立一個拷貝 %d取值輸出，引數的傳遞是從右到左壓入棧，所以從右邊開始，i++，此時拷貝

pthread_create函式的詳細講解(包括向執行緒函式傳遞引數詳解)

pthread_create是UNIX環境建立執行緒函式標頭檔案　　#include<pthread.h> 函式宣告　　int pthread_create(pthread_t*restrict tidp,const pthread_attr_t

C++中把函式作為引數並執行

#include<iostream> using namespace std; typedef int(*PFUN)(int a,int b); int add(int a,int b) { return a+b; } int fun(PFUN pf

[python]利用裝飾接受引數，來統計函式執行是否超過了設定的秒數，並可以隨時修改裝飾器的引數

#利用裝飾接受引數，來統計函式執行是否超過了設定的秒數，並可以隨時修改裝飾器的引數 import time import logging def warn_timeout(timeout): def decorator(func):

[Golang] 從零開始寫Socket Server（4）：將執行引數放入配置檔案（XML/YAML）

為了將我們寫好的Server釋出到伺服器上，就要將我們的程式碼進行build打包，這樣如果以後想要修改一些程式碼的話，需要重新給程式碼進行編譯打包並上傳到伺服器上。顯然，這麼做過於繁瑣。。。因此常見的做法都是將Server執行中

函式預設引數的初始化問題

函式的預設引數使得函式的呼叫變得簡單。實際上，預設引數的值只在定義時計算一次，因此每次使用預設引數呼叫函式時，得到的預設引數值是相同的。我們看一個例子。 import datetime as dt from time import sleep def log_time(msg,time = dt.d

C++：舉例說明如何使用enable_if和模板的函式指標引數

下面的這個例子主要實現如下功能：當引數為資料型別時，呼叫std::to_string()方法將數值轉化為字串並輸出。當引數為std::string型別時，直接使用std::string的值輸出。當引數為物件時，如果物件中含有std::s

javascript預解析和函式做引數

1. 預解析：提前解析程式碼 console.log("num");// 輸出-undefined var num=10; 預解析是： var num; console.log("num");// 輸出-undefined num=10; 2. arguments 物件可將獲取的多個值

minigui 3.2.0:通過環境變數修改minigui的執行引數

minigui 升級到3.2.0後不再提供中文文件，如果要看minigui的中文資料，只能參考3.0版本的《MiniGUI 使用者手冊》。在《MiniGUI 使用者手冊》 3.1.1 節中可以找到這樣的說明：從上面的說明中可以知道，在執行環境中可以通過設定環境變數來

CUDA 核函式執行引數