CUDA從入門到精通（五）：執行緒並行

阿新 • • 發佈：2019-02-14

多執行緒我們應該都不陌生，在作業系統中，程序是資源分配的基本單元，而執行緒是CPU時間排程的基本單元（這裡假設只有1個CPU）。

將執行緒的概念引申到CUDA程式設計中，我們可以認為執行緒就是執行CUDA程式的最小單元，前面我們建立的工程程式碼中，有個核函式概念不知各位童鞋還記得沒有，在GPU上每個執行緒都會執行一次該核函式。

但GPU上的執行緒排程方式與CPU有很大不同。CPU上會有優先順序分配，從高到低，同樣優先順序的可以採用時間片輪轉法實現執行緒排程。GPU上執行緒沒有優先順序概念，所有執行緒機會均等，執行緒狀態只有等待資源和執行兩種狀態，如果資源未就緒，那麼就等待；一旦就緒，立即執行。當GPU資源很充裕時，所有執行緒都是併發執行的，這樣加速效果很接近理論加速比；而GPU資源少於匯流排程個數時，有一部分執行緒就會等待前面執行的執行緒釋放資源，從而變為序列化執行。

程式碼還是用上一節的吧，改動很少，再貼一遍：

#include "cuda_runtime.h" //CUDA執行時API
#include "device_launch_parameters.h"
#include <stdio.h>
cudaError_t addWithCuda(int *c, constint *a, constint *b, size_t size);
__global__ void addKernel(int *c, constint *a, constint *b)
{
int i = threadIdx.x;
c[i] = a[i] + b[i];
}
int main()
{
constint arraySize = 5;
constint a[arraySize] = { 1, 2, 3, 4, 5 };
constint b[arraySize] = { 10, 20, 30, 40, 50 };
int c[arraySize] = { 0 };
// Add vectors in parallel.
cudaError_t cudaStatus;
int num = 0;
cudaDeviceProp prop;
cudaStatus = cudaGetDeviceCount(&num);
for(int i = 0;i<num;i++)
{
cudaGetDeviceProperties(&prop,i);
}
cudaStatus = addWithCuda(c, a, b, arraySize);
if (cudaStatus != cudaSuccess)
{
fprintf(stderr, "addWithCuda failed!");
return 1;
}
printf("{1,2,3,4,5} + {10,20,30,40,50} = {%d,%d,%d,%d,%d}\n",c[0],c[1],c[2],c[3],c[4]);
// cudaThreadExit must be called before exiting in order for profiling and
// tracing tools such as Nsight and Visual Profiler to show complete traces.
cudaStatus = cudaThreadExit();
if (cudaStatus != cudaSuccess)
{
fprintf(stderr, "cudaThreadExit failed!");
return 1;
}
return 0;
}
// 重點理解這個函式
cudaError_t addWithCuda(int *c, constint *a, constint *b, size_t size)
{
int *dev_a = 0; //GPU裝置端資料指標
int *dev_b = 0;
int *dev_c = 0;
cudaError_t cudaStatus; //狀態指示
// Choose which GPU to run on, change this on a multi-GPU system.
cudaStatus = cudaSetDevice(0); //選擇執行平臺
if (cudaStatus != cudaSuccess)
{
fprintf(stderr, "cudaSetDevice failed! Do you have a CUDA-capable GPU installed?");
goto Error;
}
// 分配GPU裝置端記憶體
cudaStatus = cudaMalloc((void**)&dev_c, size * sizeof(int));
if (cudaStatus != cudaSuccess)
{
fprintf(stderr, "cudaMalloc failed!");
goto Error;
}
cudaStatus = cudaMalloc((void**)&dev_a, size * sizeof(int));
if (cudaStatus != cudaSuccess)
{
fprintf(stderr, "cudaMalloc failed!");
goto Error;
}
cudaStatus = cudaMalloc((void**)&dev_b, size * sizeof(int));
if (cudaStatus != cudaSuccess)
{
fprintf(stderr, "cudaMalloc failed!");
goto Error;
}
// 拷貝資料到GPU
cudaStatus = cudaMemcpy(dev_a, a, size * sizeof(int), cudaMemcpyHostToDevice);
if (cudaStatus != cudaSuccess)
{
fprintf(stderr, "cudaMemcpy failed!");
goto Error;
}
cudaStatus = cudaMemcpy(dev_b, b, size * sizeof(int), cudaMemcpyHostToDevice);
if (cudaStatus != cudaSuccess)
{
fprintf(stderr, "cudaMemcpy failed!");
goto Error;
}
// 執行核函式
<span style="BACKGROUND-COLOR: #ff6666"><strong> addKernel<<<1, size>>>(dev_c, dev_a, dev_b);</strong>
</span> // cudaThreadSynchronize waits for the kernel to finish, and returns
// any errors encountered during the launch.
cudaStatus = cudaThreadSynchronize(); //同步執行緒
if (cudaStatus != cudaSuccess)
{
fprintf(stderr, "cudaThreadSynchronize returned error code %d after launching addKernel!\n", cudaStatus);
goto Error;
}
// Copy output vector from GPU buffer to host memory.
cudaStatus = cudaMemcpy(c, dev_c, size * sizeof(int), cudaMemcpyDeviceToHost); //拷貝結果回主機
if (cudaStatus != cudaSuccess)
{
fprintf(stderr, "cudaMemcpy failed!");
goto Error;
}
Error:
cudaFree(dev_c); //釋放GPU裝置端記憶體
cudaFree(dev_a);
cudaFree(dev_b);
return cudaStatus;
}

紅色部分即啟動核函式的呼叫過程，這裡看到呼叫方式和C不太一樣。<<<>>>表示執行時配置符號，裡面1表示只分配一個執行緒組（又稱執行緒塊、Block），size表示每個執行緒組有size個執行緒（Thread）。本程式中size根據前面傳遞引數個數應該為5，所以執行的時候，核函式在5個GPU執行緒單元上分別運行了一次，總共運行了5次。這5個執行緒是如何知道自己“身份”的？是靠threadIdx這個內建變數，它是個dim3型別變數，接受<<<>>>中第二個引數，它包含x,y,z 3維座標，而我們傳入的引數只有一維，所以只有x值是有效的。通過核函式中int i = threadIdx.x;這一句，每個執行緒可以獲得自身的id號，從而找到自己的任務去執行。

CUDA從入門到精通（五）：執行緒並行

CUDA從入門到精通（五）：執行緒並行

TensorFlow 從入門到精通（五）：使用 TensorFlow 實現 RNN

ZED-Board從入門到精通（五）：軟硬體協同設計

Scala入門系列（五）：面向對象之類

爬蟲入門系列（五）：正則表示式完全指南（上）

Linux小小白入門教程（五）：顯示和進入資料夾

Ansible入門篇（五）：Zookeeper自動化安裝

多程序與多執行緒（五）--Linux 執行緒模型的比較：LinuxThreads 和 NPTL(轉)

eXosip入門（七）：執行緒操作

Java併發程式設計（2）：執行緒中斷（含程式碼）

Java併發程式設計（3）：執行緒掛起、恢復與終止的正確方法（含程式碼）

C#：執行緒（4）：執行緒等待

C#：執行緒（3）：執行緒暫停

執行緒（二）：執行緒開啟方式與多執行緒（threading模組）

併發程式設計（一）：執行緒基礎、執行緒之間的共享與協作

Java多執行緒（一）：執行緒基礎及建立

執行緒學習（三）：執行緒的互斥

OKHttp 3.10原始碼解析（一）：執行緒池和任務佇列

併發集合（五）使用執行緒安全的、帶有延遲元素的列表

（五）java 執行緒池工作佇列

CUDA從入門到精通（五）：執行緒並行

相關推薦