CUDA動態庫封裝以及呼叫
阿新 • • 發佈:2019-01-04
參考:http://blog.sina.com.cn/s/blog_618941f701016d26.html
通過將CUDA相關計算操作放在庫中,方便在專案中呼叫,省去了每次編譯cu檔案的麻煩,也便於整合到其他平臺上。
本文配置:VS2015 CUDA8.0
一、封裝CUDA動態庫
主要步驟:修改自定義方式、設定cu檔案項型別為CDUA CC++ ,新增依賴庫cudart.lib.
1、建立一個動態庫,這裡建的庫是x86的,也可以更改為x64.
2、新增cu檔案
3、源程式內容
CudaDll32.h
kernel.cu// 下列 ifdef 塊是建立使從 DLL 匯出更簡單的 // 巨集的標準方法。此 DLL 中的所有檔案都是用命令列上定義的 CUDADLL32_EXPORTS // 符號編譯的。在使用此 DLL 的 // 任何其他專案上不應定義此符號。這樣,原始檔中包含此檔案的任何其他專案都會將 // CUDADLL32_API 函式視為是從 DLL 匯入的,而此 DLL 則將用此巨集定義的 // 符號視為是被匯出的。 #ifdef CUDADLL32_EXPORTS #define CUDADLL32_API __declspec(dllexport) #else #define CUDADLL32_API __declspec(dllimport) #endif extern "C" CUDADLL32_API int vectorAdd(int c[], int a[], int b[], int size);
4、修改專案的自定義方式為:CUDA8.0#include "cuda_runtime.h" #include "device_launch_parameters.h" #include "CudaDll32.h" //CUDA核函式 __global__ void addKernel(int *c, const int *a, const int *b) { int i = threadIdx.x; c[i] = a[i] + b[i]; } //向量相加 CUDADLL32_API int vectorAdd(int c[], int a[], int b[], int size) { int result = -1; int *dev_a = 0; int *dev_b = 0; int *dev_c = 0; cudaError_t cudaStatus; // 選擇用於執行的GPU cudaStatus = cudaSetDevice(0); if (cudaStatus != cudaSuccess) { result = 1; goto Error; } // 在GPU中為變數dev_a、dev_b、dev_c分配記憶體空間. cudaStatus = cudaMalloc((void**)&dev_c, size * sizeof(int)); if (cudaStatus != cudaSuccess) { result = 2; goto Error; } cudaStatus = cudaMalloc((void**)&dev_a, size * sizeof(int)); if (cudaStatus != cudaSuccess) { result = 3; goto Error; } cudaStatus = cudaMalloc((void**)&dev_b, size * sizeof(int)); if (cudaStatus != cudaSuccess) { result = 4; goto Error; } // 從主機記憶體複製資料到GPU記憶體中. cudaStatus = cudaMemcpy(dev_a, a, size * sizeof(int), cudaMemcpyHostToDevice); if (cudaStatus != cudaSuccess) { result = 5; goto Error; } cudaStatus = cudaMemcpy(dev_b, b, size * sizeof(int), cudaMemcpyHostToDevice); if (cudaStatus != cudaSuccess) { result = 6; goto Error; } // 啟動GPU核心函式 addKernel << <1, size >> >(dev_c, dev_a, dev_b); // 採用cudaDeviceSynchronize等待GPU核心函式執行完成並且返回遇到的任何錯誤資訊 cudaStatus = cudaDeviceSynchronize(); if (cudaStatus != cudaSuccess) { result = 7 goto Error } // 從GPU記憶體中複製資料到主機記憶體中 cudaStatus = cudaMemcpy(c, dev_c, size * sizeof(int), cudaMemcpyDeviceToHost); if (cudaStatus != cudaSuccess) { result = 8; goto Error; } result = 0; // 重置CUDA裝置,在退出之前必須呼叫cudaDeviceReset cudaStatus = cudaDeviceReset(); if (cudaStatus != cudaSuccess) { return 9; } Error: //釋放裝置中變數所佔記憶體 cudaFree(dev_c); cudaFree(dev_a); cudaFree(dev_b); return result; }
5、修改cu檔案的項型別
6、新增連結器的附加依賴項 cudart.lib
7、生成DLL檔案
二、呼叫動態庫
建立一個控制檯工程,呼叫庫三步驟:
呼叫原始碼:包含標頭檔案、並把dll檔案拷貝到可行性目錄下
結果顯示:// CallCudaDll32.cpp : 定義控制檯應用程式的入口點。 // #include "stdafx.h" #include "CudaDll32.h" int main() { const int arraySize = 5; int a[arraySize] = { 11, 22, 33, 44, 55 }; int b[arraySize] = { 10, 20, 30, 40, 50 }; int c[arraySize] = { 0 }; // Add vectors in parallel. int number = vectorAdd(c, a, b, arraySize); printf("{11,22,33,44,55} + {10,20,30,40,50} = {%d,%d,%d,%d,%d}\n", c[0], c[1], c[2], c[3], c[4]); printf("呼叫CUDA成功!\n"); return 0; }