CUDA動態庫封裝以及呼叫

阿新 • • 發佈：2019-01-04

參考：http://blog.sina.com.cn/s/blog_618941f701016d26.html

通過將CUDA相關計算操作放在庫中，方便在專案中呼叫，省去了每次編譯cu檔案的麻煩，也便於整合到其他平臺上。

本文配置：VS2015 CUDA8.0

一、封裝CUDA動態庫

主要步驟：修改自定義方式、設定cu檔案項型別為CDUA CC++ ，新增依賴庫cudart.lib.

1、建立一個動態庫，這裡建的庫是x86的，也可以更改為x64.

2、新增cu檔案

3、源程式內容

CudaDll32.h

// 下列 ifdef 塊是建立使從 DLL 匯出更簡單的
// 巨集的標準方法。此 DLL 中的所有檔案都是用命令列上定義的 CUDADLL32_EXPORTS
// 符號編譯的。在使用此 DLL 的
// 任何其他專案上不應定義此符號。這樣，原始檔中包含此檔案的任何其他專案都會將
// CUDADLL32_API 函式視為是從 DLL 匯入的，而此 DLL 則將用此巨集定義的
// 符號視為是被匯出的。
#ifdef CUDADLL32_EXPORTS
#define CUDADLL32_API __declspec(dllexport)
#else
#define CUDADLL32_API __declspec(dllimport)
#endif

extern "C" CUDADLL32_API int vectorAdd(int c[], int a[], int b[], int size);

kernel.cu

#include "cuda_runtime.h"  
#include "device_launch_parameters.h"    
#include "CudaDll32.h"


//CUDA核函式  
__global__ void addKernel(int *c, const int *a, const int *b)
{
	int i = threadIdx.x;
	c[i] = a[i] + b[i];
}


//向量相加  
CUDADLL32_API int vectorAdd(int c[], int a[], int b[], int size)
{
	int result = -1;
	int *dev_a = 0;
	int *dev_b = 0;
	int *dev_c = 0;
	cudaError_t cudaStatus;

	// 選擇用於執行的GPU  
	cudaStatus = cudaSetDevice(0);
	if (cudaStatus != cudaSuccess) {
		result = 1;
		goto Error;
	}

	// 在GPU中為變數dev_a、dev_b、dev_c分配記憶體空間.  
	cudaStatus = cudaMalloc((void**)&dev_c, size * sizeof(int));
	if (cudaStatus != cudaSuccess) {
		result = 2;
		goto Error;
	}
	cudaStatus = cudaMalloc((void**)&dev_a, size * sizeof(int));
	if (cudaStatus != cudaSuccess) {
		result = 3;
		goto Error;
	}
	cudaStatus = cudaMalloc((void**)&dev_b, size * sizeof(int));
	if (cudaStatus != cudaSuccess) {
		result = 4;
		goto Error;
	}

	// 從主機記憶體複製資料到GPU記憶體中.  
	cudaStatus = cudaMemcpy(dev_a, a, size * sizeof(int), cudaMemcpyHostToDevice);
	if (cudaStatus != cudaSuccess) {
		result = 5;
		goto Error;
	}
	cudaStatus = cudaMemcpy(dev_b, b, size * sizeof(int), cudaMemcpyHostToDevice);
	if (cudaStatus != cudaSuccess) {
		result = 6;
		goto Error;
	}

	// 啟動GPU核心函式  
	addKernel << <1, size >> >(dev_c, dev_a, dev_b);

	// 採用cudaDeviceSynchronize等待GPU核心函式執行完成並且返回遇到的任何錯誤資訊  
	cudaStatus = cudaDeviceSynchronize();
	if (cudaStatus != cudaSuccess) {
		result = 7
		goto Error
	}

	// 從GPU記憶體中複製資料到主機記憶體中  
	cudaStatus = cudaMemcpy(c, dev_c, size * sizeof(int), cudaMemcpyDeviceToHost);
	if (cudaStatus != cudaSuccess) {
		result = 8;
		goto Error;
	}

	result = 0;

	// 重置CUDA裝置，在退出之前必須呼叫cudaDeviceReset  
	cudaStatus = cudaDeviceReset();
	if (cudaStatus != cudaSuccess) {
		return 9;
	}
Error:
	//釋放裝置中變數所佔記憶體  
	cudaFree(dev_c);
	cudaFree(dev_a);
	cudaFree(dev_b);

	return result;
}

4、修改專案的自定義方式為：CUDA8.0

5、修改cu檔案的項型別

6、新增連結器的附加依賴項 cudart.lib

7、生成DLL檔案

二、呼叫動態庫

建立一個控制檯工程，呼叫庫三步驟：

呼叫原始碼：包含標頭檔案、並把dll檔案拷貝到可行性目錄下

// CallCudaDll32.cpp : 定義控制檯應用程式的入口點。
//

#include "stdafx.h"
#include "CudaDll32.h"
int main()
{
	const int arraySize = 5;
	int a[arraySize] = { 11, 22, 33, 44, 55 };
	int b[arraySize] = { 10, 20, 30, 40, 50 };
	int c[arraySize] = { 0 };

	// Add vectors in parallel.  
	int number = vectorAdd(c, a, b, arraySize);
	printf("{11,22,33,44,55} + {10,20,30,40,50} = {%d,%d,%d,%d,%d}\n",
		c[0], c[1], c[2], c[3], c[4]);
	printf("呼叫CUDA成功！\n");
	return 0;
}

結果顯示：

CUDA動態庫封裝以及呼叫

參考：http://blog.sina.com.cn/s/blog_618941f701016d26.html 通過將CUDA相關計算操作放在庫中，方便在專案中呼叫，省去了每次編譯cu檔案的麻煩，也便於整合到其他平臺上。本文配置：VS2015 CUDA8.0 一、封裝

Ｃ＋＋動態庫封裝及呼叫

https://blog.csdn.net/zhangfuliang123/article/details/71515796 一直對動態庫的封裝理解不是很透徹，雖然之前寫過一個Demo，不過並沒有真正的理解。所以寫下來，幫助自己理解下。 1、一個程式從原始檔編譯生成可執行檔

Linux動態庫生成以及呼叫

Linux下動態庫檔案的檔名形如 libxxx.so，其中so是 Shared Object 的縮寫，即可以共享的目標檔案。在連結動態庫生成可執行檔案時，並不會把動態庫的程式碼複製到執行檔案中，而是在執行檔案中記錄對動態庫的引用。程式執行時，再去載入動態庫檔案。如果動態庫已經載入，則不必重複

windows 下C++動態庫的封裝以及呼叫

1、一個程式從原始檔編譯生成可執行檔案的步驟：預編譯 --> 編譯 --> 彙編 --> 連結(1)預編譯，即預處理，主要處理在原始碼檔案中以“#”開始的預編譯指令，如巨集展開、處理條件編譯指令、處理#include指令等。(2)編譯過程就是把預處理完的檔案進行一系列

c++動態庫封裝及調用（1、動態庫介紹）

oca 新版本指令二進制運行時失去理論 load 程序 1、一個程序從源文件編譯生成可執行文件的步驟：預編譯 --> 編譯 --> 匯編 --> 鏈接 (1)預編譯，即預處理，主要處理在源代碼文件中以“#”開始的預編譯指令，如宏展開、處理條

靜態庫和動態庫的相互呼叫

在windows程式設計中，經常會遇到靜態庫裡呼叫動態庫的問題。具體方法： 1，編寫一個動態連結庫，生成。 2，編寫一個靜態連結庫，裡面包含步驟1生成的動態連結庫的標頭檔案和lib, dll。 3，在呼叫該靜態連結庫時，將步驟2中的靜態連結庫的標頭檔案,lib檔案以及動態

c++動態庫生成與呼叫

一、生成動態庫（含標頭檔案、不含標頭檔案）以生成dllTest.dll為例（工程名為dllTest、標頭檔案名為dllTest.h、原始檔名為dllTest.cpp） 1.1 不含標頭檔案的動態庫我們生成的動態庫想要被別人呼叫，那麼一定要將想要被呼叫的函式匯出，使用

linux Qt 動態庫製作以及使用方法

一、Qt動態庫的製作（1）、新建選擇目錄選擇需要的模組，如果需要介面則選擇QtGui等。（2）、編寫簡單程式碼以及編譯編寫簡單的列印程式碼，然後點選執行，之後彈出如下視窗：點選“取消”，之後可在工程目錄下找到這就是我們需要的動態連結庫。二

Linux連結庫三（C跟C++之間動態庫的相互呼叫）

http://www.cppblog.com/wolf/articles/74928.html http://www.cppblog.com/wolf/articles/77828.html http://www.jb51.net/article/34990.htm extern "C"的理解：很多人認

linux 靜態庫動態庫封裝問題

在Linux下類庫主要有靜態庫和動態庫兩種庫，首先呢，就說說這兩種庫的差異：靜態庫：在程式連線的時候會自動的連線到程式裡，所以一但編譯完成，靜態庫也就不需要了。靜態庫通常以.a結尾。

神經網路-3層BP網的VC動態庫封裝

神經網路-3層BP網的VC動態庫封裝實現<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /> 神經網路是一個大範疇,這裡討論誤差反向傳播網路(BP網路) ,基本原

windows 下C++動態庫的封裝以及調用

文件鏈接系列語義分析 ++ 動態鏈接中大動態 turn 應用 1、一個程序從源文件編譯生成可執行文件的步驟：預編譯 --> 編譯 --> 匯編 --> 鏈接(1)預編譯，即預處理，主要處理在源代碼文件中以“#”開始的預編譯指令，如宏展開、處理條

簡單動態庫以及呼叫動態庫例子

動態庫的寫法，以前沒有寫過動態庫，憑第六感覺應該很簡單。but，我卻在網上找資料時，沒有一個例子是我想要的，簡單又能說明問題。以至於耗費了大量的時間。以下例子是用C語言編寫，編譯環境為vs2015。//-------------------------------------

Linux動態庫.a與動態庫.so的生成與區別、以及.so庫檔案的封裝與使用

一、前言如果有公司需要使用你們產品的一部分功能(通過程式碼呼叫這些功能)，如果不想提供原始碼，那麼就可以通過封裝成庫檔案的形式提供給對方使用。本文主要介紹了生成動態庫與靜態庫檔案的過程、以及封裝和使用庫檔案的方法。二、靜態庫.a與動態庫.so的生成與

C#呼叫C/C++動態庫，封裝各種複雜結構體。

現在公司要做一個使用C#程式呼叫C++的一個DLL庫，解析檔案的功能。所以在網上找了一些資料。一、結構體傳遞 #define JNAAPI extern "C" __declspec(dllexport) // C方式匯出函式 typedef str

C呼叫C++動態庫以及靜態連結庫

最近想在TI DM8168 上使用live555，但是Ti的程式碼都是C的，而live555是C++編寫。於是就想通過吧live555編譯為C庫，就到網上探尋方法，現在總結如下： C++ 檔案編譯庫， C++介面檔案編譯為庫，C檔案呼叫C++介面即可。 OS ： Ubunt

linux下python呼叫C++動態庫以及庫函式

C++:首先C++需要編譯成動態共享庫C++程式碼（cpptest.cpp）如下------#include<iostream>using namespace std;extern "C"{//在extern “C”中的函式才能被外部呼叫int test(){

關於QT呼叫MFC動態庫時傳遞中文字元亂碼問題

凡是亂碼，一定是解碼方式不對，在此做個小小的總結。 MFC CString和QT QString都採用unicode編碼 MFC中的char *採用GBK編碼，QT中的char *採用UTF-8編碼，這裡關於字元的編碼，有個規律就是和原始碼檔案儲存的編一致。

2017.10.11 C#呼叫C++ 動態庫記憶體溢位問題

最近在寫C#呼叫C++ 動態庫的例子，發現使用Stringbuider 時，重複使用時容易造成記憶體溢位的問題，網上查了之後發現可以使用 Stringbuider .Remove(0, Stringbuider .Length)方法，但是經過測試後並沒有解決問題。後來經過仔細分析，

Delphi XE7呼叫C++動態庫出現亂碼問題

事情源於有個客戶需使用我們C++的中介軟體動態庫來跟裝置連線通訊，但是傳入以及傳出的字串指標格式都不正確（出現亂碼或是被截斷），估計是字元編碼的問題導致。以下是解決問題的過程：我們C++中介軟體動態庫的介面函式宣告： extern "C" bool __stdcall Exec

CUDA動態庫封裝以及呼叫

相關推薦