CUDA程式設計實戰——並行向量求和

阿新 • • 發佈：2018-12-31

多個並行執行緒塊完成兩個向量的求和：

程式碼如下（使用了10個並行執行緒塊）：

#include <iostream>  
#include "book.h"

using namespace std;

#define N   10

__global__ void add(int *a, int *b, int *c) {
	//blockIdx表示並行執行緒塊的索引
	int tid = blockIdx.x;    //計算該索引處的資料
	if (tid < N)
		c[tid] = a[tid] + b[tid];
}

int main(void) {
	int a[N], b[N], c[N];
	int *dev_a, *dev_b, *dev_c;

	//在GPU上分配記憶體
	HANDLE_ERROR(cudaMalloc((void**)&dev_a, N * sizeof(int)));
	HANDLE_ERROR(cudaMalloc((void**)&dev_b, N * sizeof(int)));
	HANDLE_ERROR(cudaMalloc((void**)&dev_c, N * sizeof(int)));

	//在CPU上為a和b賦值
	for (int i = 0; i<N; i++) {
		a[i] = -i;
		b[i] = i * i;
	}

	//將陣列a和b複製到GPU
	HANDLE_ERROR(cudaMemcpy(dev_a, a, N * sizeof(int),
		cudaMemcpyHostToDevice));
	HANDLE_ERROR(cudaMemcpy(dev_b, b, N * sizeof(int),
		cudaMemcpyHostToDevice));

	//N表示在執行核函式時使用的並行執行緒塊的數量
	add << <N, 1 >> >(dev_a, dev_b, dev_c);

	//將陣列c從GPU複製到CPU
	HANDLE_ERROR(cudaMemcpy(c, dev_c, N * sizeof(int),
		cudaMemcpyDeviceToHost));

	for (int i = 0; i<N; i++) {
		printf("%d + %d = %d\n", a[i], b[i], c[i]);
	}

	//釋放在GPU上釋放的記憶體
	HANDLE_ERROR(cudaFree(dev_a));
	HANDLE_ERROR(cudaFree(dev_b));
	HANDLE_ERROR(cudaFree(dev_c));
	
	system("pause");
	return 0;
}

執行結果：

CUDA程式設計實戰——並行向量求和

多個並行執行緒塊完成兩個向量的求和：程式碼如下（使用了10個並行執行緒塊）：#include <iostream> #include "book.h" using namespace

CUDA程式設計--實現並行矩陣乘法【80行程式碼】

簡述這裡只寫了方陣之間的乘法，但是本質上都是一樣的。我測試過100規模的方陣之間的乘法，沒有問題。程式碼讀取檔案data.txt 資料格式就是一個數值N，然後來連續的兩個N*N的矩陣。用空格隔開。 #include "cuda

CUDA程式設計--簡單程式--向量加一

配置配置的話，根據網上的教程配置就好了，基本上都沒問題。程式碼下面是將某個陣列的位置都加一個一。 #include "cuda_runtime.h" #include "device_launch_parameters.h" #include <

CUDA程式設計--並行矩陣向量乘法【80+行程式碼】

簡述矩陣向量乘法。讀取檔案data.txt 並輸入到output.txt檔案中用typedef方便的修改資料型別（要是寫成模板也是可以的）程式碼 #include "cuda_runtime.h" #include "device_lau

GPGPU-Sim：一款支援Nvidia的CUDA和OpenCL並行程式設計模型的模擬器

GPGPU-Sim Welcome to the GPGPU-Sim webpage. GPGPU-Sim provides a detailed simulation model of a contemporary GPU (such as NVIDIA's Fermi

《JAVA併發程式設計實戰》避免活躍性危險

文章目錄死鎖鎖順序死鎖動態的鎖順序死鎖在協作物件之間發生的死鎖開放呼叫資源死鎖死鎖的避免和診斷支援定時的鎖使用執行緒轉儲資訊來分析死鎖其他活躍性危

《JAVA併發程式設計實戰》取消和關閉

文章目錄引言任務取消中斷中斷策略響應中斷示例：計時執行通過Future來實現取消處理不可中斷的阻塞採用newTaskFor封裝非標準的取消停止基於執行緒的服務

《JAVA併發程式設計實戰》任務執行

文章目錄線上程中執行任務序列執行任務顯式的為任務建立執行緒無限制建立執行緒的不足 Executor框架示例：基於Executor的Web伺服器執行策略執行緒池 Exe

《JAVA併發程式設計實戰》基礎構建模組

文章目錄同步容器類同步容器類的問題迭代器和ConcurrentModificationException 隱藏迭代器併發容器 ConcurrentHashMap 額外的原子Map操作

《JAVA併發程式設計實戰》物件的組合

文章目錄設計執行緒安全的類找出構成物件狀態的所有變數示例找出約束狀態變數的不變性條件例項封閉 java監視器模式示例：車輛追蹤執行緒安全性的委託

【java併發程式設計實戰】—–執行緒基本概念

轉自 http://cmsblogs.com/?p=1638 共享和可變要編寫執行緒安全的程式碼，其核心在於對共享的和可變的狀態進行訪問。 “共享”就意味著變數可以被多個執行緒同時訪問。我們知道系統中的資源是有限的，不同的執行緒對資源都是具有著同等的使用權。有限、公平就意味著競爭

讀書筆記（java併發程式設計實戰——CompletionService）

原文請參考微信公眾號（歡迎關注公眾號：coding_song）：https://mp.weixin.qq.com/s/R50Eh4kTDtA031i-yMUZAw Callable&Future Callbale描述的是抽象的計算任務，有明確的起點，並且最終會結束

Python & C/C++聯合程式設計實戰-夏曹俊-專題視訊課程

Python & C/C++聯合程式設計實戰—143人已學習課程介紹一環境準備和Python語法快速入門二 Python CTypes訪問C/C++動態連結庫三

生物資訊程式設計實戰題

目錄 1.生信程式設計很簡單程式語言系統入門題目下載安裝bowtie2（內含測試資料） 2.人類基因組的外顯子區域的長度題目測試資料 R實現程式碼示例 3.hg19基因組序列的一些探究題目測試資料 Perl程式碼示例

CUDA程式設計（七）共享記憶體與Thread的同步

https://blog.csdn.net/sunmc1204953974/article/details/51078818 CUDA程式設計（七）共享記憶體與Thread的同步在之前我們通過block，繼續增大了執行緒的數量，結果還是比較令人滿意的，但是也產生了一

程式設計實戰篇——Spring Boot 自動配置實現

基於Spring Boot自動配置的思想封裝起來，使其他Spring Boot專案引入後能夠進行快速配置。AutoConfiguration Spring Boot的一個重要特性就是提供了各種各樣的AutoConfiguration。例如DataSourceAutoConfiguration。這樣我們只需要在

CUDA 六從並行排序方法理解並行化思維——冒泡歸併雙調排序的GPU實現

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Java併發程式設計實戰 - 學習筆記

第2章執行緒安全性 1. 基本概念什麼是執行緒安全性？可以這樣理解：一個類在多執行緒環境下，無論執行時環境怎樣排程，無論多個執行緒之間的執行順序是什麼，且在主調程式碼中不需要進行任何額外的同步，如果該類都能呈現出預期的、正確的行為，那麼該類就是執行緒安全的。既然這樣，那麼安

團隊現場程式設計實戰

一、組員職責分工及貢獻分學號成員分工貢獻分 031602428 蘇路明整合程式碼，抽獎演算法實現部分 12 031602401 陳瀚霖設計演算法、文

福大軟工1816：團隊現場程式設計實戰（抽獎系統）

福大軟工1816 · 團隊現場程式設計實戰（抽獎系統）組長部落格連結本次作業連結隊員職責分工團隊成員分工張揚預處理演算法、抽獎演算法、解決其他問題、本次部落格撰寫韞月 "建立抽獎

CUDA程式設計實戰——並行向量求和

相關推薦