CUDA共享內存的使用示例

阿新 • • 發佈：2017-12-08

blocks col all square 歸約如果 ont 位置 nload

CUDA共享內存使用示例如下：參考教材《GPU高性能編程CUDA實戰》。P54-P65

教材下載地址：http://download.csdn.net/download/yizhaoyanbo/10150300。如果沒有下載分可以評論區留下郵箱，我發你。

 1 #include <cuda.h>
 2 #include <cuda_runtime.h>
 3 #include <device_launch_parameters.h>
 4 #include <device_functions.h>
 5 #include <iostream>
 6 #include <string 
>
 7 
 8 using namespace std;
 9 
10 #define imin(a,b) (a<b? a:b)
11 const int N = 33 * 1024;
12 const int threadsPerBlock = 256;
13 const int blocksPerGrid = imin(32, (N + threadsPerBlock - 1) / threadsPerBlock);
14 
15 __global__  void dot(float *a, float *b, float *c)
16 {
17     __shared__ float 
 cache[threadsPerBlock];
18     int tid = threadIdx.x + blockDim.x*blockIdx.x;
19     int cacheIndex = threadIdx.x;
20 
21     float temp = 0;
22     //每個線程負責計算的點乘，再加和
23     while (tid<N)
24     {
25         temp += a[tid] * b[tid];
26         tid += blockDim.x*gridDim.x;
27     }
28     
29     //每個線程塊中線程計算的加和保存到緩沖區cache，一共有blocksPerGrid個緩沖區副本 

30     cache[cacheIndex] = temp;
31     //對線程塊中的線程進行同步
32     __syncthreads();
33 
34     //歸約運算，將每個緩沖區中的值加和，存放到緩沖區第一個元素位置
35     int i = blockDim.x / 2;
36     while (i != 0)
37     {
38         if (cacheIndex < i)
39         {
40             cache[cacheIndex] += cache[cacheIndex + i];
41         }
42         __syncthreads();
43         i /= 2;
44     }
45     //使用第一個線程取出每個緩沖區第一個元素賦值到C數組
46     if (cacheIndex == 0)
47     {
48         c[blockIdx.x] = cache[0];
49     }
50 }
51 
52 void main()
53 {
54     float *a, *b, c, *partial_c;
55     float *dev_a, *dev_b, *dev_partial_c;
56 
57     //分配CPU內存
58     a = (float*)malloc(N * sizeof(float));
59     b = (float*)malloc(N * sizeof(float));
60     partial_c = (float*)malloc(blocksPerGrid * sizeof(float));
61 
62     //分配GPU內存
63     cudaMalloc(&dev_a, N * sizeof(float));
64     cudaMalloc(&dev_b, N * sizeof(float));
65     cudaMalloc(&dev_partial_c, blocksPerGrid * sizeof(float));
66 
67     float sum = 0;
68     for (int i = 0; i < N; i++)
69     {
70         a[i] = i;
71         b[i] = i * 2;
72     }
73 
74     //將數組上傳到GPU
75     cudaMemcpy(dev_a, a, N * sizeof(float), cudaMemcpyHostToDevice);
76     cudaMemcpy(dev_b, b, N * sizeof(float), cudaMemcpyHostToDevice);
77 
78     dot << <blocksPerGrid, threadsPerBlock >> > (dev_a, dev_b, dev_partial_c);
79 
80     cudaMemcpy(partial_c, dev_partial_c, blocksPerGrid * sizeof(float), cudaMemcpyDeviceToHost);
81     
82     //CPU 完成最終求和
83     c = 0;
84     for (int i = 0; i < blocksPerGrid; i++)
85     {
86         c += partial_c[i];
87     }
88 
89 #define sum_squares(x) (x*(x+1)*(2*x+1)/6)
90     printf("does GPU value %.6g = %.6g?\n", c, 2 * sum_squares((float)(N - 1)));
91 
92     cudaFree(dev_a);
93     cudaFree(dev_b);
94     cudaFree(dev_partial_c);
95 
96     free(a);
97     free(b);
98     free(partial_c);
99 }

CUDA共享內存的使用示例

blocks col all square 歸約如果 ont 位置 nload CUDA共享內存使用示例如下：參考教材《GPU高性能編程CUDA實戰》。P54-P65 教材下載地址：http://download.csdn.net/download/yizhaoyanbo

cuda GPU 編程之共享內存的使用

ret 指定大小最新宏定義編程 int 重要 core 申請　　原理上來說，共享內存是GPU上可受用戶控制的一級緩存。在一個SM中，存在著若幹cuda core + DP(雙精度計算單元) + SFU（特殊函數計算單元）+共享內存+常量內存+紋理內存。相對於全局內存

擼代碼--linux進程通信（基於共享內存）

-- log pac 字符指針 clas fcn eno csdn printf 1.實現親緣關系進程的通信，父寫子讀思路分析：1)首先我們須要創建一個共享內存。 2)父子進程的創建要用到fork函數。fork函數創建後，兩

共享內存簡介

快速需要 mmu 寫鎖 htm arch 相關 justify class http://www.cnblogs.com/mydomain/archive/2011/09/14/2175351.html 原理：地址空間：一個連續的內存地址單元物理地址空間：物理內存地址

system v 共享內存區

include system #include<sys/shm.h> int shmget(key_t key,size_t size,int oflag); 返回：成功則為共享內存區對象，出錯為-1 key 的值可以是ftok的返回值，也可以是IPC_PRIVA

SAP內存、ABAP內存、共享內存的區別

用戶 cti 語句 strong 使用 append 共享 str 區別區別：（1）SAP內存使用 SET/GET parameters 方法； SET PARAMETER ID ‘MAT’ field P_MATNR. GET PARAMETER ID ‘

共享內存：全雙工匿名管道

pid 共享內存 sign 全雙工 -1 clean clu .cpp child //main.cpp #include <iostream> #include <string.h> #include <stdlib.h> #inc

C# .Net 多進程同步通信共享內存內存映射文件 Memory Mapped

sum stream 空間 charset 管理器 vid hal interop 分隔節點通信存在兩種模型：共享內存（Shared memory）和消息傳遞（Messages passing）。內存映射文件對於托管世界的開發人員來說似乎很陌生，但它確

C擴展從共享內存shm到memcache外部內存

ans quest jca com dai cheng cab hang c擴展 %E5%B8%B8%E7%94%A8%E6%95%B0%E6%8D%AE%E4%B8%8EVARIANT%E4%B9%8B%E9%97%B4%E7%9A%84%E8%BD%AC%E6%8D%A

一起talk C栗子吧（第九十六回：C語言實例--使用共享內存進行進程間通信二）

class mar net 表示 func clas ber 數字標記各位看官們。大家好，上一回中咱們說的是使用共享內存進行進程間通信的樣例，這一回咱們接著上一回內容繼續說使用共享內存進行進程間通信。閑話休提，言歸正轉。讓我們一起talk C栗子

擼代碼--類QQ聊天實現(基於linux 管道信號共享內存)

time 針對 -s .net water pos 關閉 mes sigint 一：任務描寫敘述 A，B兩個進程通過管道通信，像曾經的互相聊天一樣，然後A進程每次接收到的數據通過A1進程顯示（一個新進程，用於顯示A接收到的信息），A和A1

linux 實現共享內存同步

def 利用 reat 控制 six 初始 pri 程序其中本文主要對實現共享內存同步的四種方法進行了介紹。共享內存是一種最為高效的進程間通信方式，進程可以直接讀寫內存，而不需要任何數據的拷貝。它是IPC對象的一種。為了在多個進程間交換信息，內核專門留出了一塊內存區

Linux進程間通信--共享內存

system v 共享內存

print usr ftok 新的 byte ipc 共享 err turn #include <stdio.h> #include <string.h> #include <errno.h> #include <unistd.h

共享內存

pac www. www spa 內存 target face get mcs 2萊嗇0pF副新9展HXNhttp://www.facebolw.com/space/2103211/following f舅仆孤7T9方銜7耘LBRhttp://www.facebolw.c

共享內存基本操作

not key 有用 private ddr wall 數據 reat note 共享內存使用的函數介紹 1. shmget函數該函數用來創建共享內存: int shmget(key_t key, size_t size, int shmflg); 參數: key : 和

Windows上C++使用共享內存進行進程間通訊

strcpy 其他 turn 讀寫 int view 實現 define 能夠共享內存 (也叫內存映射文件) 主要是通過映射機制實現的 , Windows 下進程的地址空間在邏輯上是相互隔離的 , 但在物理上卻是重疊的 ; 所謂的重疊是指同一塊內存區域可能被多個進程同時

UNIX C XSI_IPC對象、共享內存

include rdo -- ipc 內存 gid 命令 mdt 用戶id 1.創建IPC對象　　 #include <sys/ipc.h> key_t ftok(const char* pathname,int proj_id); 成功返回可用於創建或

37. Python 多進程鎖多進程共享內存

python 多進程鎖共享內存Lock組件當我們用多進程來讀寫文件的時候，如果一個進程是寫文件，一個進程是讀文件，如果兩個文件同時進行，肯定是不行的，必須是文件寫結束後，才可以進行讀操作。或者是多個進程在共享一些資源的時候，同時只能有一個進程進行訪問，那就需要鎖機制進行控制。需求：一個進程寫入一個文件，

day37——多進程鎖、多進程共享內存

對象設置高級 join() time pos name 狀態讀文件 Lock組件當我們用多進程來讀寫文件的時候，如果一個進程是寫文件，一個進程是讀文件，如果兩個文件同時進行，肯定是不行的，必須是文件寫結束以後，才可以進行讀操作。或者是多個進程在共享一些資源的時候，同

CUDA共享內存的使用示例

相關推薦