cuda程式設計與gpu平行計算（三）：一個小demo瞭解cuda基本語法

阿新 • • 發佈：2021-01-10

技術標籤：cuda gpu

gpu程式的一般步驟

CPU分配空間給GPU（cudaMalloc）
CPU複製資料給GPU（cudaMemcpy）
CPU載入kernels給GPU做計算（Kernel核: 可以理解為C/C++中的一個函式function）
CPU把GPU計算結果複製回來

過程中，一般要儘量降低資料通訊的消耗，所以如果程式需要複製大量的資料到GPU，顯然不是很合適使用GPU運算，最理想的情況是，每次複製的資料很小，然後運算量很大，輸出的結果還是很小，複製回CPU。

先做一個小demo，對一個8位陣列求平方，很簡單
global 關鍵字那個函式就是在GPU上執行，我們先寫完kernel，那還需要從cpu拿資料過去也就是上面的1和2 這裡我們為了區分cpu和gpu變數，用h_表示cpu變數（host），用d_表示gpu變數（device），host和device我們在之前的概論提了這裡就不解釋了。

#include <stdio.h>

//這個就是kernel
__global__ void square(float* d_out,float* d_in){
  int idx = threadIdx.x;
  float f = d_in[idx];
  d_out[idx] = f * f;
}

int main(int argc,char** argv){
  const int ARRAY_SIZE = 8;
  const int ARRAY_BYTES = ARRAY_SIZE * sizeof(float);

  // 在cpu中定義要輸入的陣列
  float 
 h_in[ARRAY_SIZE];
  for(int i=0;i<ARRAY_SIZE;i++){
    h_in[i] = float(i);
  }
  float h_out[ARRAY_SIZE];

  // 宣告gpu指標
  float* d_in;
  float* d_out;

  // 對應1步驟，給gpu指標分配記憶體空間，和cpu上的資料空間一樣大
  cudaMalloc((void**) &d_in,ARRAY_BYTES);
  cudaMalloc((void**) &d_out,ARRAY_BYTES);

  // 對應步驟2，把cpu資料複製給gpu 

  cudaMemcpy(d_in,h_in,ARRAY_BYTES,cudaMemcpyHostToDevice);

  // 對應步驟3，把kernel也就是square，載入到gpu上執行，1是一個執行緒塊，其中有64個執行緒，1個時鐘週期就可以結束運算
  square<<<1,ARRAY_SIZE>>>(d_out,d_in);

  // 對應步驟4，把gpu資料複製給cpu
  cudaMemcpy(h_out,d_out,ARRAY_BYTES,cudaMemcpyDeviceToHost);

  // 輸入結果
  for(int i=0;i<ARRAY_SIZE;i++){
    printf("%f",h_out[i]);
    printf(((i%4) != 3) ? "\t" : "\n");
  }

  // 釋放記憶體
  cudaFree(d_in);
  cudaFree(d_out);

  return 0;


}

那我們執行一下看看，先編譯，cuda 程式字尾是.cu

nvcc -o square square.cu

在這裡插入圖片描述 square就是我們剛編譯出來的程式

執行一下看看
在這裡插入圖片描述結果就是0-7的平方，正確

cuda程式設計與gpu平行計算（三）：一個小demo瞭解cuda基本語法

技術標籤：cudagpu gpu程式的一般步驟 CPU分配空間給GPU（cudaMalloc）CPU複製資料給GPU（cudaMemcpy）CPU載入kernels給GPU做計算（Kernel核: 可以理解為C/C++中的一個函式function）CPU把GPU計算結果複製回來

C#可擴充套件程式設計之MEF學習筆記（三）：匯出類的方法和屬性

前面說完了匯入和匯出的幾種方法，如果大家細心的話會注意到前面我們匯出的都是類，那麼方法和屬效能不能匯出呢？？？答案是肯定的，下面就來說下MEF是如何匯出方法和屬性的。

Spring Boot （三）： ORM 框架 JPA 與連線池 Hikari

前面兩篇文章我們介紹瞭如何快速建立一個 Spring Boot 工程《Spring Boot（一）：快速開始》和在 Spring Boot 中如何使用模版引擎 Thymeleaf 渲染一個Web頁面《Spring Boot （二）：模版引擎 Thymeleaf 渲染 Web 頁

Docker實用技巧（三）：容器與主機之間的埠對映

docker容器想要實現一些網路通訊的功能，就需要埠對映，這裡想實現三個目標：埠對映、多埠對映、xshell遠端登陸docker容器。

php socket網路程式設計基礎知識（三）：stream函式

說明流，算是一種對不同事物，但有相同特性的抽象封裝，可能這樣說並不理解，但是我們早就使用過了，例如開啟檔案fopen等操作，其實就是用的流，fopen(\'abc.txt\')實際上就是fopen(\'file://abc.txt\')，或者是與

資料結構與演算法之美（三）——演算法

　　《資料結構與演算法之美》是極客時間上的一個演算法學習系列，在學習之後特在此做記錄和總結。

Javascript模組化程式設計（三）：require.js的用法

Javascript模組化程式設計（三）：require.js的用法 js程式碼越寫越多，一個檔案肯定是不夠用的，必須分成多個檔案，依次載入，這樣載入的缺點就是載入的時候，瀏覽器會停止網頁渲染。載入的檔案越多，網頁失去響應的

Java 高併發程式設計與詳解筆記（一）-- 初識 Java 執行緒

原文連結：Java 高併發程式設計與詳解筆記（一）-- 初識 Java 執行緒從今天開始擼汪文君的《Java 高併發程式設計詳解（多執行緒與架構設計）》，做的筆記可能跟書上的目錄有所不同，純屬按照自己的理解重新構造一下

實時電商數倉（二十四）之實時計算（三）日活處理模組（三）日活資料查詢介面

日活資料查詢介面 1訪問路徑總數 http://publisher:8070/realtime-total?date=2019-02-01 分時統計

在idea中建立maven,啟動與部署微服務（三）

續......啟動與部署微服務 1、建立入口類檔案： 2、建立控制層檔案： 3、啟動服務：

計算複雜性讀書筆記（三）：同構，自指，停機問題

2019獨角獸企業重金招聘Python工程師標準>>> 很久以前，舉國興盛各種仙術邪道，每個派別的高德大師會給弟子們傳授獨門心法，通俗地來講就是“怎麼快速地獲得幸福”，每次傳授完了之後，他們會

我與Hive的不解之謎系列（三）：Hive的分割槽表和分桶表及SQL知識

目錄本篇內容 1.複習回顧 2.hive中的分割槽表 3.hive中的分桶表 4.SQL的快速複習複習回顧

資料結構與演算法碎片積累（三）

技術標籤：C++ 前言：遞迴、分治、字串匹對演算法。個人感覺似懂非懂，先總結下來吧。開始之前，先說一下我對上面幾個的基本理解： 1）遞迴：相同步驟，不斷呼叫自身，但是需要設定終止條件（常規套路，先假設步

自定義View專案實戰（三）：Path與貝塞爾曲線

技術標籤：androidjava貝塞爾曲線安卓android 原理貝塞爾曲線的點型別作用資料點確定曲線的起始和結束位置控制點確定曲線的彎曲程度

Python學習筆記（三）：與ROS相關

技術標籤：Python學習筆記後續會不斷補充。。。。。。。。。 __name__屬性 __name__是python的一個內建類屬性，它天生就存在於一個 python 程式中，代表對應程式名稱。

Flink實戰（八十四）：flink-sql使用（十一）Flink 與 hive 結合使用（三）Hive Dialect

技術標籤：Flink入門宣告：本系列部落格是根據SGG的視訊整理而成，非常適合大家入門學習。

前端之變（三）：變革與突破

本週，我將繼續就前端之變闡述自己的思考，這一次講到前端之變的重點：變革與突破

前端常見程式設計題（三）：輪播圖

不多說了，上硬貨 html程式碼： css程式碼： * { margin: 0; padding: 0; } .box { width: 602px; height: 402px;

實習週記（三）：學了一半的spring security，看了一遍的swagger，不太熟悉的定時與郵件

SpringSecurity 提供了一套Web應用安全性的完整解決方案使用者認證驗證某個使用者是否為系統中的合法主體，通俗意義上為系統驗證使用者是否能夠登入

豬齒魚的微服務之路（三）：服務註冊與發現

本文主要介紹豬齒魚微服務架構中註冊中心的實現，涉及：服務註冊/發現、服務登錄檔、健康檢查。