一個程式來比較cuda/c在GPU/CPU的執行效率

阿新 • • 發佈：2019-01-30

在網上看了一個比較GPU和CPU執行矩陣運算效率的帖子，親自跑了一下。

這是一個CUDA語言程式，請儲存為“檔名.cu”。我的主機配置如下：

CPU:G2030；記憶體8GB；顯示卡：GTX750ti。

程式碼如下所示：

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include <stdio.h>
#include <time.h>

#define N (1024*1024)
#define M (10000)
#define THREADS_PER_BLOCK 1024

void serial_add(double *a, double *b, double *c, int n, int m)
{
    for(int index=0;index<n;index++)
    {
        for(int j=0;j<m;j++)
        {
            c[index] = a[index]*a[index] + b[index]*b[index];
        }
    }
}

__global__ void vector_add(double *a, double *b, double *c)
{
    int index = blockIdx.x * blockDim.x + threadIdx.x;
        for(int j=0;j<M;j++)
        {
            c[index] = a[index]*a[index] + b[index]*b[index];
        }
}

int main()
{
    clock_t start,end;

    double *a, *b, *c;
    int size = N * sizeof( double );

    a = (double *)malloc( size );
    b = (double *)malloc( size );
    c = (double *)malloc( size );

    for( int i = 0; i < N; i++ )
    {
        a[i] = b[i] = i;
        c[i] = 0;
    }

    start = clock();
    serial_add(a, b, c, N, M);

    printf( "c[%d] = %f\n",0,c[0] );
    printf( "c[%d] = %f\n",N-1, c[N-1] );

    end = clock();

    float time1 = ((float)(end-start))/CLOCKS_PER_SEC;
    printf("CPU: %f seconds\n",time1);

    start = clock();
    double *d_a, *d_b, *d_c;


    cudaMalloc( (void **) &d_a, size );
    cudaMalloc( (void **) &d_b, size );
    cudaMalloc( (void **) &d_c, size );


    cudaMemcpy( d_a, a, size, cudaMemcpyHostToDevice );
    cudaMemcpy( d_b, b, size, cudaMemcpyHostToDevice );

    vector_add<<< (N + (THREADS_PER_BLOCK-1)) / THREADS_PER_BLOCK, THREADS_PER_BLOCK >>>( d_a, d_b, d_c );

    cudaMemcpy( c, d_c, size, cudaMemcpyDeviceToHost );


    printf( "c[%d] = %f\n",0,c[0] );
    printf( "c[%d] = %f\n",N-1, c[N-1] );


    free(a);
    free(b);
    free(c);
    cudaFree( d_a );
    cudaFree( d_b );
    cudaFree( d_c );

    end = clock();
    float time2 = ((float)(end-start))/CLOCKS_PER_SEC;
    printf("CUDA: %f seconds, Speedup: %f\n",time2, time1/time2);

    return 0;
}

程式執行結果如下圖所示：

CPU的執行時間是GPU執行時間的10倍，這已經是一個數量級的差距了。而且，我相信隨著運算量的加大，差距會更加明顯。由此看來GPU做矩陣運算確實比CPU快太多。

原帖地址：https://my.oschina.net/zzw922cn/blog/631650

一個程式來比較cuda/c在GPU/CPU的執行效率

在網上看了一個比較GPU和CPU執行矩陣運算效率的帖子，親自跑了一下。這是一個CUDA語言程式，請儲存為“檔名.cu”。我的主機配置如下： CPU:G2030；記憶體8GB；顯示卡：GTX750ti。程式碼如下所示： #include "cuda_runtime.h

日本某地發生了一件謀殺案，警察通過排查確定殺人凶手必為4個嫌疑犯的一個。現在請根據這些資訊，寫一個程式來確定到底誰是凶手。

題目：日本某地發生了一件謀殺案，警察通過排查確定殺人凶手必為4個嫌疑犯的一個。以下為4個嫌疑犯的供詞。 A說：不是我。 B說：是C。 C說：是D。 D說：C在胡說已知3個人說了真話，

寫一個程式來模擬網橋功能。

一、實驗內容模擬實現網橋的轉發功能，以從檔案中讀取幀模擬網橋從網路中收到一幀，即從兩個檔案中讀入一系列幀，從第一個檔案中讀入一幀然後從第二個檔案中再讀入一幀，如此下去。對每一幀，顯示網橋是否會轉發。要求： Windows或Linux環境下執行，程式應在單

一個用來“拉”任務的簡單執行緒池 c#版

通常用到執行緒池時，會用到“生產者-消費者”模型。如果專案中不好實現“生產者”這一角色，而是預先開好N條執行緒，然後讓執行緒自己去“拉”任務，“拉”到有任務就處理，然後再“拉”任務，這樣實現起來很簡單，但任務的源頭若是一直沒有任務，這N條執行緒依然是不停地在

寫一個程式，既能作為Application執行也可以作為Applet程式執行。

將main方法放到類中，選擇不同的執行方式，即可實現： import java.awt.*; import java.applet.*; public class hecheng extends

Linux下使用nohup讓一個程式在退出登陸後繼續執行

Linux下如果想讓一個程式在後臺執行，很多都是使用 & 在程式結尾處來實現的，比如我們想讓mysqld在後臺執行： /usr/local/mysql/bin/mysqld_safe –user=mysql & 但是Linux下有很多程式並不像mysq

做一個程式來查詢手機號碼的歸屬地(使用的是HttpURLConnection的post提交方式)

需求 : 使用post方式向伺服器提供手機號,來查詢手機號的歸屬地思路 : 在網路上有一個web伺服器,專門用來提供手機號的歸屬地資訊, 我們要做的就是訪問該伺服器，提供手機號,然後獲取伺服器發來的響應碼, 從響應碼中解析出需要的歸屬地資訊. 步驟 :

一個可用來記錄Isilon各個節點的CPU，網絡，磁盤性能的命令

des blog 磁盤性能輸出 statistic pos ble 磁盤方便通過查看命令isi statistics system的幫助信息，拼出了下面的命令。isi statistics system list --nodes=all --degraded --fo

QDBus實現只執行一個程式並在新標籤開啟文字

深度編輯器向我們展示了程式單例並在新標籤開啟文字，我好羨慕啊！ QDBus概念太抽象，看了幾天都沒看懂，好鬱悶，然後做其他專案去了，看看電視，騎騎單車，晒晒太陽，賞賞花，然後再來看看QDBus，一句一句除錯，實驗成功後，發現QDBus更像是另一種 Signal/Slot。參考： https:/

從零開始寫一個Spark Structured Streaming程式來統計單詞個數

本文將從零開始寫一個Spark Structured Streaming程式來統計單詞的個數。單詞的來源是socket，讀者也可以換成kafka，計算的結果輸出到控制檯，讀者也可以改成輸出到kafka的某個topic。準備環境： JDK和Scala安裝，並配置好環境變數JAVA_H

已知有十六支男子足球隊參加2008 北京奧運會。寫一個程式，把這16 支球隊隨機分為4 個組。注：參賽球隊列表見附錄注2：使用Math.random 來產生隨機數。（也可以使用其它方法） 2. 2

/** * Created by whp on 2018/7/30. */ public class Test { public static void main(String[] args) { String[] str={"象牙海岸","阿根廷","澳大利亞","塞爾

#HR吐槽程式設計師30個面試者因下雨一個沒來，這種態度還想找工作？

我們每個人找工作的時候都希望有一份好工作，我們都希望輕鬆並且薪資高或者福利好，但是你想要找到這樣的工作，你還得有實力。一般人區求職的時候一般會面試多家公司，然後從職業發展、薪資待遇、員工福利等多方面考慮，然後擇優選擇！如果有想學習java的程式設計師，可來我們的java學習扣qun：723

編寫一個程式，啟動三個執行緒，三個執行緒的名稱分別是 A，B，C；每個執行緒將自己的名稱在螢幕上列印5遍，列印順序是ABCABC...

設定標誌位flag 當flag==1時，列印A 當flag==2時，列印B 當flag==3時，列印C 用count控制列印的次數，題目要求列印5遍，即15個字元這裡的用notifyAll()的原因：是要把其餘兩個全都喚醒，因為如果用notify

Java:假設車庫有3個車位（可以通過boolean[]陣列來表示車庫）可以停車，寫一個程式模擬多個使用者開車離開，停車入庫的效果。注意：車位有車時不能停車。

假設車庫有3個車位（可以通過boolean[]陣列來表示車庫）可以停車，寫一個程式模擬多個使用者開車離開，停車入庫的效果。注意：車位有車時不能停車。 1)使用阻塞佇列來實現（BlockingQueue<T>） Producer類 package com.多執行緒停車問

C# WPF開機自啟動和只允許一個程式執行

本文出自：https://www.cnblogs.com/2186009311CFF/p/10024949.html 在App.xaml.cs填充一下內容，即可實現只允許一個執行，且不解鎖螢幕的情況下，重啟執行。 public partial class App : Application

一個程式完全入門Java多執行緒

程式碼只供學習使用，實際開發中建議遵守Java開發規範，合理分包程式碼所涉及知識點：什麼是執行緒、Thread方法和Runnable介面的介紹及建立執行緒、執行緒的狀態和生命週期、sleep方法和join方法的使用、執行緒的優先順序、執行緒同步、執行緒間通訊（見另一篇文章

第一次自己比較的獨立編寫一個程式

今天對那個調查California州移民數量做的那個程式做了擴充套件：蛋疼死了本來打算另外搞一個函式來根據大州的名稱來獲取州的編號，後來發現無法輸出（自定義函式的返回值不知道怎麼讓字串輸出），結果想用那個atoi函式，不知道why不能對那個“48”進行轉換，結果又想用字串來返回，結果上網查

【OS學習筆記】十真實模式:實現一個程式載入器-程式載入器如何將使用者程式載入到記憶體並執行

上一篇文章學習了以下內容：用一種不同的分段方法，從另一個不同的的角度理解處理器的分段記憶體訪問機制使用迴圈和條件轉移指令來優化主引導扇區程式碼點選連結檢視上一篇文章：點選連結檢視對於主引導扇區部分。大概前幾篇文章已經學的差不多了。現在是時候跳過主引

Linux下檢視某一個程式執行所佔用的記憶體【轉】

第一種方式 top -p 程序號 [[email protected] micro-service]$ top -p 20490 top - 16:50:32 up 6 days, 2:18, 1 user, load average: 0.00,

linux程式設計--在子程序中執行一個與其父程序完全不同的另外一個程式

//pipe3.c //在子程序中執行一個與其父程序完全不同的另外一個程式：利用exec呼叫 //使用兩個程式： //1.資料生產者，用來建立管道和啟動子程序pipe3.c //2.資料消費者,pipe4.c #include <unistd.h> #include <stdlib

一個程式來比較cuda/c在GPU/CPU的執行效率

相關推薦