cuda練習（一）：使用cuda將rbg影象轉為灰度影象

阿新 • • 發佈：2018-12-17

建立工程

使用cmake建立工程，CMakeLists.txt如下：

cmake_minimum_required(VERSION 2.8)
project(image_process)
find_package(OpenCV REQUIRED)   #會去找FindXXX.cmake或XXXConfig.cmake，從而返回一些變數
find_package(CUDA REQUIRED)     #REQUIRED代表如果找不到就會報錯
cuda_add_executable(image_process main.cu)
target_link_libraries(image_process ${OpenCV_LIBS})

疑點尚未解決：cuda_add_executable是如何指定呼叫NVCC進行編譯的，如何用其他方式制定nvcc編譯

編寫程式碼

程式碼思路很簡單，就是用cuda、cpu、cv::cvtColor都執行一遍彩色圖轉灰度圖的演算法，對比一下執行時間

cuda 程式

每一個thread處理一個畫素，執行緒網格與執行緒塊設定如下：

dim3 threadsPerBlock(32, 32);
dim3 blocksPerGrid((imgwidth + threadsPerBlock.x - 1) / threadsPerBlock.x,
        (imgheight + threadsPerBlock.y - 1) / threadsPerBlock.y);

kernel函式編寫如下：

__global__ void rgb2grayincuda(uchar3 * const d_in, unsigned char * const d_out, 
                                uint imgheight, uint imgwidth)
{
    const unsigned int idx = blockIdx.x * blockDim.x + threadIdx.x;
    const unsigned int idy = blockIdx.y * blockDim.y + threadIdx.y;
    
    if (idx < imgwidth && idy < imgheight)
    {
        uchar3 rgb = d_in[idy * imgwidth + idx];
        d_out[idy * imgwidth + idx] = 0.299f * rgb.x + 0.587f * rgb.y + 0.114f * rgb.z;
    }
}

kernel函式比較tricky的一點是，對於不能被執行緒塊整除的情況，有一些執行緒是全程不工作的

測速時注意，要使用cudaDeviceSynchronize()函式來同步cpu和gpu，否則測出來的速度是cpu啟動核心函式的速度

cpu 遍歷函式

函式介面同kernel函式，使用指標遍歷元素：

void rgb2grayincpu(unsigned char * const d_in, unsigned char * const d_out,
                                uint imgheight, uint imgwidth)
{
    for(int i = 0; i < imgheight; i++)
    {
        for(int j = 0; j < imgwidth; j++)
        {
            d_out[i * imgwidth + j] = 0.299f * d_in[(i * imgwidth + j)*3]
                                     + 0.587f * d_in[(i * imgwidth + j)*3 + 1]
                                     + 0.114f * d_in[(i * imgwidth + j)*3 + 2];
        }
    }
}

*3那裡坑了我不少時間，果然還是太年輕

測速結果

cuda	cpu	cv::cvtColor
0.00077100	0.00244700	0.09298100

發現cuda為cpu的1/3，並沒有想象中提速快，有可能是因為執行緒塊設定的不合理導致的；反倒是opencv的cvtColor函式，比cuda和cpu慢了一個數量級。

猜想：如果一個執行緒處理多個畫素，興許會快 疑點：為什麼opencv的cvtColor會這麼慢

原始碼

#include <iostream>
#include <time.h>
#include "opencv2/highgui.hpp"  //實際上在/usr/include下
#include "opencv2/opencv.hpp"
using namespace cv;
using namespace std;

#define PAUSE printf("Press Enter key to continue..."); fgetc(stdin);

__global__ void rgb2grayincuda(uchar3 * const d_in, unsigned char * const d_out, 
                                uint imgheight, uint imgwidth)
{
    const unsigned int idx = blockIdx.x * blockDim.x + threadIdx.x;
    const unsigned int idy = blockIdx.y * blockDim.y + threadIdx.y;
    
    if (idx < imgwidth && idy < imgheight)
    {
        uchar3 rgb = d_in[idy * imgwidth + idx];
        d_out[idy * imgwidth + idx] = 0.299f * rgb.x + 0.587f * rgb.y + 0.114f * rgb.z;
    }
}

void rgb2grayincpu(unsigned char * const d_in, unsigned char * const d_out,
                                uint imgheight, uint imgwidth)
{
    for(int i = 0; i < imgheight; i++)
    {
        for(int j = 0; j < imgwidth; j++)
        {
            d_out[i * imgwidth + j] = 0.299f * d_in[(i * imgwidth + j)*3]
                                     + 0.587f * d_in[(i * imgwidth + j)*3 + 1]
                                     + 0.114f * d_in[(i * imgwidth + j)*3 + 2];
        }
    }
}

int main(void)
{
    Mat srcImage = imread("./test.jpg");
    imshow("srcImage", srcImage);
    waitKey(0);

    const uint imgheight = srcImage.rows;
    const uint imgwidth = srcImage.cols;

    Mat grayImage(imgheight, imgwidth, CV_8UC1, Scalar(0));

    uchar3 *d_in;
    unsigned char *d_out;

    cudaMalloc((void**)&d_in, imgheight*imgwidth*sizeof(uchar3));
    cudaMalloc((void**)&d_out, imgheight*imgwidth*sizeof(unsigned char));

    cudaMemcpy(d_in, srcImage.data, imgheight*imgwidth*sizeof(uchar3), cudaMemcpyHostToDevice);
    
    dim3 threadsPerBlock(32, 32);
    dim3 blocksPerGrid((imgwidth + threadsPerBlock.x - 1) / threadsPerBlock.x,
        (imgheight + threadsPerBlock.y - 1) / threadsPerBlock.y);

    clock_t start, end;
    start = clock();

    rgb2grayincuda<< <blocksPerGrid, threadsPerBlock>> >(d_in, d_out, imgheight, imgwidth);

    cudaDeviceSynchronize();
    end = clock();

    printf("cuda exec time is %.8f\n", (double)(end-start)/CLOCKS_PER_SEC);

    cudaMemcpy(grayImage.data, d_out, imgheight*imgwidth*sizeof(unsigned char), cudaMemcpyDeviceToHost);

    cudaFree(d_in);
    cudaFree(d_out);

    start = clock();

    rgb2grayincpu(srcImage.data, grayImage.data, imgheight, imgwidth);

    end = clock();

    printf("cpu exec time is %.8f\n", (double)(end-start)/CLOCKS_PER_SEC);

    start = clock();
    cvtColor(srcImage, grayImage, CV_BGR2GRAY);

    end = clock();

    printf("opencv-cpu exec time is %.8f\n", (double)(end-start)/CLOCKS_PER_SEC);

    imshow("grayImage", grayImage);
    waitKey(0);

    return 0;

}

cuda練習（一）：使用cuda將rbg影象轉為灰度影象

建立工程使用cmake建立工程，CMakeLists.txt如下： cmake_minimum_required(VERSION 2.8) project(image_process) find_package(OpenCV REQUIRED) #會去找F

每天學CUDA（一）： cuda的julia集執行錯誤解決辦法

錯誤一： julia_gpu.cu(42): error: calling a host function("cuComplex::cuComplex") from a __device__/__global__ function("julia") is not allow

Hive 實戰練習（一）—按照日期將每天的資料匯入Hive表中

需求：每天會產生很多的日誌檔案資料，有這麼一種需求：需要將每天產生的日誌資料在晚上12點鐘過後定時執行操作，匯入到Hive表中供第二天資料分析使用。要求建立分割槽表，並按照日期分割槽。資料檔案命名是以當天日期命名的，如2015-01-09.txt一、建立分割

CUDA實例練習（九）：頁鎖定主機內存

png blog 分配 pydev art event http tdi dev malloc()分配的內存與cudaHostAlloc()分配的內存之間存在著一個重要差異。C庫函數malloc()將分配標準的，可分頁的（Pagable)主機內存，而cudaHo

CUDA實例練習（十）：多個cuda流

events get 所有 float speed print main rand free 1 #include <stdio.h> 2 #include <cuda_runtime.h> 3 #include <device_

Ubuntu16.04：CUDA學習筆記（一）：GPU背景知識

host：CPU，記憶體 device：GPU，視訊記憶體我是純粹小白，裡面的一些圖是根據我自己的理解畫的，可能並不一定對一，GPU和CPU執行程式的區別（圖片來源：CUDA_C_Programming-Guide）可以看到GPU有跟多的cores，你可以先把cores理

CUDA學習筆記（一）：GPU背景知識

host：CPU，記憶體 device：GPU，視訊記憶體我是純粹小白，裡面的一些圖是根據我自己的理解畫的，可能並不一定對 GPU的背景知識 GPU的每一個core（計算核心）都有兩個計算單元輸

CUDA從入門到精通（一）：環境搭建

NVIDIA於2006年推出CUDA（Compute Unified Devices Architecture），可以利用其推出的GPU進行通用計算，將平行計算從大型叢集擴充套件到了普通顯示卡，使得使用者只需要一臺帶有Geforce顯示卡的筆記本就能跑較大規模的並行處理程式

百度地圖API繪製計程車流向地圖（一）：將起始GPS點對映到地圖上

打算在年前實現用百度地圖API繪製NYC計程車流向地圖。目前實現了將出租車的起始點的GPS點對映到地圖上，繪製了GPS點的熱力圖。記錄在此。所用資料：NYC綠色計程車資料時間：2016.01.01 0:00-24:00 共24小時 GPS點個數：64398 繪圖方式：熱力圖百度地圖

CUDA入門（一）

最近我也都在看CUDA，自己看書和練習也都搞了一個月了。而且經常在CSDN上逛，也發現了很多問題，所以決定自己寫點這方面的東西，方便自己也方便後來人。根據我的調查，我發現現在的初學者大都是非計算機專業的，都是一些行業內部的人士，比如地震勘探，生物學，流體力學和氣象等等這些應用領域的人在學，像我

GPU 程式設計入門到精通（一）之 CUDA 環境安裝

博主由於工作當中的需要，開始學習 GPU 上面的程式設計，主要涉及到的是基於 GPU 的深度學習方面的知識，鑑於之前沒有接觸過 GPU 程式設計，因此在這裡特地學習一下 GPU 上面的程式設計。有志同道合的小夥伴，歡迎一起交流和學習，我的郵箱: [email protected] 。使用的是自

深度學習實踐操作—從小白到大白（五）：cuda & cudnn安裝

深度學習實踐操作—從小白到大白目錄五. cuda & cudnn安裝 1. CUDA8.0安裝及配置 sudo dpkg -i cuda-repo-ubuntu1604-8-0-rc_8.0.27-1_am

嵌入式程式設計（一）：51微控制器如何將函式定義到指定程式地址

開發十年，就只剩下這套架構體系了！ >>>

工作流引擎Oozie（一）：workflow

觸發 line last ssa pig oozie apt cnblogs 定時任務 1. Oozie簡介 Yahoo開發工作流引擎Oozie（馭象者），用於管理Hadoop任務（支持MapReduce、Spark、Pig、Hive），把這些任務以DAG（有向無環圖）方式

Spring 事務配置實戰（一）：過濾無需事務處理的查詢之類操作

log pla ssi pan spl tail gif aop img <tx:advice id="txAdvice" transaction-manager="transactionManager"> <tx:attributes

【SSH之旅】一步步學習Hibernate框架（一）：關於持久化

stc localhost 對象 schema hbm.xml java let pass [] 在不引用不論什麽框架下，我們會通過平庸的代碼不停的對數據庫進行操作，產生了非常多冗余的可是又有規律的底層代碼，這樣頻繁的操作數據庫和大量的底層代碼的反復

CS231n（一）：基礎知識

深度學習 highlight 自己元組 .py [0 upper bsp python 給自己新挖個坑：開始刷cs231n深度學習。看了一下導言的pdf，差缺補漏。 s = "hello" print s.capitalize() # 首字母大寫; prints "

Javascript基礎簡單匯總（一）：元素獲取

問題元素節點 all push 傳說 length [] nbsp 文檔在頁面腳本中，如果要對頁面元素進行操作，那麽我們就要獲取到這個元素那麽在獲取元素之前首先得要了解什麽是DOM（document object model）在DOM，元素是以節點的形式表示的，每

elastic-job詳解（一）：數據分片

count 任務不同的應該 center shc 偶數 int ext 數據分片的目的在於把一個任務分散到不同的機器上運行，既可以解決單機計算能力上限的問題，也能降低部分任務失敗對整體系統的影響。elastic-job並不直接提供數據處理的功能，框架只會將分片項分配至各

中國mooc北京理工大學機器學習第二周（一）：分類

kmeans 方法輸入 nump arr mod 理工大學 each orm 一、K近鄰方法（KNeighborsClassifier）使用方法同kmeans方法，先構造分類器，再進行擬合。區別是Kmeans聚類是無監督學習，KNN是監督學習，因此需要劃分出訓練集和測試

cuda練習（一）：使用cuda將rbg影象轉為灰度影象

建立工程

編寫程式碼

cuda 程式

cpu 遍歷函式

測速結果

原始碼

相關推薦