使用 CUBLAS 庫給矩陣運算提速

阿新 • • 發佈：2019-02-06

前言

　　編寫 CUDA 程式真心不是個簡單的事兒，除錯也不方便，很費時。那麼有沒有一些現成的 CUDA 庫來呼叫呢？

　　答案是有的，如 CUBLAS 就是 CUDA 專門用來解決線性代數運算的庫。

　　本文將大致介紹如何使用 CUBLAS 庫，同時演示一個使用 CUBLAS 庫進行矩陣乘法的例子。

CUBLAS 內容

　　CUBLAS 是 CUDA 專門用來解決線性代數運算的庫，它分為三個級別：

　　Lev1. 向量相乘

　　Lev2. 矩陣乘向量

　　Lev3. 矩陣乘矩陣

　　同時該庫還包含狀態結構和一些功能函式。

CUBLAS 用法

　　大體分成以下幾個步驟：

　　1. 定義 CUBLAS 庫物件

　　2. 在視訊記憶體中為待運算的資料以及需要存放結果的變數開闢視訊記憶體空間。( cudaMalloc 函式實現 )

　　3. 將待運算的資料傳輸進視訊記憶體。( cudaMemcpy，cublasSetVector 等函式實現 )

　　3. 呼叫 CUBLAS 庫函式 ( 根據 CUBLAS 手冊呼叫需要的函式 )

　　4. 從視訊記憶體中獲取結果變數。( cudaMemcpy，cublasGetVector 等函式實現 )

　　5. 釋放申請的視訊記憶體空間以及 CUBLAS 庫物件。( cudaFree 及 cublasDestroy 函式實現 )

程式碼示例

　　如下程式使用 CUBLAS 庫進行矩陣乘法運算，請仔細閱讀註釋，尤其是 API 的引數說明：

// CUDA runtime 庫 + CUBLAS 庫 
#include "cuda_runtime.h"
#include "cublas_v2.h"

#include <time.h>
#include <iostream>

using namespace std;

// 定義測試矩陣的維度
int const M = 5;
int const N = 10;

int main() 
{   
    // 定義狀態變數
    cublasStatus_t status;

    // 在 記憶體 中為將要計算的矩陣開闢空間
    float *h_A = (float 
*)malloc (N*M*sizeof(float));
    float *h_B = (float*)malloc (N*M*sizeof(float));

    // 在 記憶體 中為將要存放運算結果的矩陣開闢空間
    float *h_C = (float*)malloc (M*M*sizeof(float));

    // 為待運算矩陣的元素賦予 0-10 範圍內的隨機數
    for (int i=0; i<N*M; i++) {
        h_A[i] = (float)(rand()%10+1);
        h_B[i] = (float)(rand()%10+1);

    }

    // 列印待測試的矩陣
    cout << "矩陣 A :" << endl;
    for (int i=0; i<N*M; i++){
        cout << h_A[i] << " ";
        if ((i+1)%N == 0) cout << endl;
    }
    cout << endl;
    cout << "矩陣 B :" << endl;
    for (int i=0; i<N*M; i++){
        cout << h_B[i] << " ";
        if ((i+1)%M == 0) cout << endl;
    }
    cout << endl;

    /*
    ** GPU 計算矩陣相乘
    */

    // 建立並初始化 CUBLAS 庫物件
    cublasHandle_t handle;
    status = cublasCreate(&handle);

    if (status != CUBLAS_STATUS_SUCCESS)
    {
        if (status == CUBLAS_STATUS_NOT_INITIALIZED) {
            cout << "CUBLAS 物件例項化出錯" << endl;
        }
        getchar ();
        return EXIT_FAILURE;
    }

    float *d_A, *d_B, *d_C;
    // 在 視訊記憶體 中為將要計算的矩陣開闢空間
    cudaMalloc (
        (void**)&d_A,    // 指向開闢的空間的指標
        N*M * sizeof(float)    //　需要開闢空間的位元組數
    );
    cudaMalloc (
        (void**)&d_B,    
        N*M * sizeof(float)    
    );

    // 在 視訊記憶體 中為將要存放運算結果的矩陣開闢空間
    cudaMalloc (
        (void**)&d_C,
        M*M * sizeof(float)    
    );

    // 將矩陣資料傳遞進 視訊記憶體 中已經開闢好了的空間
    cublasSetVector (
        N*M,    // 要存入視訊記憶體的元素個數
        sizeof(float),    // 每個元素大小
        h_A,    // 主機端起始地址
        1,    // 連續元素之間的儲存間隔
        d_A,    // GPU 端起始地址
        1    // 連續元素之間的儲存間隔
    );
    cublasSetVector (
        N*M, 
        sizeof(float), 
        h_B, 
        1, 
        d_B, 
        1
    );

    // 同步函式
    cudaThreadSynchronize();

    // 傳遞進矩陣相乘函式中的引數，具體含義請參考函式手冊。
    float a=1; float b=0;
    // 矩陣相乘。該函式必然將陣列解析成列優先陣列
    cublasSgemm (
        handle,    // blas 庫物件 
        CUBLAS_OP_T,    // 矩陣 A 屬性引數
        CUBLAS_OP_T,    // 矩陣 B 屬性引數
        M,    // A, C 的行數 
        M,    // B, C 的列數
        N,    // A 的列數和 B 的行數
        &a,    // 運算式的 α 值
        d_A,    // A 在視訊記憶體中的地址
        N,    // lda
        d_B,    // B 在視訊記憶體中的地址
        M,    // ldb
        &b,    // 運算式的 β 值
        d_C,    // C 在視訊記憶體中的地址(結果矩陣)
        M    // ldc
    );

    // 同步函式
    cudaThreadSynchronize();

    // 從 視訊記憶體 中取出運算結果至 記憶體中去
    cublasGetVector (
        M*M,    //  要取出元素的個數
        sizeof(float),    // 每個元素大小
        d_C,    // GPU 端起始地址
        1,    // 連續元素之間的儲存間隔
        h_C,    // 主機端起始地址
        1    // 連續元素之間的儲存間隔
    );

    // 列印運算結果
    cout << "計算結果的轉置 ( (A*B)的轉置 )：" << endl;

    for (int i=0;i<M*M; i++){
            cout << h_C[i] << " ";
            if ((i+1)%M == 0) cout << endl;
    }

    // 清理掉使用過的記憶體
    free (h_A);
    free (h_B);
    free (h_C);
    cudaFree (d_A);
    cudaFree (d_B);
    cudaFree (d_C);

    // 釋放 CUBLAS 庫物件
    cublasDestroy (handle);

    getchar();

    return 0;
}

　　PS：矩陣元素是隨機生成的

小結

　　1. 使用 CUDA 庫固然方便，但也要仔細的參閱函式手冊，其中每個引數的含義都要很清晰才不容易出錯。

　　2. 如果程式僅使用 CUDA 庫的話，用 .cpp 原始碼檔案即可 (不用 .cu)

使用 CUBLAS 庫給矩陣運算提速

前言　　編寫 CUDA 程式真心不是個簡單的事兒，除錯也不方便，很費時。那麼有沒有一些現成的 CUDA 庫來呼叫呢？　　答案是有的，如 CUBLAS 就是 CUDA 專門用來解決線性代數運算的庫。　　本文將大致介紹如何使用 CUBLAS 庫，同時

apache-commons-math3-科學計算類庫-支援矩陣運算

一、基本功能簡介 apache-commons-math3是java的一種科學計算類庫，實現科學計算功能的類庫其他語言如python、scala都有很多而且很容易找到資料，java可能是由於這方面的需求不多，所以相關的資料較少，在此我就簡要介紹一下apache-commons-math3，幫

C++矩陣運算庫推薦

Armadillo：C++下的Matlab替代品 Eigen3：強大且只需標頭檔案 OpenCV：方便的計算機視覺計算庫 ViennaCL：並行矩陣計算 PETSc：大規模並行科學計算其他的矩陣計算庫和資料最近在幾個地方都看到有人問C++下用什麼矩陣運算庫

異想家純C語言矩陣運算庫

　　Sandeepin最近做的專案中需要在嵌入式晶片裡跑一些演算法，而這些微控制器效能不上不下，它能跑些簡單的程式，但又還沒到上Linux系統的地步。所以只好用C語言寫一些在高階語言裡一個函式就解決的演算法了，由於演算法需要運用矩陣運算，自己就先用純C語言寫了個簡單的矩陣運

Eigen矩陣運算開源庫完全使用指南

Eigen庫是一個開源的矩陣運算庫，其利用C++模板程式設計的思想，構造所有矩陣通過傳遞模板引數形式完成。由於模板類不支援庫連結方式編譯，而且模板類要求全部寫在標頭檔案中，從而導致導致Eigen庫只能通過開源的方式供大家使用，並且只需要包含Eigen標頭檔案就能直接使用。Ei

arm平臺和相關的矩陣運算庫

一、arm平臺 ARM(Acorn RISC Machine,後改為Advanced RISC Machine)是一個32位精簡指令集（RISC）處理器架構，其廣泛地使用在許多嵌入式系統設計。類比於服務端的X86，其他的架構還有MIPS/PowerPC/DSP

Eigen矩陣運算庫使用記錄

最近一直在做工程上的事情，比較多的使用了Eigen矩陣運算庫。簡單說一下Eigen的特點： (1) 使用方便、無需預編譯，呼叫開銷小 (2) 函式豐富，風格有點近似MATLAB，易上手； (3) 速度中規中矩，比opencv快，比MKL、openBL

導數與梯度、矩陣運算性質、科學計算庫numpy

一、實驗介紹 1.1 實驗內容雖然在實驗一中我想盡量少的引入（會讓人放棄繼續學習的）數學概念，但我似乎還是失敗了。不過這幾乎是沒有辦法的事，要想真正學會深度學習，沒有一定的數學基礎（高等數學、線性代數、概率論、資訊理論等），（幾乎）是不可能的。學深度學習不學其中的原

cublas中執行矩陣乘法運算的函式首先要注意的是cublas使用的是以列為主的儲存方式，和c/c++中的以行為主的方式是不一樣的。處理方法可參考下面的註釋程式碼

cublas中執行矩陣乘法運算的函式首先要注意的是cublas使用的是以列為主的儲存方式，和c/c++中的以行為主的方式是不一樣的。處理方法可參考下面的註釋程式碼 cublas中執行矩陣乘法運算的函式首先要注意的是cublas使用的是以列為主的儲存方式，和c/c+

Python第三方矩陣庫numpy矩陣基本運算

1、Numpy是什麼很簡單，Numpy是Python的一個科學計算的庫，提供了矩陣運算的功能，其一般與Scipy、matplotlib一起使用。其實，list已經提供了類似於矩陣的表示形式，不過numpy為我們提供了更多的函式。如果接觸過matlab、scilab，那

Spark上矩陣運算庫(六)——高階矩陣操作2

Logistic Regression Logistic Regression是廣義線性迴歸模型的代表，在迴歸問題中具有廣泛的應用。Logstic Regression是在普通的線性迴歸模型基礎上發展出來的，它將線性擬合的物件從因變數y變為因變數的對數機率 log p/(1-p) 。其主要演算法同普通的線

3 Spark機器學習 spark MLlib 矩陣向量、矩陣運算Breeze庫-1

機器學習裡矩陣是必不可少的，無論Python、Java能做機器學習的語言，都會提供比較優質的矩陣庫。 spark mllib中提供的矩陣庫是Breeze，可以簡單看看Breeze庫的情況。 ScalaNLP是一套機器學習和數值計算的庫，主要是關於科學計算、機器學習和自

安裝向量和矩陣運算庫函數

strong 矩陣運算 release 運算 html 步驟 esc truct vim 平臺信息 Description: CentOS Linux release 7.6.1810 (Core) 註意事項安裝BLAS之前需要：安裝 GCC/GFortr

HDOJ 題目5097 Page Rank（矩陣運算，模擬）

java several similar padding ora ont ria render car Page Rank Time Limit: 3000/1500 MS (Java/Others) Memory Limit: 100000/10000

HDU多校賽第9場 HDU 4965Fast Matrix Calculation【矩陣運算+數學小知識】

stdin amp line you stream [] nbsp content ans 難度上。，，確實。。。不算難問題是有個矩陣運算的優化題目是說給個N*K的矩陣A給個K*N的矩陣B（1<=N<=1000 && 1=<K<

Python學習筆記5 【轉載】基本矩陣運算_20170618

ros class 簡單 lba spa 使用常見 port 模塊需要 numpy 庫支持保存鏈接 http://www.cnblogs.com/chamie/p/4870078.html 1.numpy的導入和使用 from numpy import *;

python中的矩陣運算

創建二維 style ron -h courier strong random 轉置 1.numpy的導入和使用 from numpy import *;#導入numpy的庫函數import numpy as np; #這個方式使用numpy的函數時，需要以np.開頭。

numpy數組、向量、矩陣運算

bool zip github 詳細 spa one num 切片 rod 可以來我的Github看原文，歡迎交流。 https://github.com/AsuraDong/Blog/blob/master/Articles/%E6%9C%BA%E5%99%A8%E5%A

Eigen中的noalias()：解決矩陣運算的混淆問題

需要右值什麽原因 lan sin 一個 eba ner 作者：@houkai本文為作者原創，轉載請註明出處：http://www.cnblogs.com/houkai/p/6349990.html 目錄混淆例子解決混淆問題混淆和component級的操作。混淆

MATLAB矩陣運算 MATLAB對數組運算在符號上做了不同的約定，運算符形式為：.* , ./ , . , .^

行數內部 .cn 直接 mage 嚴格 fff col ges 矩陣的創建：直接輸入法：行與行之間必須用分號“ ；”，每行中的元素用逗號“ ，”或空格分隔 x=linspace(a,b,n) 生成有 n 個元素的行向量 x，其元素值在 a、 b 之間線性分布利用內部

使用 CUBLAS 庫給矩陣運算提速

相關推薦