c++的矩陣乘法加速trick

阿新 • • 發佈：2019-02-05

最近讀RNNLM的原始碼，發現其實現矩陣乘法時使用了一個trick，這裡描述一下這個trick。

首先是正常版的矩陣乘法（其實是矩陣乘向量）

void matrixXvector(float* destvect, float* srcmatrix, int srcmatrix_rownum, int srcmatrix_colnum, float* srcvect, int srcvect_size){
    for(int row=0;row<srcmatrix_rownum;++row){
        destvect[row]=0;
        for(int col=0;col<srcmatrix_colnum;++col){
            destvect[row]+=srcmatrix[row*srcmatrix_colnum+col]*srcvect[col];
        }
    }
}

就是最簡單的for迴圈，逐行逐列遍歷。

接下來是RNNLM中實現的trick版本

void matrixXvector2(float* destvect, float* srcmatrix, int srcmatrix_rownum, int srcmatrix_colnum, float* srcvect, int srcvect_size){
    int row, col;
    float val1, val2, val3, val4;
    float val5, val6, val7, val8;
    
    for(row=0;row<srcmatrix_rownum/8 
;++row){
        val1 = 0;
        val2 = 0;
        val3 = 0;
        val4 = 0;
        val5 = 0;
        val6 = 0;
        val7 = 0;
        val8 = 0;
        
        for(col=0;col<srcmatrix_colnum;++col){
            val1+=srcmatrix[(row*8+0)*srcmatrix_colnum+col]*srcvect[col];
            val2+=srcmatrix[(row*8 
+1)*srcmatrix_colnum+col]*srcvect[col];
            val3+=srcmatrix[(row*8+2)*srcmatrix_colnum+col]*srcvect[col];
            val4+=srcmatrix[(row*8+3)*srcmatrix_colnum+col]*srcvect[col];
            val5+=srcmatrix[(row*8+4)*srcmatrix_colnum+col]*srcvect[col];
            val6+=srcmatrix[(row*8+5)*srcmatrix_colnum+col]*srcvect[col];
            val7+=srcmatrix[(row*8+6)*srcmatrix_colnum+col]*srcvect[col];
            val8+=srcmatrix[(row*8+7)*srcmatrix_colnum+col]*srcvect[col];
        }
        
        destvect[row*8+0]+=val1;
        destvect[row*8+1]+=val2;
        destvect[row*8+2]+=val3;
        destvect[row*8+3]+=val4;
        destvect[row*8+4]+=val5;
        destvect[row*8+5]+=val6;
        destvect[row*8+6]+=val7;
        destvect[row*8+7]+=val8;
        
    }
    
    for(row=row*8;row<srcmatrix_rownum;++row){
        for(col=0;col<srcmatrix_colnum;++col){
            destvect[row]+=srcmatrix[row*srcmatrix_colnum+col]*srcvect[col];    
        }
    }
}

對比普通版，trick版把遍歷行的for迴圈分成了8份，同時進行列遍歷。

實際測試中，這個trick版比普通版快了接近2倍~這是編譯器優化造成的麼……？

參考：http://www.cnblogs.com/plwang1990/p/4139357.html

c++的矩陣乘法加速trick

最近讀RNNLM的原始碼，發現其實現矩陣乘法時使用了一個trick，這裡描述一下這個trick。首先是正常版的矩陣乘法（其實是矩陣乘向量） void matrixXvector(float* destvect, float* srcmatrix, int srcmatrix_rownum, int sr

C++矩陣乘法計算 || GPU && CPU 實現

前言矩陣乘法運算是機器學習的基礎。比如，卷積神經網路通過矩陣化輸入資料，然後通過矩陣乘法計算獲得結果。而效能對於演算法是至關重要的事情，所以本文主要介紹c++呼叫普通的矩陣乘法庫進行計算，以及通過cuda計算矩陣乘法。C++常用cblas庫加速cpu上的矩陣

C#矩陣乘法

/// <summary> /// <summary> /// 矩陣乘法 /// </summary>

模板C++ 02數論算法 4矩陣乘法

矩陣快速冪行數正方形 eof str memset isp images 矩陣乘法：用來求某種遞推關系。矩陣相乘只有在第一個矩陣的列數和第二個矩陣的行數相同時才有意義。定義設A為A*M的矩陣，B為M*B的矩陣，那麽矩陣C為矩陣A與B的乘積，其中矩陣C中的第i行

矩陣乘法來加速遞推式計算

span code 分享 pow quic mage src .com image Codevs1281: 給你6個數，m, a, c, x0, n, g Xn+1 = ( aXn + c ) mod m，求Xn 計算遞推式，運用矩陣來進行計算加速然後註意用類似快速冪的

C++ 方矩陣乘法 + Strassen矩陣

這幾天看演算法導論，看到矩陣一章，就實現了一下。下面是普通的矩陣乘法，複雜度為：n^3。 template<unsigned M,unsigned N, unsigned Q> void Square_matrix_multiply(int(&A)[M][

矩陣乘法模板C/C++

由於矩陣相乘是諸多演算法中的基礎，就像乘法之於快速冪一樣，所以有必要熟練掌握，以下模板是我個人覺得用起來比較方便的，但是隨著時間遷移肯定是需要對其進行精進的。程式碼示例： struct Matrix{ int n,m; int v[maxn][maxn]; Matrix(int

ncnn 框架分析 openmp多核加速快取仿存 cache 快速矩陣乘法單指令多資料指令SIMD

ncnn 框架分析本文github連結在ncnn中建立新層 ncnn 下載編譯使用參考1 參考2 1. param 和 bin 檔案分析 param 7767517 # 檔案頭魔數 75 83 # 層數量輸入輸出blob數量

字串加括號問題（矩陣乘法組合問題）C++

矩陣乘法加括號問題給定一個長度的字串，很明顯是可以加括號(矩陣乘法的結合律) 所以，一共有多少種加括號的方式呢? 給出了計算總共有多少這樣組合例如：下面這個串，輸入的長度為4。 ABCD 所有

CCF NOI1050. 矩陣乘法 (C++)

1050. 矩陣乘法題目描述計算兩個矩陣的乘法。nm階的矩陣A乘以mk階的矩陣B得到的矩陣C 是n*k階的，且C[i][j] = A[i][0]*B[0][j] + A[i][1]*B[1][j] + …… +A[i][m-1]*B[m-1]j。輸入第一行為n,

Codeforces Round #118 (Div. 2) :C （矩陣快速冪）類似與斐波那契+矩陣乘法

如圖：就是求第n個圖形的上三角形的個數。設f[n]為第n個圖形的上三角的個數 g[n]為第n個圖形的下三角的個數則有： f[n]=3*f[n-1]+g[n-1]; g[n]=3*g[n-1]+f[n-1]; 可以用矩陣快速冪解決。 #include<iostr

C語言之兩矩陣乘法的實現

首先我們要清楚矩陣乘法實現需要滿足的條件，矩陣相乘最重要的方法是一般矩陣乘積。它只有在第一個矩陣的列數（column）和第二個矩陣的行數（row）相同時才有意義[1] 。一般單指矩陣乘積時，指的便是一般矩陣乘積。一個m×n的矩陣就是m×n個數排成m行n列的一

C語言矩陣乘法（指標實現）

這是C和指標書上的一道題，充分體現了指標實現陣列操作的過程 void matrix_multiply( int *m1, int *m2, int *r, int x, int y, int z ) { regist

cublas中執行矩陣乘法運算的函式首先要注意的是cublas使用的是以列為主的儲存方式，和c/c++中的以行為主的方式是不一樣的。處理方法可參考下面的註釋程式碼

cublas中執行矩陣乘法運算的函式首先要注意的是cublas使用的是以列為主的儲存方式，和c/c++中的以行為主的方式是不一樣的。處理方法可參考下面的註釋程式碼 cublas中執行矩陣乘法運算的函式首先要注意的是cublas使用的是以列為主的儲存方式，和c/c+

遞推式計算與矩陣乘法 C++

以斐波那契數列為例，計算斐波那契數列的矩陣方法程式碼如下：（快速冪、矩陣乘法）《挑戰程式設計競賽第二版》P199 #include<iostream> #include<vect

【神經網路與深度學習】【C/C++】使用blas做矩陣乘法

#define min(x,y) (((x) < (y)) ? (x) : (y)) #include <stdio.h> #include <stdlib.h> #include <cublas_v2.h> #include <iostream>

c++ struct下的矩陣乘法

潘塔納爾沼澤地號稱世界上最大的一塊溼地，它地位於巴西中部馬託格羅索州的南部地區。每當雨季來臨，這裡碧波盪漾、生機盎然，引來不少遊客。為了讓遊玩更有情趣，人們在池塘的中央建設了幾座石墩和石橋，每座石橋連線著兩座石墩，且每兩座石墩之間至多隻有一座石橋。這個景點造好之後一直沒敢對外開放，原因是池塘裡有不少危險的

【BZOJ2553】[BeiJing2011]禁忌 AC自動機+期望DP+矩陣乘法

現在 using put 重疊 [0 return name 概念註意【BZOJ2553】[BeiJing2011]禁忌 Description Magic Land上的人們總是提起那個傳說：他們的祖先John在那個東方島嶼幫助Koishi與其姐姐

【BZOJ4870】組合數問題 [矩陣乘法][DP]

mes def online cli char spa ++ soft sed 組合數問題 Time Limit: 10 Sec Memory Limit: 512 MB[Submit][Status][Discuss] Description 　　

【矩陣乘法】CDOJ1610 黑紅梅方

ios tdi using long spa iostream for fin opera 考慮用4^n-不存在連續4個相同的。 f(i,j,k,l)表示以i為結尾的序列，最後三位分別是j,k,l時的方案。可以轉移，寫一個64*64的轉移矩陣。貌似可以優化？……未完待續

c++的矩陣乘法加速trick

相關推薦