Openblas加速三維矩陣卷積操作

阿新 • • 發佈：2019-02-07

接上個部落格（http://blog.csdn.net/samylee/article/details/73252715）所講，這篇博文介紹如何用openblas加速三維矩陣。

程式碼如下（以下程式經博主測試準確無誤）：

標頭檔案function.h

//function.h
//cblas加速三維矩陣卷積操作
//注意：stride=1
//作者：samylee

#ifndef FUNCTION_H
#define FUNCTION_H

#include <cblas.h>  
#include <iostream>

using namespace std;

//A加pad的計算
void comput_Apad(const int pad_w, const int Map, const int channel, float *A_pad, const float *A);

//pad_A的轉換，以適用於Openblas
void convertA(float *A_convert, const int outM, const int convAw, const int pad_w, float *A_pad, const int channel);

//kernel轉換以適用於openblas
void convertB(const int convAw, const int channel, float *B, float *B_convert);

//Openblas矩陣乘積計算
void Matrixmul_blas(const int convAh, const int convAw, float *A_convert, float *B_convert, float *C, const int channel);

//轉換C為常用矩陣排列
void convertC(const int channel, const int convAh, float *C_convert, float *C);

//驗證結果是否正確
void evaluate_blas(const int channel, const int Map, const float *A, const int Kernel, const float *B, const int outM, float *C_convert);

#endif // !FUNCTION_H

函式檔案function.cpp

//function.cpp
//cblas加速三維矩陣卷積操作
//注意：stride=1
//作者：samylee

#include "function.h"

//A加pad的計算
void comput_Apad(const int pad_w, const int Map, const int channel, float *A_pad, const float *A)
{
	int pad_one_channel = pad_w*pad_w;
	int org_one_channel = Map*Map;
	for (int c = 0; c < channel; c++)
	{
		for (int i = 0; i < pad_w; i++)
		{
			for (int j = 0; j < pad_w; j++)
			{
				int col = c*pad_one_channel + i*pad_w + j;

				if (i == 0 || i == pad_w - 1)
				{
					A_pad[col] = 0;
				}
				else
				{
					if (j == 0 || j == pad_w - 1)
					{
						A_pad[col] = 0;
					}
					else
					{
						A_pad[col] = A[c*org_one_channel + (i - 1)*Map + j - 1];
					}
				}
			}
		}
	}
}

//pad_A的轉換，以適用於Openblas
void convertA(float *A_convert, const int outM, const int convAw, const int pad_w, float *A_pad, const int channel)
{
	int pad_one_channel = pad_w*pad_w;
	int seg = channel * convAw;
	for (int c = 0; c < channel; c++)
	{
		for (int i = 0; i < outM; i++)
		{
			for (int j = 0; j < outM; j++)
			{
				int wh = c*convAw + i * outM * seg + j * seg;

				int col1 = c*pad_one_channel + i * pad_w + j;
				A_convert[wh] = A_pad[col1];
				A_convert[wh + 1] = A_pad[col1 + 1];
				A_convert[wh + 2] = A_pad[col1 + 2];

				int col2 = c*pad_one_channel + (i + 1) * pad_w + j;
				A_convert[wh + 3] = A_pad[col2];
				A_convert[wh + 4] = A_pad[col2 + 1];
				A_convert[wh + 5] = A_pad[col2 + 2];

				int col3 = c*pad_one_channel + (i + 2) * pad_w + j;
				A_convert[wh + 6] = A_pad[col3];
				A_convert[wh + 7] = A_pad[col3 + 1];
				A_convert[wh + 8] = A_pad[col3 + 2];
			}
		}
	}
}

//kernel轉換以適用於openblas
void convertB(const int convAw, const int channel, float *B, float *B_convert)
{
	int block_A_convert = convAw*channel;
	for (int c = 0; c < channel; c++)
	{
		int block = c*block_A_convert;
		for (int i = 0; i < convAw; i++)
		{
			for (int j = 0; j < channel; j++)
			{
				if (c == j)
				{
					B_convert[block + i*channel + j] = B[c*convAw + i];
				}
				else
				{
					B_convert[block + i*channel + j] = 0;
				}

			}
		}
	}
}

//Openblas矩陣乘積計算
void Matrixmul_blas(const int convAh, const int convAw, float *A_convert, float *B_convert, float *C, const int channel)
{
	const enum CBLAS_ORDER Order = CblasRowMajor;
	const enum CBLAS_TRANSPOSE TransA = CblasNoTrans;
	const enum CBLAS_TRANSPOSE TransB = CblasNoTrans;
	const int M = convAh;//A的行數，C的行數
	const int N = channel;//B的列數，C的列數
	const int K = convAw * channel;//A的列數，B的行數
	const float alpha = 1;
	const float beta = 0;
	const int lda = K;//A的列
	const int ldb = N;//B的列
	const int ldc = N;//C的列

	cblas_sgemm(Order, TransA, TransB, M, N, K, alpha, A_convert, lda, B_convert, ldb, beta, C, ldc);
}

//轉換C為常用矩陣排列
void convertC(const int channel, const int convAh, float *C_convert, float *C)
{
	for (int c = 0; c < channel; c++)
	{
		for (int i = 0; i < convAh; i++)
		{
			C_convert[c*convAh + i] = C[i*channel + c];
		}
	}
}

//驗證結果是否正確
void evaluate_blas(const int channel, const int Map, const float *A, const int Kernel, const float *B, const int outM, float *C_convert)
{
	cout << "A is:" << endl;
	for (int c = 0; c < channel; c++)
	{
		for (int i = 0; i < Map; i++)
		{
			for (int j = 0; j < Map; j++)
			{
				cout << A[c*Map*Map + i*Map + j] << " ";
			}
			cout << endl;
		}
		cout << endl;
	}

	cout << "B is:" << endl;
	for (int c = 0; c < channel; c++)
	{
		for (int i = 0; i < Kernel; i++)
		{
			for (int j = 0; j < Kernel; j++)
			{
				cout << B[c * Kernel * Kernel + i*Kernel + j] << " ";
			}
			cout << endl;
		}
		cout << endl;
	}

	cout << "C is:" << endl;
	for (int c = 0; c < channel; c++)
	{
		for (int i = 0; i < outM; i++)
		{
			for (int j = 0; j < outM; j++)
			{
				cout << C_convert[c * outM * outM + i*outM + j] << " ";
			}
			cout << endl;
		}
		cout << endl;
	}
}

主函式檔案main.cpp

//main.cpp
//cblas加速三維矩陣卷積操作
//注意：stride=1
//作者：samylee

#include "function.h"

int main()
{
	//卷積引數初始化
	const int pad = 1;
	const int stride = 1;

	//定義被卷積三維矩陣
	const int Map = 4;
	const int channel = 3;
	const float A[Map * Map * channel] = {
		1,2,3,4,
		1,2,3,4,
		1,2,3,4,
		1,2,3,4,

		1,2,3,4,
		1,2,3,4,
		1,2,3,4,
		1,2,3,4,

		1,2,3,4,
		1,2,3,4,
		1,2,3,4,
		1,2,3,4 };

	//定義三維卷積核
	const int Kernel = 3;
	float B[Kernel * Kernel * channel] = {
		1,1,1,
		1,1,1,
		1,1,1,

		2,2,2,
		2,2,2,
		2,2,2,

		3,3,3,
		3,3,3,
		3,3,3 };

	//計算卷積輸出矩陣寬高
	const int outM = (Map - Kernel + 2 * pad) / stride + 1;

	//計算三維pad_A
	const int pad_w = Map + 2 * pad;
	float A_pad[pad_w*pad_w*channel];
	comput_Apad(pad_w, Map, channel, A_pad, A);

	//定義被卷積矩陣寬高
	const int convAw = Kernel*Kernel;
	const int convAh = outM*outM;

	//轉換被卷積矩陣
	float A_convert[convAh*convAw*channel];
	convertA(A_convert, outM, convAw, pad_w, A_pad, channel);

	//轉換卷積核以適用於cblas
	float B_convert[channel * Kernel * Kernel * channel];
	convertB(convAw, channel, B, B_convert);
	
	//定義卷積輸出矩陣
	float C[convAh * channel];
	//cblas計算輸出矩陣
	Matrixmul_blas(convAh, convAw, A_convert, B_convert, C, channel);

	//將輸出轉換為常用矩陣形式
	float C_convert[outM * outM * channel];
	convertC(channel, convAh, C_convert, C);
	
	//輸出驗證
	evaluate_blas(channel, Map, A, Kernel, B, outM, C_convert);

	system("pause");
	return EXIT_SUCCESS;
}

效果如下：

任何問題請加唯一QQ2258205918（名稱samylee）！

Openblas加速三維矩陣卷積操作

接上個部落格（http://blog.csdn.net/samylee/article/details/73252715）所講，這篇博文介紹如何用openblas加速三維矩陣。程式碼如下（以下程式經博主測試準確無誤）：標頭檔案function.h //function

MATLAB做矩陣卷積時域做卷積，頻域相乘（時卷頻乘）二維卷積

function out = SJPC(A,B) % 時卷頻乘，可用於求矩陣卷積 [ra,ca] = size(A); [rb,cb] = size(B); r = ra+rb-1; % A，B兩個矩陣做卷積後其行數和列數分別為A，B矩陣的行列數相加減1 c = ca+c

caffe原始碼深入學習6：超級詳細的im2col繪圖解析，分析caffe卷積操作的底層實現

在先前的兩篇部落格中，筆者詳細解析了caffe卷積層的定義與實現，可是在conv_layer.cpp與base_conv_layer.cpp中，卷積操作的實現仍然被隱藏，通過im2col_cpu函式和caffe_cpu_gemm函式(後者實現矩陣乘法)實現，在此篇部落格中，筆者旨在向大家展示，caf

矩陣卷積運算的具體過程，很簡單

最近在看影象處理，卷積運算這一塊也查了很多，但是感覺都寫的太複雜，我這裡簡單的寫一下卷積到底是一個什麼計算過程。假設有一個卷積核h，就一般為3*3的矩陣：有一個待處理矩陣x： h*x的計算過程分為三步第一步，將卷積核翻轉180°，也就是成為了第二步，將卷

0024-利用OpenCV的filter2D函式作影象的卷積操作和協相關操作

影象的卷積操作是影象處理中最常用的操作之一，一般是用核算子來實現卷積操作。什麼叫核算子？請移步博文https://blog.csdn.net/lehuoziyuan/article/details/84101788 OpenCV用函式filter2D來實現對影象或矩陣的卷積操作。這個函式本質上做

pytorch 自定義卷積核進行卷積操作

一卷積操作：在pytorch搭建起網路時，大家通常都使用已有的框架進行訓練，在網路中使用最多就是卷積操作，最熟悉不過的就是 torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation

Tensorflow學習筆記（第三天）—卷積神經網路

對CIFAR-10 資料集的分類是機器學習中一個公開的基準測試問題，其任務是對一組大小為32x32的RGB影象進行分類，這些影象涵蓋了10個類別：飛機，汽車，鳥，貓，鹿，狗，青蛙，馬，船以及卡車。

矩陣卷積理解

在影象處理的過程中，經常會看到矩陣卷積的概念，比如說用一個模板去和一張圖片進行卷積，因此很有必要了解矩陣卷積到了做了什麼，具體又是怎麼計算的。在matlab中有conv2函式對矩陣進行卷積運算，其中有一個shape引數，取值具體有三種: -full - (d

OpenCV--如何對影象進行卷積操作（9）

附程式碼如下： import cv2 as cv import numpy as np def blur1(): src = cv.imread("D:/matplotlib/0.jpg") cv.imshow("input",src) blur2 = cv.blur(

總結CNN的發展歷程，以及一些卷積操作的變形，附帶基礎的深度學習知識與公式

1.Lenet-5 ：最先出現的卷積神經網路，1998年，由於當時的硬體還不成熟，因此到了2012年出現了AlexNet 2.AlexNet：可以說是現在卷積神經網路的雛形 3.VGGNet：五個模組的卷積疊加，網路結構如下： 4.GoogleNet：ince

理解影象中卷積操作的含義

上文用生動的例子來解釋卷積記載了卷積的含義，現在就來看看卷積在影象處理中的應用吧。（ps：本文大部分內容系轉載大神的部落格，現在csdn強制圖片水印，實在感到很無奈！！！）數字影象處理中卷積數字影象是一個二維的離散訊號，對數字影象做卷積操作其實就是利用卷

python 二維矩陣轉三維矩陣

>>> import numpy as np >>> a = np.arange(12).reshape(3,4) >>> a array([[ 0, 1, 2, 3], [ 4, 5, 6,

一維訊號卷積與影象卷積的區別

基礎概念：　　卷積神經網路（CNN）：屬於人工神經網路的一種，它的權值共享的網路結構顯著降低了模型的複雜度，減少了權值的數量。卷積神經網路不像傳統的識別演算法一樣，需要對資料進行特徵提取和資料重建，可以直接將圖片作為網路的輸入，自動提取特徵，並且對圖形的變形等具有高度不變形。在語音分析和影象識

【影象縮放】雙立方（三次）卷積插值（Android版改寫）

最近在做圖片放大之後的畫面處理，嘗試了這種卷積插值法，原文如下：https://dailc.github.io/2017/11/01/imageprocess_bicubicinterpolation.html 然後我將其工程簡單地改寫成了Android版本的程式碼（只是個Demo，用來看看效果

卷積操作和反捲積操作的數學解釋

三個月沒更新了啊，回來更一發～～ csdn上主要講一些coding過程中遇到的函式，問題，解決方案。偏實踐另外，如果你想看一些理論方面的東西，歡迎加我的知乎知乎主頁 csdn私信幾乎不看，有問題交流可以發郵箱：[email protec

三種減少卷積神經網路複雜度同時不降低效能的新方法

基本思路：輸出的通道的值，只和與它相鄰的通道有關係。如何定義相鄰呢？對於一個輸出，假設標準卷積需要30維通道來表示，在拓撲細分方法裡，我們可以用一個2-D張量空間或者3-D張量空間來重新排列這30維通道。舉例來說，假如排列方法為2-D：30=65。那麼如果要輸出一般意義上第13維通道上的值，那對應在2-

手動實現卷積神經網路中的卷積操作（conv2d）

寫這個的原因：一來好像沒怎麼搜到別人手動實現，作為補充；二來鞏固一下基礎。卷積操作示意先從一張示意圖說起，卷積基礎概念和操作步驟就不囉嗦了，只講這張圖，大意就是，有in-channel，有out-channel，你需要把in-channel都做卷積操作，然

對深度學習卷積操作的理解

本文介紹對了對卷積核、濾波器、通道等概念的理解。二維卷積二維卷積就是卷積核（指的是一個小的權值矩陣）在二維輸入資料上滑動遍歷整張圖片，對當前輸入的部分元素進行矩陣乘法，將一個二維矩陣轉換為另一個二維矩陣，然後將結果輸出，輸出特徵實際上是在輸入資料相同位置

hdu3662 3D Convex Hull（三維凸包【三維計算幾何基本操作）

題目連線分析：三維凸包模板瞧好了基本操作三維和二維簡直不是一個級別的。。。orz #include<bits/stdc++.h> using namespace std; const double eps=1e-8; con

深度學習介紹（四）卷積操作

接下來介紹一下，CNNs是如何利用空間結構減少需要學習的引數數目的如果我們有一張1000x1000畫素的影象，有1百萬個隱層神經元，那麼他們全連線的話（每個隱層神經元都與影象的每一個畫素點相連），這樣就有1000x1000x1000000=10^12個連線，

Openblas加速三維矩陣卷積操作

相關推薦