AVX指令集矩陣乘向量演算法

阿新 • • 發佈：2019-02-12

#include <stdio.h>
#include <time.h>
#include <x86intrin.h>


void matmul_avx(const float *x, const float **w,float *y,const int col,const int row){
    const int col_reduced_8 = col - col % 8;
    float scratchpad[8];
    __m256 op0, op1, tgt, tmp_vec;
    for (int i = 0; i < row; i++) {
        float res = 0;

        tgt = _mm256_setzero_ps();
        for (int j = 0; j < col_reduced_8; j += 8) {
            op0 = __builtin_ia32_loadups256(&x[j]);
            op1 = __builtin_ia32_loadups256(&w[i][j]);
            tmp_vec = __builtin_ia32_mulps256(op0, op1);
            tgt = __builtin_ia32_addps256(tmp_vec, tgt);
        }

        __builtin_ia32_storeups256(scratchpad, tgt);
        for (int k = 0; k < 8; k++)
            res += scratchpad[k];

        for (int l = col_reduced_8; l < col; l++) {
            res += w[i][l] * x[l];
        }
        y[i] = res;
    }
}

int main() {
    const int col = 2048, row = 512, num_mul = 10;

    float **w;
    float x[col];
    float y[row];
    float scratchpad[8];
    w = (float **)malloc(sizeof(float*)*row);
    for (int i = 0; i < row; i ++) { w[i] = (float *)malloc(sizeof(float) * col);	    }
    for (int i = 0; i < row; i++) {
        for (int j = 0; j < col; j++) {
            w[i][j] = (float) (rand() % 1000) / 800.0f;
        }
    }
    for (int j = 0; j < col; j++) {
        x[j] = (float) (rand() % 1000) / 800.0f;
    }

    clock_t t1, t2;
// The original matrix multiplication version
    t1 = clock();
    for (int r = 0; r < num_mul; r++)
        for (int j = 0; j < row; j++) {
            float sum = 0;
            float *wj = w[j];

            for (int i = 0; i < col; i++)
                sum += wj[i] * x[i];

            y[j] = sum;
        }
    t2 = clock();
    float diff = ((float) t2 - (float) t1) / (num_mul*CLOCKS_PER_SEC);
    printf("\nTime taken: %f second.\n", diff);

    for (int i = 0; i < row; i++) {
        printf("%.4f, ", y[i]);
        y[i]=0;
    }
    printf("\n");
// The avx matrix multiplication version.


    t1 = clock();
    for (int r = 0; r < num_mul; r++)
        matmul_avx(x,w,y,col,row);
    t2 = clock();
    diff = ((float) t2 - (float) t1) / (num_mul*CLOCKS_PER_SEC);
    printf("\nTime taken: %f second.\n",diff);

    for (int i = 0; i < row; i++) {
        printf("%.4f, ", y[i]);
    }
    printf("\n");
    
}

執行方式：

gcc -o test test.c -mavx

./test

AVX指令集矩陣乘向量演算法

#include <stdio.h> #include <time.h> #include <x86intrin.h> void matmul_avx(const float *x, const float **w,float *y,

英特爾® 高階向量擴充套件(AVX)指令集簡介

來源：https://software.intel.com/zh-cn/articles/introduction-to-intel-advanced-vector-extensions 作者：Chris Lomont 下載文章下載英特爾® 高階向量擴充套件指令集簡介 [PDF 1

SIMD、SSE、AVX指令集

指令集指令集是指CPU能執行的所有指令的集合，每一指令對應一種操作，任何程式最終要編譯成一條條指令才能讓CPU識別並執行。CPU依靠指令來計算和控制系統，所以指令強弱是衡量CPU效能的重要指標，指令集也成為提高CPU效率的有效工具。 CPU都有一個基本的指令集，比如說目前英特爾和A

intel向量化指令在矩陣乘應用中的評估

隨著機器學習等人工智慧技術的飛速發展，矩陣乘法的應用越來越多，intel晶片先後提供了不同系列的向量指令，包括mmx、sse、avx等，支援simd操作。後來為了更好地支援矩陣乘法，又增加了fma（Fused Multiply-Add）指令。fma指令需要三個向

Python計算矩陣乘向量，矩陣乘實數的一些小錯誤

計算：Ax-b A: 2*2 x: 2*1 b: 2*1 so, Ax-b: 2*1 if __name__ == "__main__": A = np.array([[4.0,

【整理】SIMD、MMX、SSE、AVX、3D Now！、neon——指令集大全

http://blog.csdn.net/conowen/article/details/7255920 SIMD SIMD單指令流多資料流(SingleInstruction Multiple Data,SIMD)是一種採用一個控制器來控制多個處理器，同時對一組資料（

[x86]SIMD指令集發展歷程表（MMX、SSE、AVX等）

自1996年的MMX指令集以來，Intel和AMD不斷為x86體系新增新的SIMD指令集。時至2012年，Intel的Ivy Bridge即將釋出，這16年來SIMD指令集有了哪些發展呢？於是我決定整理一份SIMD指令集的發展歷程表。通過閱讀Intel和AMD的手冊，以及

ARM cortex M3寄存器及指令集

png cor 另一個堆棧應用程序技術分享 font 限制帶來 1、cortex M3擁有通用寄存器R0-R15及一些特殊寄存器： R0‐R7 也被稱為低組寄存器。所有指令都能訪問它們。它們的字長全是 32 位，復位後的初始值是不可預料的。 R8‐R12 也被稱為

ARM指令集、Thumb指令集、Thumb-2指令集

32bit image 存儲 wid mage 頻率 arm 16bit 承載 MCU使用什麽指令集主要由內核決定的，比如Cortex-M3使用的是Thumb-2指令集 ARM指令集：編代碼全部是 32bits 的，每條指令能承載更多的信息，因此使用最少的指令完

android ndk 編譯的時候指令集的選取

文章 span tag androi ndk 有時 oca class word android ndk在編譯的時候默認生成的是thumb指令（拇指）不是arm（手臂）指令，但是有時候在看反匯編的時候，不太熟悉thumb指令或者說thumb指令看起來更費勁，需要生成arm指

《Java虛擬機原理圖解》4.JVM機器指令集

popu 符號處理組織 snippet add ide 獲取 alt 0. 前言 Java虛擬機和真實的計算機一樣，執行的都是二進制的機器碼；而我們將.java 源碼編譯成.class 文件，class文件便是Java虛擬機可以認識的

ARM指令集—SWP指令

而且 post margin {} 這樣的有效介紹 back swp ARM指令集—SWP指令 SWP和SWPB是ARM指令集中對存儲單元的原子操作。即對存儲單元的一次讀和一次不可被切割。SWP和SWPB分別完畢存儲器和寄存器之間一個字（

iOS 指令集

合並 ipo 判斷 arch xsd 微處理器處理器 frame pad armv7｜armv7s｜arm64都是ARM處理器的指令集 i386｜x86_64 是Mac處理器的指令集 arm64：iPhone6s | iphone6s plus｜iPhone6

CentOS bug修復指令集（阿裏雲適用）

pytho epo -h 輸出控制臺 com kernel head mail 如 RHSA-2017:0817: kernel security, bug fix, and enhancement update (Moderate) 修復方案： yum updat

Spark機器學習中ml和mllib中矩陣、向量

int reg index mac matrix 對比判斷 bsp ive 1：Spark ML與Spark MLLIB區別？ Spark MLlib是面向RDD數據抽象的編程工具類庫，現在已經逐漸不再被Spark團隊支持，逐漸轉向Spark ML庫，Spark ML是面

iOS 指令集架構 armv6、armv7、armv7s、arm64、x86_64、i386

clas 通用圖片 pil 而後支持 iphone 8 地址目標一、ARM架構　　ARM架構過去稱作進階精簡指令集機器（Advanced RISC Machine，更早稱作：Acorn RISC Machine），是一個32位精簡指令集（RISC）處理器架構，AR

【bzoj5133】[CodePlus2017年12月]白金元首與獨舞並查集+矩陣樹定理

oid lin 因此 algorithm fault str typedef 12月 zoj 題目描述給定一個 $n\times m$ 的方格圖，每個格子有 ↑、↓、←、→，表示從該格子能夠走到相鄰的哪個格子。有一些格子是空著的，

Mac OS X10.10_xcode6.1_ios8.1環境下，編譯lame靜態庫libmp3lame.a，支持arm64 armv7s x86_64 i386 armv7指令集

ces mod dir helper plain per 代碼 then -m 近期升級了系統到Mac OS X 10.10 而且更新了XCode6.1和iOS 8

指令集基本原理

展現模型 style 虛擬存儲器縮小索引動態包括晶體管指令集體系結構----程序員或編譯器編寫人員能夠看到的計算機部分。指令集體系結構包括： 1.對各種指令集進行了分類，並對各種方法的優勢和劣勢進行某種量化評估。 2.對一些指令集測量數據進行分析。 3.語言

JVM指令集介紹

fse inf clas -s val 轉載 signed sig icm 轉載自：http://glutinit.iteye.com/blog/1263446 延伸參考 JVM接收參數和方法調用 void spin() { int i; for

AVX指令集矩陣乘向量演算法

相關推薦