ARM aarch64彙編學習筆記（九）：使用Neon指令（一）

阿新 • • 發佈：2018-12-14

NEON是一種基於SIMD思想的ARM技術。 SIMD， Single Instruction Multiple Data，是一種單條指令處理多個數據的並行處理技術，相比於一條指令處理一個數據，運算速度將會大大提高。

ARMv8 有31 個64位暫存器,1個不同名字的特殊暫存器,用途取決於上下文, 因此我們可以看成 31個64位的X暫存器或者31個32位的W暫存器(X暫存器的低32位) 這裡寫圖片描述 ARMv8有32個128位的V暫存器，相似的，我們同樣可以看成是32個32位的S暫存器或者32個64位的D暫存器。也可以用作32個64bit D0-D31或32個32bit S0-S31 或32個 16bit H0-h31 或 32個8bit B0-B31。

以一個簡單的例子來說明使用Neon帶來的收益。比如，現在有一個很簡單的需求，有2組資料，每組資料有16 x 1024個整型數，讓它們按順序一一相加，得到相加的和（每組資料的數不超過255，相加的和如果大於255，則返回255）.

如果用C語言實現：

#include <stdio.h>
#include <time.h>

#define MAX_LEN 16 * 1024 * 1024
typedef unsigned char uint_8t;
typedef unsigned short uint_16t;

int main()
{
	double start_time;
	double end_time;
	uint_8t *dist1 = (uint_8t *)malloc(sizeof(uint_8t) * MAX_LEN);
	uint_8t *dist2 = (uint_8t *)malloc(sizeof(uint_8t) * MAX_LEN);
	uint_16t *ref_out = (uint_16t *)malloc(sizeof(uint_16t) * MAX_LEN);

	// 2組資料隨機賦值
	for (int i = 0; i < MAX_LEN; i++)
	{
		dist1[i] = rand() % 256;
		dist2[i] = rand() % 256;
	}
	
	start_time = clock();
	for (int i = 0; i < MAX_LEN; i++)
	{
		ref_out[i] = dist1[i] + dist2[i];
		if (ref_out[i] > 255)
		{
			ref_out[i] = 255;
		}
	}
	end_time = clock();
	printf("C use time %f s\n", end_time - start_time);
	return 0;
}

因為C語言的實現每次相加都只操作了一個暫存器，由於每一個輸入和輸出都不大於255，可以用8bit的暫存器儲存，對於暫存器而言造成了浪費。如果使用Neon進行加速：

.text

.global asm_add_neon

asm_add_neon:
LOOP:
	LDR Q0, [X0], #0x10
	LDR Q1, [X1], #0x10
	UQADD V0.16B, V0.16B, V1.16B
	STR Q0, [X2], #0x10
	SUBS X3, X3, #0x10
	B.NE LOOP
	RET

Q0代表陣列A， Q1代表陣列B，每次讀128bit (16個)，利用ARM vector無飽和相加指令UQADD進行計算，得到的結果儲存在X2暫存器。

比較C語言和ARM NEON加速後實現的效能：

#include <stdio.h>
#include <time.h>

#define MAX_LEN 16 * 1024 * 1024
typedef unsigned char uint_8t;
typedef unsigned short uint_16t;
extern int asm_add_neon(uint_8t *dist1, uint_8t *dist2, uint_8t *out, int len);
int main()
{
	double start_time;
	double end_time;
	uint_8t *dist1 = (uint_8t *)malloc(sizeof(uint_8t) * MAX_LEN);
	uint_8t *dist2 = (uint_8t *)malloc(sizeof(uint_8t) * MAX_LEN);
	uint_8t *out = (uint_8t *)malloc(sizeof(uint_8t) * MAX_LEN);
	uint_16t *ref_out = (uint_16t *)malloc(sizeof(uint_16t) * MAX_LEN);

	for (int i = 0; i < MAX_LEN; i++)
	{
		dist1[i] = rand() % 256;
		dist2[i] = rand() % 256;
	}
	start_time = clock();
	for (int i = 0; i < MAX_LEN; i++)
	{
		ref_out[i] = dist1[i] + dist2[i];
		if (ref_out[i] > 255)
		{
			ref_out[i] = 255;
		}
		//printf("%d dist1[%d] dist2[%d] refout[%d] \n", i,dist1[i], dist2[i],  ref_out[i]);
	}
	end_time = clock();
	printf("C use time %f s\n", end_time - start_time);
	start_time = clock();
	asm_add_neon(dist1, dist2, out, MAX_LEN);
	end_time = clock();
	printf("asm use time %f s\n", end_time - start_time);
	for (int i = 0; i < MAX_LEN; i++)
	{
		if (out[i] != ref_out[i])
		{
			printf("ERROR:%d\n", i);
			return -1;
		}
	}
	printf("PASS!\n");
	return 0;
}

在這裡插入圖片描述

arm neon彙編實現的效能正好大約是純C語言實現的16倍。

ARM aarch64彙編學習筆記（九）：使用Neon指令（一）

ARM aarch64彙編學習筆記（九）：使用Neon指令（一）

吳恩達機器學習筆記 —— 19 應用舉例：照片OCR（光學字符識別）

吳恩達機器學習筆記 —— 19 應用舉例：照片OCR（光學字元識別）

從零開始搭建物聯網平臺（5）：搭建後臺服務(一）

TypeScript學習筆記（九）：裝飾器（Decorators）

機器學習筆記（十九）：TensorFlow實戰十一（多執行緒輸入資料）

彙編學習筆記（5）x86彙編棧中資料的儲存。

彙編--學習筆記（十二）-子程式（二）-子程式資料傳遞

彙編--學習筆記（十三）-中斷及中斷處理程式

C++基礎學習筆記----第九課（建構函式）

Pro Android學習筆記（六九）：HTTP服務（3）：HTTP POST MultiPart

移動端arm cpu優化學習筆記----一步步優化盒子濾波（Box Filter）

樹莓派3學習筆記（7）：7寸（分辨率800 480）顯示器配置

Java學習筆記——設計模式之六.原型模式（淺克隆和深克隆）

Linux學習筆記6_基本命令復習1（alias unalias sourse）

Linux學習筆記10_基本命令復習6（mv，history，LANG）

[知了堂學習筆記]_JS小遊戲之打飛機（3）-飛機之間的互相撞擊，boss的出現，以及控制boss死亡

學習筆記之05表格嵌套2（表單）

學習筆記之08試用div做網頁（濱院）-小作業

CSS學習筆記——CSS中定位的浮動float（20171129002）

ARM aarch64彙編學習筆記（九）：使用Neon指令（一）

相關推薦