在C/C++程式碼中使用SSE等指令集的指令(1)介紹

阿新 • • 發佈：2019-02-07

我們知道，在C/C++程式碼中，可以插入彙編程式碼提高效能。現在的指令集有了很多的高階指令，如果我們希望使用這些高階指令來實現一些高效的演算法，就可以在程式碼中嵌入彙編，使用SSE等高階指令，這是可行的，但是如果對彙編不太熟悉，不願意使用匯編的人來說，其實也是可以的，這就是Compiler Intrinsics（http://msdn.microsoft.com/zh-cn/site/26td21ds）。

PS：下面的內容以Windows平臺為主，對於Linux下，也有類似的方法。

（1）什麼是Intrinsics

Intrinsics是對MMX、SSE等指令集的指令的一種封裝，以函式的形式提供，使得程式設計師更容易編寫和使用這些高階指令，在編譯的時候，這些函式會被內聯為彙編，不會產生函式呼叫的開銷。在理解intrinsics指令之前，先理解intrinsics函式。

（3）#pragma intrinsic和#pragma function

#pragma intrinsic(function[,function][,function]...)：表示後面的函式將進行intrinsic，替換為內部函式，去掉了函式呼叫的開銷，注意：有些地方解釋為內聯，但是和內聯並不完全相同，對於內聯，可以指定任意函式為內聯，但是此pragma intrinsic只能適用於編譯器規定的一部分函式，不是所有函式都能使用，而且，inline關鍵字一般用於指定自定義的函式，intrinsic則是系統庫函式的一部分。參考http://technet.microsoft.com/zh-cn/library/tzkfha43.aspx

獲取詳細的說明。

下面分析這個例子：

#include <math.h>
void foo()
{
	double var = cos(10);
}

使用VS2010的32bit的command line編譯：

cl /c test.c /FA

輸出得到其彙編檔案：

; Listing generated by Microsoft (R) Optimizing Compiler Version 16.00.30319.01 

	TITLE	C:\tempLab\test.c
	.686P
	.XMM
	include listing.inc
	.model	flat

INCLUDELIB LIBCMT
INCLUDELIB OLDNAMES

PUBLIC	 
[email protected]
PUBLIC	_foo
EXTRN	_cos:PROC
EXTRN	__fltused:DWORD
;	COMDAT [email protected]
; File c:\templab\test.c
CONST	SEGMENT
[email protected] DQ 04024000000000000r	; 10
; Function compile flags: /Odtp
CONST	ENDS
_TEXT	SEGMENT
_var$ = -8						; size = 8
_foo	PROC
; Line 3
	push	ebp
	mov	ebp, esp
	sub	esp, 8
; Line 4
	sub	esp, 8
	fld	QWORD PTR [email protected]
	fstp	QWORD PTR [esp]
	call	_cos
	add	esp, 8
	fstp	QWORD PTR _var$[ebp]
; Line 5
	mov	esp, ebp
	pop	ebp
	ret	0
_foo	ENDP
_TEXT	ENDS
END

可以看到，這裡呼叫了call_cos函式進行運算，下面程式碼修改如下：

#include <math.h>
#pragma intrinsic(cos)
void foo()
{
	double var = cos(10);
}

同樣的命令編譯，得到彙編如下：

; Listing generated by Microsoft (R) Optimizing Compiler Version 16.00.30319.01 

	TITLE	C:\tempLab\test.c
	.686P
	.XMM
	include listing.inc
	.model	flat

INCLUDELIB LIBCMT
INCLUDELIB OLDNAMES

PUBLIC	[email protected]
PUBLIC	_foo
EXTRN	__fltused:DWORD
EXTRN	__CIcos:PROC
;	COMDAT [email protected]
; File c:\templab\test.c
CONST	SEGMENT
[email protected] DQ 04024000000000000r	; 10
; Function compile flags: /Odtp
CONST	ENDS
_TEXT	SEGMENT
_var$ = -8						; size = 8
_foo	PROC
; Line 4
	push	ebp
	mov	ebp, esp
	sub	esp, 8
; Line 5
	fld	QWORD PTR [email protected]
	call	__CIcos
	fstp	QWORD PTR _var$[ebp]
; Line 6
	mov	esp, ebp
	pop	ebp
	ret	0
_foo	ENDP
_TEXT	ENDS
END

對比之後，它們的主要區別的程式碼段如下：

sub	esp, 8
	fld	QWORD PTR [email protected]

	fstp	QWORD PTR [esp]
	call	_cos
	add	esp, 8

	fld	QWORD PTR [email protected]
	call	__CIcos

顯然，使用了Intrinsics之後的cos函式的指令少了很多，其呼叫的內部函式是_CIcos(http://msdn.microsoft.com/zh-cn/library/ff770589.aspx)，此函式會計算對棧頂的元素直接進行cos運算，所以節省了很多函式呼叫引數傳遞等的指令。

The floating-point functions listed below do not have true intrinsic forms. Instead they have versions that pass arguments directly to the floating-point chip rather than pushing them onto the program stack.

當然，這是描述其中一部分Intrinsics函式的，Intrinsics也有不同的方式進行優化/內聯，具體參考MSDN查詢哪些函式可以使用Intrinsics以及是如何工作的（http://msdn.microsoft.com/zh-cn/site/26td21ds）。

#pragma function：使用格式和intrinsics一樣，pragma function用於指定函式不進行intrinsics操作，也就是不生成內部函式。

最後，要知道的一個內容是一個相關的編譯選項：/Oi

/Oi 僅作為對編譯器的請求，用於將某些函式呼叫替換為內部函式；為產生更好的效能，編譯器可能會呼叫函式（而不會將該函式呼叫替換為內部函式）。

簡單的理解，就是告訴編譯器儘量使用intrinsics版本的呼叫，當然，最終的實際呼叫依賴於編譯器的判斷。

也可以參考wiki中（http://en.wikipedia.org/wiki/Intrinsic_function）關於intrinsic functions來幫助理解其作用。簡單來說，可以理解為編譯器的“內建函式”，編譯器會根據情況進行一些優化。

（4）指令集相關的intrinsics介紹

上面介紹的是pragma對intrinsic函式的使用，其中介紹了cos，還有很多類似的“內建函式版本”。有時候將上面的這些稱之為”intrinsics函式“，除此之外，intrinsics更廣泛的使用是指令集的封裝，能直接對映到高階指令集，從而使得程式設計師可以以函式呼叫的方式來實現彙編能達到的功能，編譯器會生成為對應的SSE等指令集彙編。

1. 如何使用這類函式

在windows上，包含#include <**mmintrin.h>標頭檔案即可（不同的指令集擴充套件的函式可能字首不一樣），也可以直接包含#include <intrin.h>（這裡面會根據使用環境判斷使用ADM的一些相容擴充套件）。

2. 關於資料型別

3. 函式名：

這類函式名一般以__m開頭。函式名稱和指令名稱有一定的關係。

4. 加法例項：

下面使用SSE指令集進行加法運算，一條指令對四個浮點數進行運算：

#include <stdio.h>
#include <intrin.h>

int main(int argc, char* argv[])
{
	__m128  a;
	__m128  b;
	
	a = _mm_set_ps(1,2,3,4);		// Assign value to a
	b = _mm_set_ps(1,2,3,4);		// Assign value to a

	__m128 c = _mm_add_ps(a, b);	// c = a + b

	printf("0: %lf\n", c.m128_f32[0]);
	printf("1: %lf\n", c.m128_f32[1]);
	printf("2: %lf\n", c.m128_f32[2]);
	printf("3: %lf\n", c.m128_f32[3]);

	return 0;
}

從程式碼看，好像很複雜，但是生成的彙編的效率會比較高。一條指令就完成了四個浮點數的加法，其執行結果如下：

（5）總結：

1. Intrinsics函式：能提高效能，會增大生成程式碼的大小，是編譯器的”內建函式“。

2. Intrinsics對指令的封裝函式：直接對映到彙編指令，能簡化彙編程式碼的編寫，另外，隱藏了暫存器分配和排程等。由於涉及到的資料型別、函式等內容較多，這裡只是一個簡單的介紹。

在C/C++程式碼中使用SSE等指令集的指令(1)介紹

.NET/C# 在程式碼中測量程式碼執行耗時的建議（比較系統性能計數器和系統時間）

《WebGL程式設計指南》---從示例程式碼中學習WebGL之初識【1】

在C/C++程式碼中使用SSE等指令集的指令(3)SSE指令集基礎

在C/C++程式碼中使用SSE等指令集的指令(1)介紹

c/c++ 程式碼中使用sse指令集加速

SSE指令集 c,c++程式程式碼優化

UE4 C++程式碼中使用材質，字型等資源

visual studio編寫C#程式碼時“未能從程式集.....中載入型別”和“找不到方法”的一種可能的解決辦法

如何在ubuntu中寫一個簡單的C語言程式碼並編譯執行

C/C++中的預編譯指令

C++中getline等輸入輸出函式的用法

封裝C#程式碼為DLL並在C#程式碼中引用

JNI開發中在c程式碼中列印日誌

C/C++中#，##，FILE，LINE等的用法

單鏈表——求兩個集合的差集 A，B集合求差集放到C連結串列中

visual studio c++程式碼中使用git版本資訊

.NET/C# 中你可以在程式碼中寫多個 Main 函式，然後按需要隨時切換

C/C++中的預編譯指令（轉）

常用的ARM彙編指令集與彙編呼叫C語言

使用C#對MongoDB中的資料進行查詢，修改等操作

在C/C++程式碼中使用SSE等指令集的指令(1)介紹

相關推薦