1. 程式人生 > >SSE 指令學習

SSE 指令學習

轉載自 : https://www.cnblogs.com/zhengjianhong/p/7879367.html

我學習SSE指令的初衷就是為了實現RGB<->RGBA, YUV<->RGBA、RGB,這些轉換的指令優化。

在學習指令優化的過程中總是會看到SIMD(Single Instructions Multi Data), 單指令多資料:在一個指令週期內使用一條指令處理多個數據。這是Intel早期開發MMX指令就提出來的,只不過MMX指令基本是對整形資料的處理,隨著時代的發展,這些功能已經不能滿足浮點數處理的需求了,後續發展的SSE指令,更多的是對單精度浮點數和雙精度浮點數的支援和優化,並且SSE指令擴充套件了資料暫存器的長度,保留了xmm0~xmm7八個128位的暫存器,可以用來儲存2個雙精度浮點數、4個單精度浮點數、4個整形資料、16位元組的資料。

SSE指令可以分為以下幾類:

1)資料移動指令:支援記憶體到暫存器、暫存器到記憶體、暫存器到暫存器的資料移動

複製程式碼
例如:movups指令, 對128位(由4個打包的單精度浮點陣列成)做上述的移動處理
__asm
{
  float af[4] = {0, 0 ,0 ,0}; float bf[4];
   movups xmm0, af;   
   movups xmm1, xmm0;    
   movups  bf, xmm1;
}
movaps指令,也是對128位(由4個打包單精度浮點陣列成)做上述的移動處理,不同的是,如果移動的記憶體如果不滿128位,程式將丟擲一個異常,所以movaps指令處理的記憶體和暫存器必須是16位元組對齊的。因此上面的程式碼需要部分修改才能執行正常
__asm
{
  __declspec(align(16)) af[4] = {0, 0, 0, 0};
  __declspec(align(16)) af[4];
  movaps xmm0 , af;
  movaps xmm1, xmm0;
  movaps bf, xmm1;
}
相信大家對比movups和movaps指令就看出來了,mov表示移動,u,a分別表示不必16自己對齊和16自己對齊,而ps(packed single-precision floating-point)表示打包的單精度浮點數。對指令的構成有了初步瞭解之後,相信大家也很容器理解movupd和movapd的意思。
實際上不論是單精度浮點數還是雙精度浮點數,資料移動更關注的是資料位是否是128位,並不關注記憶體中的具體資料型別,只有算術運算才會關注資料型別。
例如:
__asm
{
  float af[4] = {5.0f, 5.0f, 5.0f, 5.0f}; float bf[4];
  movupd xmm0, af;
  movupd xmm1, xmm0;
  movupd bf, xmm1;
}
movupd 更夠實現與movups一樣的效果,而不出任何異常。
瞭解了常用的128位指令移動指令,再來看看特殊的移動指令
movsd指令,可以實現將64位記憶體的資料移動到暫存器的低64,將暫存器的低64位移動到記憶體中,以及暫存器a的低64位移動到暫存器b的低64位並保持高64位不變。
movss指令與movsd指令類似,只不過是對32位資料的移動.
複製程式碼

 還有其他的移動指令就不一一列舉了,大家可以在intel指令手冊中查到。

在這裡多說一句,__asm是C++內聯彙編的關鍵字,目前大多數C++編譯器都支援對它支援。

2)算術運算指令:包括一般的四則運算,也有平方和開方運算,開方的倒數運算,求平均數運算。

下面寫一個簡單的例子,使用算術指令一次分別完成多個數據的加減乘除運算。

複製程式碼
float af[4] = {5.0f, 6.0f, 7.0f, 8.0f};
float bf[4] = {5.0f, 6.0f, 7.0f, 8.0f};
float add[4], sub[4], mul[4], div[4];
__asm
{ movups xmm0, af; movups xmm1, bf; movups xmm2, xmm0; // 加法 addps xmm0, xmm1; movups add, xmm0; // 減法 movups xmm0, xmm2; subps xmm0, xmm1; movups sub, xmm0; // 乘法 movups xmm0, xmm2; mulps xmm0, xmm1; movups mul, xmm0; // 除法 movups xmm0, xmm2; divps xmm0, xmm1; movups div, xmm0; } // 上面用到的四則運算指令都是浮點運算指令 int ai[4] = {4, 5, 6, 7}; int bi[4] = {4,5, 6, 7}; int add[4], sub[4], mul[4], div[4];
__asm
{ movupd xmm0, ai; movupd xmm1, bi; movupd xmm2, xmm0; // 加法 paddd xmm0, xmm1; movupd add, xmm0; // 減法 movupd xmm0, xmm2; psubd xmm0, xmm1; movupd sub, xmm0; // 乘法 movupd xmm0, xmm2; pmulld xmm0, xmm1; movupd mul, xmm0; // 除法 movupd xmm0, xmm2; divps xmm0, xmm1; movupd div, xmm0; }
複製程式碼

加法、減法、乘法,分別對應有浮點運算和整形運算指令,而除法運算只有浮點運算指令。我們都知道CPU由於只有少量的浮點運算單元,所以浮點運算的效率要遠低於整形運算,而乘除法的運算效率又遠低於加減運算。即使使用指令完成複雜運算的書寫,也不一定能實現運算效率的提升,甚至在Release開啟優化的情況下,使用指令做了太多的浮點乘法或除法,反而沒有高階語言被編譯器優化後的執行效率高。因此我們應該要求自己,在精度允許的情況下,儘量將浮點運算用整形運算代替,並且考慮使用移位運算代替乘法和除法運算。接下來讓我們瞭解一下上面程式碼中用到的算術指令。

addps:對128位暫存器的每32位做浮點加法運算。

subps:對128位暫存器的沒32位做浮點減法運算。

mulps:對128位暫存器的每32位做浮點乘法運算,並且不考慮乘法可能形成的進位。

divps:對128位暫存器的每32位做浮點除法運算。

paddd:對128位暫存器的每32位做整形加法運算。不過我在做YUV與RGB互轉的指令優化中用到更多的是paddw,該指令是對128位暫存器的每16位做加法運算,在保證不出現進位的情況下,paddw指令比paddd一次能處理更多位元組的資料。

psubd:對128位暫存器的每32位做整形減法運算。當然也有psubw可以處理16位整形減法。

pmulld:對128位暫存器的每32位做整形乘法運算,形成一個64位的立即數,然後取立即數的低32位到目的暫存器的對應bit位中。諸如此類的pmullw,是對128位暫存器的每16位做整形乘法運算,形成一個32位立即數,然後取立即數的低16位到目的暫存器的對應bit位中。

3)擴充套件壓縮指令:對資料做重新排布,壓縮等操作

複製程式碼
  int ai[4] = {4, 3, 4, 3};
  int bi[4] = {0};
__asm
{
      movups xmm0, ai;
      shufps   xmm0, xmm0, 0xd8;
      movups bi,  xmm0
      // bi[4] = {4 , 4, 3, 3}
      // shufps是一個三運算元指令,從目的操作(一般指令的第一個運算元就是目的運算元)和源運算元中按指定的立即數取資料
     // 立即數由八個二進位制位組成     
     // 目的運算元和源運算元都是由4個單精度浮點數構成,立即數的低4位中每兩位(0-3)決定取目的運算元的第幾個32位資料,立即數的高4位中的每兩位(0-3)決定取源運算元的第幾個32位資料。
}
 short as[8] = {4, 0, 0, 0, 3, 0, 0, 0};
 short as[8] = {4, 0 ,0, 0, 3, 0, 0, 0};
 short asMaskL[8] = {0, 1, 0, 1, 0, 1, 0, 1};
 int ci[4] = {0};
__asm
{
       movups xmm0, as;
       movups xmm1, bs;
       packssdw xmm0, xmm1;  // xmm0  03 04 03 04
       packssdw xmm0, xmm0;  // xmm0  34 34 34 34
       punpcklwd xmm0, xmm0; // xmm0  33 44 33 44
       shufps       xmm0, xmm0, 0xd8;    // xmm0 33 33 44 44
       pand         xmm0, asMaskL;       // xmm0 30 30 40 40
       movups     ci, xmm0; 
       // ci[4] = {4, 4, 3, 3};
}
複製程式碼

shufps指令在上面的程式碼註釋中已經寫到了就不再贅述,這裡在提一下我常用到的pshuflw和pshufhw,既然也有shuf,其實大家就應該想到與shufps指令類似,只是pshuflw是根據指定的立即數取目的暫存器和源暫存器的低64位,取資料的方式與shufps相似,只是每次根據2個二進位制位取出一個word(16位),並且保持目的暫存器的高64位不變;pshufhw 則恰恰相反。

packssdw指令,將目的暫存器的每一個雙字壓縮成一個字把結果存在目的暫存器的低64位,並且把源暫存器的每一個雙字壓縮成一個字把結果存入目的暫存器的高64位。

packsswb指令,與packssdw類似,只是將一個字壓縮成一個位元組。

punpcklbw指令,將目的暫存器和源暫存器的低64位按位元組交叉,將結果存入目的暫存器。

punpcklwd指令,將目的暫存器和源暫存器的低64位按字交叉,將結果存入目的暫存器。

punpckldq指令,將目的暫存器和源暫存器的低64位按雙字交叉,將結果存入目的暫存器。

punpcklqdq指令,將目的暫存器和源暫存器的低64位按四字交叉,將結果存入目的暫存器。

當然也有punpckhbw, punpckhwd, punpckhdq,punpckhqdq,分別是對目的暫存器和源暫存器的高64位做交叉處理的。

寫到這裡,覺得是是否暫停一下,瞭解了這些常用的指令,就可以做我接下來真正要做的工作了。

因此我接下來會寫一寫YUV轉RGB的指令優化。

最後給出intel各種指令集的網址

 https://software.intel.com/sites/landingpage/IntrinsicsGuide/