8. 從0學ARM-內聯彙編、混合彙編、ATPCS規則
一、gcc 內聯彙編
內聯彙編即在C中直接使用匯編語句進行程式設計,使程式可以在C程式中實現C語言不能完成的一些工作,例如,在下面幾種情況中必須使用內聯彙編或嵌入型彙編。
- 程式中使用飽和算術運算(Saturating Arithmetic)
- 程式需要對協處理器進行操作
- 在C程式中完成對程式狀態暫存器的操作
格式:
__asm__ __volatile__("asm code"
:output
:input
:changed registers);
asm或__asm__開頭,小括號+分號,括號內容寫彙編指令。
指令+\n\t 用雙引號引上。
引數
asm code
主要填寫彙編程式碼:
"mov r0, r0\n\t"
"mov r1,r1\n\t"
"mov r2,r2"
output(asm->C)
用於定義輸出的引數,通常只能是變數:
:"constraint" (variable)
"constraint"用於定義variable的存放位置:
r 表示使用任何可用的暫存器
m 表示使用變數的記憶體地址
+ 可讀可寫
= 只寫
& 表示該輸出運算元不能使用輸入部分使用過的暫存器,只能用"+&"或"=&"的方式使用
input(C->asm)
用於定義輸入的引數,可以使變數也可以是立即數:
:"constraint" (variable/immediate) "constraint"用於定義variable的存放位置: r 表示使用任何可用的暫存器(立即數和變數都可以) m 表示使用變數的記憶體地址 i 表示使用立即數
Note:
- 使用__asm__和__volatile__表示編譯器將不檢查後面的內容,而是直接交給彙編器。
- 如果希望編譯器為你優化,__volatile__可以不加
- 沒有asm code也不能省略""
- 沒有前面的和中間的部分,不可以相應的省略:
- 沒有changed 部分,必須相應的省略:
- 最後的;不能省略,對於C語言來說這是一條語句
- 彙編程式碼必須放在一個字串內,且字串中間不能直接按回車換行,可以寫成多個字串,注意中間不能有任何符號,這樣就會將兩個字串合併為一個
- 指令之間必須要換行,還可以使用\t使指令在彙編中保持整齊
舉例
例1:無引數,無返回值
這種情況,output和input可以省略:
asm
( //彙編指令
"mrs r0,cpsr \n\t"
"bic r0,r0,#0x80 \n\t"
"msr cpsr,r0 \n\t"
);
例2:有引數 ,有返回值
讓內聯彙編做加法運算,求a+b,結果存在c中
int a =100, b =200, c =0;
asm
(
"add %0,%1,%2\n\t"
: "=r"(c)
: "r"(a),"r"(b)
: "memory"
);
%0 對應變數c
%1 對應變數a
%2 對應變數b
例3:有引數 2 ,有返回值
讓內聯彙編做加法運算,求a+b,結果存在sum中,把a-b的存在d中
asm volatile
(
"add %[op1],%[op2],%[op3]\n\t"
"sub %[op4],%[op2],%[op3]\n\t"
:[op1]"=r"(sum),[op4]"=r"(d)
:[op2]"r"(a),[op3]"r"(b)
:"memory"
);
%0 對應變數c
%1 對應變數a
%2 對應變數b
三、ATPCS規則:(ARM、thumber程式呼叫規範)
為了使單獨編譯的C語言程式和彙編程式之間能夠相互呼叫,必須為子程式之間的呼叫規定一定的規則.ATPCS就是ARM程式和THUMB程式中子程式呼叫的基本規則。
基本ATPCS規定了在子程式呼叫時的一些基本規則,包括下面3方面的內容:
- 各暫存器的使用規則及其相應的名稱。
- 資料棧的使用規則。
- 引數傳遞的規則。
1. 暫存器的使用必須滿足下面的規則:
-
1)子程式間通過暫存器R0一R3來傳遞引數,這時,暫存器R0~R3可以記作A1-A4。被呼叫的子程式在返回前無需恢復暫存器R0~R3的內容。
-
2)在子程式中,使用暫存器R4~R11來儲存區域性變數.這時,暫存器 R4 ~ R11可以記作V1 ~ V8。
如果在子程式中使用到了暫存器V1~V8中的某些暫存器,子程式進入時必須儲存這些暫存器的值,在返回前必須恢復這些暫存器的值;對於子程式中沒有用到的暫存器則不必進行這些操作。在Thumb程式中,通常只能使用暫存器R4~R7來儲存區域性變數。 -
3)暫存器R12用作過程呼叫時的臨時暫存器(用於儲存SP,在函式返回時使用該暫存器出棧), 記作ip。在子程式間的連線程式碼段中常有這種使用規則。
-
4)暫存器R13用作資料棧指標,記作sp。在子程式中暫存器R13不能用作其他用途。暫存器sp在進入子程式時的值和退出子程式時的值必須相等。
-
5)暫存器R14稱為連線暫存器,記作lr。它用於儲存子程式的返回地址。如果在子程式中儲存了返回地址,暫存器R14則可以用作其他用途。
-
6)暫存器R15是程式計數器,記作pc。它不能用作其他用途。
ATPCS下ARM暫存器的命名:
暫存器 | 別名 | 功能 |
---|---|---|
R0 | a1 | 工作暫存器 |
R1 | a2 | 工作暫存器 |
R2 | a3 | 工作暫存器 |
R3 | a4 | 工作暫存器 |
R4 | v1 | 必須保護;區域性變數暫存器 |
R5 | v2 | 必須保護;區域性變數暫存器 |
R6 | v3 | 必須保護;區域性變數暫存器 |
R7 | v4 | 必須保護;區域性變數暫存器 |
R8 | v5 | 必須保護;區域性變數暫存器 |
R9 | v6 | 必須保護;區域性變數暫存器 |
R10 | sl | 棧限制 |
R11 | fp | 幀指標 |
R12 | ip | 指令指標 |
R13 | sp | 棧指標 |
R14 | lr | 連線暫存器 |
2、堆疊使用規則:
ATPCS規定堆疊為FD型別,即滿遞減堆疊。並且堆疊的操作是8位元組對齊。
而對於彙編程式來說,如果目標檔案中包含了外部呼叫,則必須滿足以下條件:
-
外部介面的資料棧一定是8位對齊的,也就是要保證在進入該彙編程式碼後,直到該彙編程式呼叫外部程式碼之間,資料棧的棧指標變化為偶數個字;
-
在彙編程式中使用PRESERVE8偽操作告訴聯結器,本彙編程式是8位元組對齊的.
3、引數的傳遞規則:
根據引數個數是否固定,可以將子程式分為引數個數固定的子程式和引數個數可變的子程式.這兩種子程式的引數傳遞規則是不同的.
1.引數個數可變的子程式引數傳遞規則
對於引數個數可變的子程式,當引數不超過4個時,可以使用暫存器R0~R3來進行引數傳遞,當引數超過4個時,還可以使用資料棧來傳遞引數.
在引數傳遞時,將所有引數看做是存放在連續的記憶體單元中的字資料。然後,依次將各名字資料傳送到暫存器R0,R1,R2,R3; 如果引數多於4個,將剩餘的字資料傳送到資料棧中,入棧的順序與引數順序相反,即最後一個字資料先入棧.
按照上面的規則,一個浮點數引數可以通過暫存器傳遞,也可以通過資料棧傳遞,也可能一半通過暫存器傳遞,另一半通過資料棧傳遞。
舉例:
void func(a,b,c,d,e)
a -- r0
b -- r1
c -- r2
d -- r3
e -- 棧
2.引數個數固定的子程式引數傳遞規則
對於引數個數固定的子程式,引數傳遞與引數個數可變的子程式引數傳遞規則不同,如果系統包含浮點運算的硬體部件。
浮點引數將按照下面的規則傳遞:
(1)各個浮點引數按順序處理;
(2)為每個浮點引數分配FP暫存器;
分配的方法是,滿足該浮點引數需要的且編號最小的一組連續的FP暫存器.第一個整數引數通過暫存器R0~R3來傳遞,其他引數通過資料棧傳遞.
3、子程式結果返回規則
- 1.結果為一個32位的整數時,可以通過暫存器R0返回.
- 2.結果為一個64位整數時,可以通過R0和R1返回,依此類推.
- 3.對於位數更多的結果,需要通過呼叫記憶體來傳遞.
舉例:
使用r0 接收返回值
int func1(int m, int n)
m -- r0
n -- r1
返回值給 r0
為什麼有的程式設計規範要求自定義函式的引數不要超過4個?
答:因為引數超過4個就需要壓棧退棧,而壓棧退棧需要增加很多指令週期。
對於引數比較多的情況,我們可以把資料封裝到結構體中,然後傳遞結構體變數的地址。
四、C語言和彙編相互呼叫
C和彙編相互呼叫要特別注意遵守相應的ATPCS規則。
1. C調用匯編
例1:c調用匯編檔案中函式帶返回值
簡化程式碼如下,程式碼架構可以參考《7. 從0開始學ARM-GNU偽指令、程式碼編譯,lds使用》。
;.asm
add:
add r2,r0,r1
mov r0,r2
MOV pc, lr
main.c
extern int add(int a,int b);
printf("%d \n",add(2,3));
- a->r0,b->r1
- 返回值通過r0返回計算結果給c程式碼
例2,用匯編實現一個strcopy函式
;.asm
.global strcopy
strcopy: ;R0指向目的字串 ;R1指向源字串
LDRB R2, [R1], #1 ;載入字字元並更新源字串指標地址
STRB R2, [R0], #1 ;儲存字元並更新目的字串指標地址
CMP R2, #0 ;判斷是否為字串結尾
BNE strcopy ;如果不是,程式跳轉到strcopy繼續迴圈
MOV pc, lr ;程式返回
//.c
#include <stdio.h>
extern void strcopy(char* des, const char* src);
int main(){
const char* srcstr = "yikoulinux";
char desstr[]="test";
strcopy(desstr, srcstr);
return 0;
}
2. 彙編呼叫C
//.c
int fcn(int a, int b , int c, int d, int e)
{
return a+b+c+d+e;
}
;.asm ;
.text .global _start
_start:
STR lr, [sp, #-4]! ;儲存返回地址lr
ADD R1, R0, R0 ;計算2*i(第2個引數)
ADD R2, R1, R0 ;計算3*i(第3個引數)
ADD R3, R1, R2 ;計算5*i
STR R3, [SP, #-4]! ;第5個引數通過堆疊傳遞
ADD R3, R1, R1 ;計算4*i(第4個引數)
BL fcn ;呼叫C程式
ADD sp, sp, #4 ;從堆疊中刪除第五個引數
.end
假設程式進入f時,R0中的值為i ;
int f(int i){
return fcn(i, 2*i, 3*i, 4*i, 5*i);
}
五、其他例項
為了讓讀者有個更加深刻的理解, 以核心中的例子為例:
arch/arm/kernel/setup.c
void notrace cpu_init(void)
{
unsigned int cpu = smp_processor_id();----獲取CPU ID
struct stack *stk = &stacks[cpu];----獲取該CPU對於的irq abt和und的stack指標
……
#ifdef CONFIG_THUMB2_KERNEL
#define PLC "r"----Thumb-2下,msr指令不允許使用立即數,只能使用暫存器。
#else
#define PLC "I"
#endif __asm__ (
"msr cpsr_c, %1\n\t"----讓CPU進入IRQ mode
"add r14, %0, %2\n\t"----r14暫存器儲存stk->irq
"mov sp, r14\n\t"----設定IRQ mode的stack為stk->irq
"msr cpsr_c, %3\n\t"
"add r14, %0, %4\n\t"
"mov sp, r14\n\t"----設定abt mode的stack為stk->abt
"msr cpsr_c, %5\n\t"
"add r14, %0, %6\n\t"
"mov sp, r14\n\t"----設定und mode的stack為stk->und
"msr cpsr_c, %7"---回到SVC mode
:----上面是code,下面的output部分是空的
: "r" (stk),----對應上面程式碼中的%0
PLC (PSR_F_BIT | PSR_I_BIT | IRQ_MODE),----對應上面程式碼中的%1
"I" (offsetof(struct stack, irq[0])),----對應上面程式碼中的%2
PLC (PSR_F_BIT | PSR_I_BIT | ABT_MODE),----以此類推,下面不贅述
"I" (offsetof(struct stack, abt[0])),
PLC (PSR_F_BIT | PSR_I_BIT | UND_MODE),
"I" (offsetof(struct stack, und[0])),
PLC (PSR_F_BIT | PSR_I_BIT | SVC_MODE)
: "r14");----上面是input運算元列表,r14是要clobbered register列表
}