組合語言開發總結

阿新 • • 發佈：2020-10-26

組合語言是直接對應系統指令集的低階語言，在語言越來越抽象的今天，組合語言並不像高階語言那樣使用廣泛，僅僅在驅動程式，嵌入式系統等對效能要求苛刻的領域才能見到它們的身影。但是這並不表示組合語言就已經沒有用武之地了，通過閱讀彙編程式碼，有助於我們理解編譯器的優化能力，並分析程式碼中隱含的低效率，所以能夠閱讀和理解彙編程式碼也是一項很重要的技能。因為我平時都是在linux環境下工作的，這篇文章就講講linux下的組合語言。

一、彙編語法風格

組合語言分為intel風格和AT＆T風格，前者被Microsoft Windows/Visual C++採用，Linux下，基本採用的是AT＆T風格彙編，兩者語法有很多不同的地方。

1. 暫存器訪問格式不同。在 AT&T 彙編格式中，暫存器名要加上 '%' 作為字首；而在 Intel 彙編格式中，暫存器名不需要加字首。例如：

AT&T	Intel
pushl %eax	push eax

2. 立即數表示不同。在 AT&T 彙編格式中，用 '$' 字首表示一個立即運算元；而在 Intel 彙編格式中，立即數的表示不用帶任何字首。例如：

AT&T	Intel
pushl $1	push 1

3. 運算元順序不同。在 Intel 彙編格式中，目標運算元在源運算元的左邊；而在 AT&T 彙編格式中，目標運算元在源運算元的右邊。例如：

AT&T	Intel
addl $1, %eax	add eax, 1

4. 字長表示不同。在 AT&T 彙編格式中，運算元的字長由操作符的最後一個字母決定，字尾'b'、'w'、'l'分別表示運算元為byte、word和long；而在 Intel 彙編格式中，運算元的字長是用 "byte ptr" 和 "word ptr" 等字首來表示的。例如：

AT&T	Intel
movb val, %eax	mov al, byte ptr val

5. 定址方式表示不同。在 AT&T 彙編格式中，記憶體運算元的定址方式是

section:disp(base, index, scale)

而在 Intel 彙編格式中，記憶體運算元的定址方式為：

section:[base + index*scale + disp]

由於 Linux 工作在保護模式下，用的是 32 位線性地址，所以在計算地址時不用考慮段基址和偏移量，而是採用如下的地址計算方法：

disp + base + index * scale

由此分為以下幾種定址方式：

	Intel	AT＆T
記憶體直接定址	seg_reg: [base + index * scale + immed32]	seg_reg: immed32 (base, index, scale)
暫存器間接定址	[reg]	(%reg)
暫存器變址定址	[reg + _x]	_x(%reg)
立即數變址定址	[reg + 1]	1(%reg)
整數陣列定址	[eax*4 + array]	_array (,%eax, 4)

二、IA32暫存器

1．通用暫存器

顧名思義，通用暫存器是那些你可以根據自己的意願使用的暫存器，但有些也有特殊作用，IA32處理器包括8個通用暫存器，分為3組

1) 資料暫存器

EAX 累加暫存器，常用於運算;在乘除等指令中指定用來存放運算元，另外,所有的I/O指令都使用這一暫存器與外界裝置傳送資料。

EBX 基址暫存器，常用於地址索引

ECX 計數暫存器，常用於計數；常用於儲存計算值，如在移位指令,迴圈(loop)和串處理指令中用作隱含的計數器.
EDX 資料暫存器，常用於資料傳遞。

2) 變址暫存器

ESI 源地址指標

EDI 目的地址指標

3) 指標暫存器

EBP為基址指標(Base Pointer)暫存器，儲存當前棧幀的底部地址。

ESP為堆疊指標(Stack Pointer)暫存器，一直記錄棧頂位置，不可直接訪問，push時ESP減小，pop時增大。

2. 指令指標暫存器

EIP 儲存了下一條要執行的指令的地址，每執行完一條指令EIP都會增加當前指令長度的位移，指向下一條指令。使用者不可直接修改EIP的值，但jmp、call和ret等指令也會改變EIP的值，jmp將EIP修改為目的指令地址，call修改EIP為被調函式第一條指令地址，ret從棧中取出（pop）返回地址存入EIP。

三、函式呼叫過程

函式呼叫時的具體步驟如下：

1. 呼叫函式將被呼叫函式引數入棧，入棧順序由呼叫約定規定，包括cdecl，stdcall，fastcall，naked call等，c編譯器預設使用cdecl約定，引數從右往座入棧。

2. 執行call命令。

call命令做了兩件事情，一是將EIP暫存器內的值壓入棧中，稱為返回地址，函式完成後還要到這個地址繼續執行程式。然後將被呼叫函式第一條指令地址存入EIP中，由此進入被調函式。

3. 被調函式開始執行，先準備當前棧幀的環境，分為3步

pushl %ebp 儲存呼叫函式的基址到棧中，

movl %esp, %ebp 設定EBP為當前被呼叫函式的基址指標，即當前棧頂

subl $xx, %esp 為當前函式分配xx位元組棧空間用於儲存區域性變數

4. 執行被調函式主體

5. 被調函式結束返回，恢復現場，第3步的逆操作，由leave和ret兩條指令完成，

leave 主要恢復棧空間，相當於

movl %ebp, %esp 釋放被調函式棧空間

popl %ebp 恢復ebp為呼叫函式基址

ret 與call指令對應，等於pop %EIP，

6. 返回到呼叫函式，從下一條語句繼續執行

我們來看兩個具體例子，第一個求陣列和，

int ArraySum(int *array, int n){
  int t = 0;
  for(int i=0; i<n; ++i) t += array[i];
  return t;
}

int main() {
  int a[5] = {1, 2, 3, 4, 5 };
  int sum = ArraySum(a, 5);
  return sum;
}

編譯成彙編程式碼

gcc -std=c99 -S -o sum.s sum.c

gcc加入了很多彙編器和聯結器用到的指令，與我們討論的內容無關，簡化彙編程式碼如下：

ArraySum:
    pushl    %ebp
    movl    %esp, %ebp   
    subl    $16, %esp  //分配16位元組棧空間
    movl    $0, -8(%ebp)  //初始化t
    movl    $0, -4(%ebp)  //初始化i
    jmp    .L2
.L3:
    movl    -4(%ebp), %eax
    sall    $2, %eax  //i<<2, 即i*4, 一個int佔4位元組
    addl    8(%ebp), %eax  //得到array[i]地址，array+i*4
    movl    (%eax), %eax   //array[i]
    addl    %eax, -8(%ebp) //t+=array[i]
    addl    $1, -4(%ebp)
.L2:
    movl    -4(%ebp), %eax   
    cmpl    12(%ebp), %eax  //比較i<n
    jl    .L3
    movl    -8(%ebp), %eax //return t; 預設eax存函式返回值
    leave
    ret

main:
.LFB1:
    pushl    %ebp
    movl    %esp, %ebp
    subl    $40, %esp       
    movl    $1, -24(%ebp) //初始化a[0]
    movl    $2, -20(%ebp) //初始化a[1]
    movl    $3, -16(%ebp) //初始化a[2]
    movl    $4, -12(%ebp) //初始化a[3]
    movl    $5, -8(%ebp)   //初始化a[4]
    movl    $5, 4(%esp)    //5作為第二個引數傳給 ArraySum
    leal    -24(%ebp), %eax  //leal產生陣列a的地址
    movl    %eax, (%esp)   //作為第一個引數傳給ArraySum
    call    ArraySum
    movl    %eax, -4(%ebp)  //返回值傳給sum
    movl    -4(%ebp), %eax  //return sum
    leave
    ret

棧變化過程如下：

執行call指令前執行call指令後

從圖中可以看出

1. 陣列連續排列，用move指令逐個賦值，讀取陣列元素方法是，用leal得到陣列首地址，再計算偏移量

2. 引數從右往左入棧

3. gcc為了保證資料是嚴格對齊的，分配的空間大於使用的空間，有部分空間是浪費的

下面這個例子說明了struct結構的實現方法，

struct Point{
  int x;
  int y;
};
void PointInit(struct Point *p, int x, int y){
  p->x = x;
  p->y = y;
}

int main() {
  struct Point p;
  int x = 10;
  int y = 20;
  PointInit(&p, x, y);
  return 0;
}

　　編譯成彙編程式碼，簡化如下：

PointInit:
    pushl    %ebp
    movl    %esp, %ebp
    movl    8(%ebp), %eax    //p的地址
    movl    12(%ebp), %edx  //x
    movl    %edx, (%eax)      //p->x=x
    movl    8(%ebp), %eax
    movl    16(%ebp), %edx  //y
    movl    %edx, 4(%eax)    //p->y=y
    popl    %ebp
    ret

main:
    pushl    %ebp
    movl    %esp, %ebp
    subl    $28, %esp
    movl    $10, -8(%ebp)  //x=10
    movl    $20, -4(%ebp)  y=20
    movl    -4(%ebp), %eax
    movl    %eax, 8(%esp)
    movl    -8(%ebp), %eax
    movl    %eax, 4(%esp)
    leal    -16(%ebp), %eax  //取p地址&p
    movl    %eax, (%esp)
    call    PointInit
    movl    $0, %eax
    leave
    ret

棧圖就不畫了，可以清楚地看出struct跟陣列類似，連續排列，通過相對位移訪問struct的成員，p->y與*(p+sizeof(p->x))有一樣的效果。

四、disassemble和objdump

在linux下有兩個跟彙編有重要關係的命令，一個是objdump，另一個是gdb中的disassemble。

objdump幫助我們從可執行檔案中反彙編出彙編程式碼，從而逆向分析工程。

objdump -d sum

部分彙編程式碼如下

080483b4 <ArraySum>:
 80483b4:    55                       push   %ebp
 80483b5:    89 e5                    mov    %esp,%ebp
 80483b7:    83 ec 10                 sub    $0x10,%esp
 80483ba:    c7 45 f8 00 00 00 00     movl   $0x0,-0x8(%ebp)
 80483c1:    c7 45 fc 00 00 00 00     movl   $0x0,-0x4(%ebp)
 80483c8:    eb 12                    jmp    80483dc <ArraySum+0x28>
 80483ca:    8b 45 fc                 mov    -0x4(%ebp),%eax
 80483cd:    c1 e0 02                 shl    $0x2,%eax
 80483d0:    03 45 08                 add    0x8(%ebp),%eax
 80483d3:    8b 00                    mov    (%eax),%eax
 80483d5:    01 45 f8                 add    %eax,-0x8(%ebp)
 80483d8:    83 45 fc 01              addl   $0x1,-0x4(%ebp)
 80483dc:    8b 45 fc                 mov    -0x4(%ebp),%eax
 80483df:    3b 45 0c                 cmp    0xc(%ebp),%eax
 80483e2:    7c e6                    jl     80483ca <ArraySum+0x16>
 80483e4:    8b 45 f8                 mov    -0x8(%ebp),%eax
 80483e7:    c9                       leave  
 80483e8:    c3                       ret

disassemble可以顯示除錯程式的彙編程式碼，用法如下

disas 反彙編當前函式

disas sum 反彙編sum函式

disas 0x801234 反彙編位於地址 0x801234附近的函式

disas 0x801234 0x802234 返彙編指定範圍內函式

組合語言開發總結

組合語言開發總結

個人部落格 Django 評論模組開發總結【二】資料表以及介面設計

個人部落格 Django 評論模組開發總結【一】Github第三方登陸

個人部落格 Django 評論模組開發總結【四】JavaScript邏輯，請求渲染校驗資料

羚瓏視訊編輯器開發總結

Hadoop之MapReduce開發總結

【開發總結】order by 為什麼沒有走索引？

.net"立體柱狀圖、滑動塊等效果實現" 知易營養健康系統——開發總結

基於 HttpURLConnection 的網路開發總結

庫存賬齡報表開發總結——Sqlserver LAG()的使用

mpvue微信小程式開發總結（二）--- vant-weapp元件

.NET 多執行緒開發總結（四）——藉助非同步語法實現可延時觸發的按鈕

記一次線上閱卷系統設計開發總結

Vue3 + TypeScript 開發總結

一個串列埠測試工具的開發總結

HADOOP MAPREDUCE（12）：MapReduce開發總結

無人地磅自助機開發總結（一）

無人地磅自助機開發總結（三）呼叫電腦本地攝像頭拍照抓拍，新增水印

無人地磅自助機開發總結（四）將抓拍的圖片轉成base64傳給後臺

無人地磅自助機開發總結（五）物理開關，8路繼電器

組合語言開發總結

相關推薦