MIT 6.828 Lab 1/ Part 2

Exercise 03

- obj/boot/boot.asm 反彙編檔案
  • 擷取asm部分檔案並註釋理解
  # Set up the important data segment registers (DS, ES, SS).
  xorw    %ax,%ax             # Segment number zero
    7c02:	31 c0                	xor    %eax,%eax
 //指令地址: 指令機器碼      指令機器碼反彙編到的指令
  movw    %ax,%ds             # -> Data Segment
    7c04:	8e d8                	mov    %eax,%ds
  movw    %ax,%es             # -> Extra Segment
    7c06:	8e c0                	mov    %eax,%es
  movw    %ax,%ss             # -> Stack Segment
    7c08:	8e d0                	mov    %eax,%ss
  • 在bootloader第一條語句 0x7C00處設定斷點並對比檢視後續指令(與boot.asm對比)

  1. At what point does the processor start executing 32-bit code? What exactly causes the switch from 16- to 32-bit mode?

    • 當計算機加電後首先以真實模式(real mode)執行,此時為16-bit;

      當執行 ljmp $PROT_MODE_CSEG, $protcseg後切換到32-bit,因為此時需要執行保護模式,而linux系統下的保護模式為32-bit

  2. What is the last instruction of the boot loader executed, and what is the first instruction of the kernel it just loaded?

    • boot loader執行的最後一條語句是bootmain子程式中的最後一條語句 ” ((void (*)(void)) (ELFHDR->e_entry))(); “,即跳轉到作業系統核心程式的起始指令處。
    • 這個第一條指令位於/kern/entry.S檔案中,第一句 movw $0x1234, 0x472
  3. Where is the first instruction of the kernel?

    • 第一條指令位於/kern/entry.S檔案中
  4. How does the boot loader decide how many sectors it must read in order to fetch the entire kernel from disk? Where does it find this information?

    • 首先關於作業系統一共有多少個段,每個段又有多少個扇區的資訊位於作業系統檔案中的Program Header Table中。這個表中的每個表項分別對應作業系統的一個段。並且每個表項的內容包括這個段的大小,段起始地址偏移等等資訊。所以如果我們能夠找到這個表,那麼就能夠通過表項所提供的資訊來確定核心佔用多少個扇區。
    • 那麼關於這個表存放在哪裡的資訊,則是存放在作業系統核心映像檔案的ELF頭部資訊中。

Exercise 04

讀pointer.c 程式碼複習c語言指標用法
#include <stdio.h>
#include <stdlib.h>

    int a[4];
    int *b = malloc(16);   //申請一個15位元組的記憶體塊大小並返回一個指標
    int *c;
    int i;

    printf("1: a = %p, b = %p, c = %p\n", a, b, c);  //列印地址

    c = a;                                 //指標C 指向陣列a的首地址
    for (i = 0; i < 4; i++)
	a[i] = 100 + i;                        //給a陣列賦值100~103
    c[0] = 200;                            //給c[0]賦值200, 也就是修改a[0]
    printf("2: a[0] = %d, a[1] = %d, a[2] = %d, a[3] = %d\n",
	   a[0], a[1], a[2], a[3]);           //列印陣列a的值

    c[1] = 300;                           //修改a[1]
    *(c + 2) = 301;                       //指標+2,代表是index+2,指向的是c[2]
    3[c] = 302;                           //c編譯器當成*(3+c),故c[3]=302
    printf("3: a[0] = %d, a[1] = %d, a[2] = %d, a[3] = %d\n",
	   a[0], a[1], a[2], a[3]);           //200 300 301 302

    c = c + 1;                            //c指標前移,指向a[1]
    *c = 400;                             //a[1]=400
    printf("4: a[0] = %d, a[1] = %d, a[2] = %d, a[3] = %d\n",
	   a[0], a[1], a[2], a[3]);           //200 400 301 302

    c = (int *) ((char *) c + 1);         //char型別佔1個位元組,int型別佔16位(2位元組),所以此時c指標先被轉換為char型別,然後+1,相當於指向了下一個位元組,即a[1]的第二個位元組,然後再改為int*,即控制物件為16位;
    *c = 500;                             //修改c指標指向的內容,a[1]a[2]都會受影響
    printf("5: a[0] = %d, a[1] = %d, a[2] = %d, a[3] = %d\n",
	   a[0], a[1], a[2], a[3]);           //200 128144 256 302

    b = (int *) a + 1;                    //b指標指向a的下一個物件(後移16個位元組)
    c = (int *) ((char *) a + 1);         //與第一次c的改變類似
    printf("6: a = %p, b = %p, c = %p\n", a, b, c);

main(int ac, char **av)
    return 0;



  • char型別佔1個位元組;int/short型別佔2位元組(16位);long型別佔4位元組
  • int *ip 表明*ip 是 int型別的; *ip=\*ip+10 就是*ip的內容+10
  • (*ip)++的括號不可以省略,因為*/++運算子是遵循從右至左的結合順序
  • int *pa; pa+1將指向下一個int物件
  • a[10] ; pa=a; 那麼pa[i] 等價於*(pa+i)等價於a[i]
  • 3[a]也成立,c編譯器當成:*(3+i)
  • int *pa; pa = &a[0] 與 pa = a 等價;

ELF binary 解析

  1. compiler 將(.c)file → (.o)file[包含二進位制組合語言指令]
  2. linker將所有的compiled objects files 合併成binary image[即 a binary in ELF format]
ELF binary 關注
  • 將ELF executable 當作是 a header with loading information

  • 關注ELF binary中的變長的program header段(記錄program sections的資訊) 以及 具體的program sections

  • 練習要求:

    Examine the full list of the names, sizes, and link addresses of all the sections in the kernel executable

連結地址 & 執行地址

VMA(link address,連結地址):The link address of a section is the memory address from which the section expects to execute.

LMA(load address,載入地址): The load address of a section is the memory address at which that section should be loaded into memory.

補充材料:(清華 ucore)

Link addr& Load addr

Link Address是指編譯器指定程式碼和資料所需要放置的記憶體地址,由連結器配置。Load Address是指程式被實際載入到記憶體的位置(由程式載入器ld配置)。一般由可執行檔案結構資訊和載入器可保證這兩個地址相同。Link Addr和LoadAddr不同會導致:

  • 直接跳轉位置錯誤
  • 直接記憶體訪問(只讀資料區或bss等直接地址訪問)錯誤
  • 堆和棧等的使用不受影響,但是可能會覆蓋程式、資料區域
  • 編譯-連結-裝入
  • 裝入:

    • 絕對裝入:固定地址再定位,程式地址在編譯連結時直接制定程式在執行時訪問的實際儲存器地址

    • 靜態重定位裝入:裝入程式在程式執行之前地址在定位,執行期間不會改變

    • 動態重定位裝入:程式裝入時不修改邏輯地址,訪問實體記憶體前再實時地修改邏輯地址為實體地址

  • objdump指令:objdump命令是Linux下的反彙編目標檔案或者可執行檔案的命令,它以一種可閱讀的格式讓你更多地瞭解二進位制檔案可能帶有的附加資訊。

  • objdump -h obj/kern/kernel

  • objdump -h obj/boot/boot.out

  • objdump -x obj/kern/kernel
    • "vaddr" Other information for each program header is given, such as the virtual address ,
    • "paddr"the physical address
    • "memsz" and "filesz"the size of the loaded area

Exercise 05

上面引入了VMA 和 LMA,理解如下:

  • 連結地址:可以理解為通過編譯器連結器處理形成的可執行程式中指令的地址,即邏輯地址
  • 載入地址則是可執行檔案真正被裝入記憶體後執行的地址,即實體地址

⚠ 由於在boot loader執行時還沒有任何的分段處理機制,或分頁處理機制,所以boot loader可執行程式中的連結地址就應該等於載入地址。

  • step01:拷貝原有的obj/boot/boot.asm 以便用來比較
  • step02:開啟boot/Makefrag檔案,修改連結地址,這裡改為0x7E00

  • step03:在lab下輸入make,重新編譯核心,首先檢視一下obj/boot/boot.asm,並且和之前的那個obj/boot/boot.asm檔案做比較。下圖是新編譯出來的boot.asm:





  • step04:然後我們還是按照原來的方式,除錯一下核心:

  由於BIOS會把boot loader程式預設裝入到0x7c00處,所以我們還是再0x7C00處設定斷點,並且執行到那裡,結果發現如下:






    lgdtw 0x7e64





     ljmp $0x08m $0x7e32

  應該跳轉到的地址應該就是ljmp的下一條指令地址,即0x7c32,但是這裡給的值是0x7e32,所以造成錯誤,此時下條指令變成了0xfe05b。 然後後面 就..全面崩盤

Excersise 06:

- kernel起始地址檢視

objdump -f obj/kern/kernel

- 理解boot/main.c 裡面的ELF loader

minimal ELF loader 把kernel裡面的每個section從disk 按照section's load address讀進memory之後, 跳到了kernel的entry point

- 知識概要總結
  • BIOS負責執行基本的系統初始化,從某些適當的位置(如 floppy disk(軟盤), hard disk, CD-ROM, or the network)載入作業系統,並將機器的控制權給作業系統(通過jmp指令將CS:IP設定為0000:7c00,0x7c00the boot sector被載入到的實體地址)
  • the boot loader將處理器從16-bit real model切換到32-bit protected model,使得1M以上的記憶體地址可以訪問(主要boot.S完成。將控制訊號傳遞0x60與0x64埠,載入GDT表,將CR0的bit0位設為1,call bootmain)。還從硬碟中讀取核心到記憶體並跳轉到核心入口地址(主要main.c完成。先讀取ELF program headers,然後通過ELFHDR內的資訊將kernel載入到記憶體正確位置,最後跳轉核心入口地址0x00100000
  • the boot loader將核心載入到記憶體的實體地址(載入地址)是0x00100000,但核心在記憶體中的虛擬地址(連結地址)是0xf0100000
  • CR0中的兩個控制位PG (Paging)和PE(Protection Enable)。只有在保護方式下(PE=1)分頁機制才可能生效。PE=1, PG=1,分頁機制生效,把線性地址轉換為實體地址。PE=1, PG=0,分頁機制無效,線性地址就直接作為實體地址。
  • 資料在記憶體中有大端(big-endian)格式–高尾端,尾端放在高地址處和小端(little-endian)格式—低尾端, 尾端放在低地址處
  • backtrace函式實現的關鍵在於ebp。當前ebp指向當前子程式的棧幀(frame)基地址,地址記憶體的是caller的棧幀基地址,裡面存的又是再外層的caller的棧幀基地址,這樣就可以區分出每一層程式的棧幀,從而實現回溯。
  1. 開機第一條指令:0xffff0 BIOS系統啟動,這裡只是存放了一條跳轉指令,
  2. BIOS 基本輸入/輸出系統,其本質是一個固化在主機板Flash/CMOS上的軟體)和位於軟盤/硬碟引導扇區中的OS Boot Loader(在ucore中的bootasm.S和bootmain.c)一起組成。通過跳轉指令跳到BIOS例行程式起始點(0xe05b)。BIOS做完計算機硬體自檢和初始化後,會選擇一個啟動裝置(例如軟盤、硬碟、光碟等),並且讀取該裝置的第一扇區(即主引導扇區或啟動扇區)到記憶體一個特定的地址0x7c00處,然後CPU控制權會轉移到那個地址繼續執行。
  3. boot loader 載入核心並跳到核心入口 0x0010000c
    • 注意:核心載入到記憶體的實體地址(載入地址)是0x00100000,但核心在記憶體中的虛擬地址(連結地址)是0xf0100000
- Exercise 06
  1. BIOS切換到boot loader之前,檢查記憶體0x100000處8個word(此處1個word=2bytes)
    • 往後8個 word全是0
  2. 當boot loader將核心載入到記憶體之後,再檢查
    • 往後8個word有內容了


  1. boot loader 進入到核心:

    • 從kernel檔案中可以看到起始地址為0x10000c
    • 從main.c檔案中看到e_entry的地址:

  1. 疑惑: