Linux 核心的同步機制--semaphore, rw_semaphore
在現代作業系統裡,同一時間可能有多個核心執行流在執行,因此核心其實象多程序多執行緒程式設計一樣也需要一些同步機制來同步各執行單元對共享資料的訪問。尤其是在多處理器系統上,更需要一些同步機制來同步不同處理器上的執行單元對共享的資料的訪問。在主流的Linux核心中包含了幾乎所有現代的作業系統具有的同步機制,這些同步機制包括:原子操作、訊號量(semaphore)、讀寫訊號量(rw_semaphore)、spinlock、BKL(Big Kernel Lock)、rwlock、brlock(只包含在2.4核心中)、RCU(只包含在2.6核心中)和seqlock(只包含在2.6核心中)。
本文的下面各章節將詳細講述每一種同步機制的原理、用途、API以及典型應用示例。
所謂原子操作,就是該操作絕不會在執行完畢前被任何其他任務或事件打斷,也就說,它的最小的執行單位,不可能有比它更小的執行單位,因此這裡的原子實際是使用了物理學裡的物質微粒的概念。
原子操作需要硬體的支援,因此是架構相關的,其API和原子型別的定義都定義在核心原始碼樹的include/asm/atomic.h檔案中,它們都使用匯編語言實現,因為C語言並不能實現這樣的操作。
原子操作主要用於實現資源計數,很多引用計數(refcnt)就是通過原子操作實現的。
原子型別定義如下:
typedef struct { volatile int counter; } atomic_t; |
volatile修飾字段告訴gcc不要對該型別的資料做優化處理,對它的訪問都是對記憶體的訪問,而不是對暫存器的訪問。
原子操作API包括:
atomic_read(atomic_t * v); |
該函式對原子型別的變數進行原子讀操作,它返回原子型別的變數v的值。
atomic_set(atomic_t * v, int i); |
該函式設定原子型別的變數v的值為i。
void atomic_add(int i, atomic_t *v); |
該函式給原子型別的變數v增加值i。
atomic_sub(int i, atomic_t *v); |
該函式從原子型別的變數v中減去i。
int atomic_sub_and_test(int i, atomic_t *v); |
該函式從原子型別的變數v中減去i,並判斷結果是否為0,如果為0,返回真,否則返回假。
void atomic_inc(atomic_t *v); |
該函式對原子型別變數v原子地增加1。
void atomic_dec(atomic_t *v); |
該函式對原子型別的變數v原子地減1。
int atomic_dec_and_test(atomic_t *v); |
該函式對原子型別的變數v原子地減1,並判斷結果是否為0,如果為0,返回真,否則返回假。
int atomic_inc_and_test(atomic_t *v); |
該函式對原子型別的變數v原子地增加1,並判斷結果是否為0,如果為0,返回真,否則返回假。
int atomic_add_negative(int i, atomic_t *v); |
該函式對原子型別的變數v原子地增加I,並判斷結果是否為負數,如果是,返回真,否則返回假。
int atomic_add_return(int i, atomic_t *v); |
該函式對原子型別的變數v原子地增加i,並且返回指向v的指標。
int atomic_sub_return(int i, atomic_t *v); |
該函式從原子型別的變數v中減去i,並且返回指向v的指標。
int atomic_inc_return(atomic_t * v); |
該函式對原子型別的變數v原子地增加1並且返回指向v的指標。
int atomic_dec_return(atomic_t * v); |
該函式對原子型別的變數v原子地減1並且返回指向v的指標。
原子操作通常用於實現資源的引用計數,在TCP/IP協議棧的IP碎片處理中,就使用了引用計數,碎片佇列結構struct ipq描述了一個IP碎片,欄位refcnt就是引用計數器,它的型別為atomic_t,當建立IP碎片時(在函式ip_frag_create中),使用atomic_set函式把它設定為1,當引用該IP碎片時,就使用函式atomic_inc把引用計數加1,當不需要引用該IP碎片時,就使用函式ipq_put來釋放該IP碎片,ipq_put使用函式atomic_dec_and_test把引用計數減1並判斷引用計數是否為0,如果是就釋放IP碎片。函式ipq_kill把IP碎片從ipq佇列中刪除,並把該刪除的IP碎片的引用計數減1(通過使用函式atomic_dec實現)。
Linux核心的訊號量在概念和原理上與使用者態的System V的IPC機制訊號量是一樣的,但是它絕不可能在核心之外使用,因此它與System V的IPC機制訊號量毫不相干。
訊號量在建立時需要設定一個初始值,表示同時可以有幾個任務可以訪問該訊號量保護的共享資源,初始值為1就變成互斥鎖(Mutex),即同時只能有一個任務可以訪問訊號量保護的共享資源。一個任務要想訪問共享資源,首先必須得到訊號量,獲取訊號量的操作將把訊號量的值減1,若當前訊號量的值為負數,表明無法獲得訊號量,該任務必須掛起在該訊號量的等待佇列等待該訊號量可用;若當前訊號量的值為非負數,表示可以獲得訊號量,因而可以立刻訪問被該訊號量保護的共享資源。當任務訪問完被訊號量保護的共享資源後,必須釋放訊號量,釋放訊號量通過把訊號量的值加1實現,如果訊號量的值為非正數,表明有任務等待當前訊號量,因此它也喚醒所有等待該訊號量的任務。
訊號量的API有:
DECLARE_MUTEX(name) |
該巨集宣告一個訊號量name並初始化它的值為0,即宣告一個互斥鎖。
DECLARE_MUTEX_LOCKED(name) |
該巨集宣告一個互斥鎖name,但把它的初始值設定為0,即鎖在建立時就處在已鎖狀態。因此對於這種鎖,一般是先釋放後獲得。
void sema_init (struct semaphore *sem, int val); |
該函用於數初始化設定訊號量的初值,它設定訊號量sem的值為val。
void init_MUTEX (struct semaphore *sem); |
該函式用於初始化一個互斥鎖,即它把訊號量sem的值設定為1。
void init_MUTEX_LOCKED (struct semaphore *sem); |
該函式也用於初始化一個互斥鎖,但它把訊號量sem的值設定為0,即一開始就處在已鎖狀態。
void down(struct semaphore * sem); |
該函式用於獲得訊號量sem,它會導致睡眠,因此不能在中斷上下文(包括IRQ上下文和softirq上下文)使用該函式。該函式將把sem的值減1,如果訊號量sem的值非負,就直接返回,否則呼叫者將被掛起,直到別的任務釋放該訊號量才能繼續執行。
int down_interruptible(struct semaphore * sem); |
該函式功能與down類似,不同之處為,down不會被訊號(signal)打斷,但down_interruptible能被訊號打斷,因此該函式有返回值來區分是正常返回還是被訊號中斷,如果返回0,表示獲得訊號量正常返回,如果被訊號打斷,返回-EINTR。
int down_trylock(struct semaphore * sem); |
該函式試著獲得訊號量sem,如果能夠立刻獲得,它就獲得該訊號量並返回0,否則,表示不能獲得訊號量sem,返回值為非0值。因此,它不會導致呼叫者睡眠,可以在中斷上下文使用。
void up(struct semaphore * sem); |
該函式釋放訊號量sem,即把sem的值加1,如果sem的值為非正數,表明有任務等待該訊號量,因此喚醒這些等待者。
訊號量在絕大部分情況下作為互斥鎖使用,下面以console驅動系統為例說明訊號量的使用。
在核心原始碼樹的kernel/printk.c中,使用巨集DECLARE_MUTEX聲明瞭一個互斥鎖console_sem,它用於保護console驅動列表console_drivers以及同步對整個console驅動系統的訪問,其中定義了函式acquire_console_sem來獲得互斥鎖console_sem,定義了release_console_sem來釋放互斥鎖console_sem,定義了函式try_acquire_console_sem來盡力得到互斥鎖console_sem。這三個函式實際上是分別對函式down,up和down_trylock的簡單包裝。需要訪問console_drivers驅動列表時就需要使用acquire_console_sem來保護console_drivers列表,當訪問完該列表後,就呼叫release_console_sem釋放訊號量console_sem。函式console_unblank,console_device,console_stop,console_start,register_console和unregister_console都需要訪問console_drivers,因此它們都使用函式對acquire_console_sem和release_console_sem來對console_drivers進行保護。
讀寫訊號量對訪問者進行了細分,或者為讀者,或者為寫者,讀者在保持讀寫訊號量期間只能對該讀寫訊號量保護的共享資源進行讀訪問,如果一個任務除了需要讀,可能還需要寫,那麼它必須被歸類為寫者,它在對共享資源訪問之前必須先獲得寫者身份,寫者在發現自己不需要寫訪問的情況下可以降級為讀者。讀寫訊號量同時擁有的讀者數不受限制,也就說可以有任意多個讀者同時擁有一個讀寫訊號量。如果一個讀寫訊號量當前沒有被寫者擁有並且也沒有寫者等待讀者釋放訊號量,那麼任何讀者都可以成功獲得該讀寫訊號量;否則,讀者必須被掛起直到寫者釋放該訊號量。如果一個讀寫訊號量當前沒有被讀者或寫者擁有並且也沒有寫者等待該訊號量,那麼一個寫者可以成功獲得該讀寫訊號量,否則寫者將被掛起,直到沒有任何訪問者。因此,寫者是排他性的,獨佔性的。
讀寫訊號量有兩種實現,一種是通用的,不依賴於硬體架構,因此,增加新的架構不需要重新實現它,但缺點是效能低,獲得和釋放讀寫訊號量的開銷大;另一種是架構相關的,因此效能高,獲取和釋放讀寫訊號量的開銷小,但增加新的架構需要重新實現。在核心配置時,可以通過選項去控制使用哪一種實現。
讀寫訊號量的相關API有:
DECLARE_RWSEM(name) |
該巨集宣告一個讀寫訊號量name並對其進行初始化。
void init_rwsem(struct rw_semaphore *sem); |
該函式對讀寫訊號量sem進行初始化。
void down_read(struct rw_semaphore *sem); |
讀者呼叫該函式來得到讀寫訊號量sem。該函式會導致呼叫者睡眠,因此只能在程序上下文使用。
int down_read_trylock(struct rw_semaphore *sem); |
該函式類似於down_read,只是它不會導致呼叫者睡眠。它盡力得到讀寫訊號量sem,如果能夠立即得到,它就得到該讀寫訊號量,並且返回1,否則表示不能立刻得到該訊號量,返回0。因此,它也可以在中斷上下文使用。
void down_write(struct rw_semaphore *sem); |
寫者使用該函式來得到讀寫訊號量sem,它也會導致呼叫者睡眠,因此只能在程序上下文使用。
int down_write_trylock(struct rw_semaphore *sem); |
該函式類似於down_write,只是它不會導致呼叫者睡眠。該函式盡力得到讀寫訊號量,如果能夠立刻獲得,就獲得該讀寫訊號量並且返回1,否則表示無法立刻獲得,返回0。它可以在中斷上下文使用。
void up_read(struct rw_semaphore *sem); |
讀者使用該函式釋放讀寫訊號量sem。它與down_read或down_read_trylock配對使用。如果down_read_trylock返回0,不需要呼叫up_read來釋放讀寫訊號量,因為根本就沒有獲得訊號量。
void up_write(struct rw_semaphore *sem); |
寫者呼叫該函式釋放訊號量sem。它與down_write或down_write_trylock配對使用。如果down_write_trylock返回0,不需要呼叫up_write,因為返回0表示沒有獲得該讀寫訊號量。
void downgrade_write(struct rw_semaphore *sem); |
該函式用於把寫者降級為讀者,這有時是必要的。因為寫者是排他性的,因此在寫者保持讀寫訊號量期間,任何讀者或寫者都將無法訪問該讀寫訊號量保護的共享資源,對於那些當前條件下不需要寫訪問的寫者,降級為讀者將,使得等待訪問的讀者能夠立刻訪問,從而增加了併發性,提高了效率。
讀寫訊號量適於在讀多寫少的情況下使用,在linux核心中對程序的記憶體映像描述結構的訪問就使用了讀寫訊號量進行保護。在Linux中,每一個程序都用一個型別為task_t或struct task_struct的結構來描述,該結構的型別為struct mm_struct的欄位mm描述了程序的記憶體映像,特別是mm_struct結構的mmap欄位維護了整個程序的記憶體塊列表,該列表將在程序生存期間被大量地遍利或修改,因此mm_struct結構就有一個欄位mmap_sem來對mmap的訪問進行保護,mmap_sem就是一個讀寫訊號量,在proc檔案系統裡有很多程序記憶體使用情況的介面,通過它們能夠檢視某一程序的記憶體使用情況,命令free、ps和top都是通過proc來得到記憶體使用資訊的,proc介面就使用down_read和up_read來讀取程序的mmap資訊。當程序動態地分配或釋放記憶體時,需要修改mmap來反映分配或釋放後的記憶體映像,因此動態記憶體分配或釋放操作需要以寫者身份獲得讀寫訊號量mmap_sem來對mmap進行更新。系統呼叫brk和munmap就使用了down_write和up_write來保護對mmap的訪問。
自旋鎖與互斥鎖有點類似,只是自旋鎖不會引起呼叫者睡眠,如果自旋鎖已經被別的執行單元保持,呼叫者就一直迴圈在那裡看是否該自旋鎖的保持者已經釋放了鎖,"自旋"一詞就是因此而得名。由於自旋鎖使用者一般保持鎖時間非常短,因此選擇自旋而不是睡眠是非常必要的,自旋鎖的效率遠高於互斥鎖。
訊號量和讀寫訊號量適合於保持時間較長的情況,它們會導致呼叫者睡眠,因此只能在程序上下文使用(_trylock的變種能夠在中斷上下文使用),而自旋鎖適合於保持時間非常短的情況,它可以在任何上下文使用。如果被保護的共享資源只在程序上下文訪問,使用訊號量保護該共享資源非常合適,如果對共巷資源的訪問時間非常短,自旋鎖也可以。但是如果被保護的共享資源需要在中斷上下文訪問(包括底半部即中斷處理控制代碼和頂半部即軟中斷),就必須使用自旋鎖。
自旋鎖保持期間是搶佔失效的,而訊號量和讀寫訊號量保持期間是可以被搶佔的。自旋鎖只有在核心可搶佔或SMP的情況下才真正需要,在單CPU且不可搶佔的核心下,自旋鎖的所有操作都是空操作。
跟互斥鎖一樣,一個執行單元要想訪問被自旋鎖保護的共享資源,必須先得到鎖,在訪問完共享資源後,必須釋放鎖。如果在獲取自旋鎖時,沒有任何執行單元保持該鎖,那麼將立即得到鎖;如果在獲取自旋鎖時鎖已經有保持者,那麼獲取鎖操作將自旋在那裡,直到該自旋鎖的保持者釋放了鎖。
無論是互斥鎖,還是自旋鎖,在任何時刻,最多隻能有一個保持者,也就說,在任何時刻最多隻能有一個執行單元獲得鎖。
自旋鎖的API有:
spin_lock_init(x) |
該巨集用於初始化自旋鎖x。自旋鎖在真正使用前必須先初始化。該巨集用於動態初始化。
DEFINE_SPINLOCK(x) |
該巨集宣告一個自旋鎖x並初始化它。該巨集在2.6.11中第一次被定義,在先前的核心中並沒有該巨集。
SPIN_LOCK_UNLOCKED |
該巨集用於靜態初始化一個自旋鎖。
DEFINE_SPINLOCK(x)等同於spinlock_t x = SPIN_LOCK_UNLOCKED spin_is_locked(x) |
該巨集用於判斷自旋鎖x是否已經被某執行單元保持(即被鎖),如果是,返回真,否則返回假。
spin_unlock_wait(x) |
該巨集用於等待自旋鎖x變得沒有被任何執行單元保持,如果沒有任何執行單元保持該自旋鎖,該巨集立即返回,否則將迴圈在那裡,直到該自旋鎖被保持者釋放。
spin_trylock(lock) |
該巨集盡力獲得自旋鎖lock,如果能立即獲得鎖,它獲得鎖並返回真,否則不能立即獲得鎖,立即返回假。它不會自旋等待lock被釋放。
spin_lock(lock) |
該巨集用於獲得自旋鎖lock,如果能夠立即獲得鎖,它就馬上返回,否則,它將自旋在那裡,直到該自旋鎖的保持者釋放,這時,它獲得鎖並返回。總之,只有它獲得鎖才返回。
spin_lock_irqsave(lock, flags) |
該巨集獲得自旋鎖的同時把標誌暫存器的值儲存到變數flags中並失效本地中斷。
spin_lock_irq(lock) |
該巨集類似於spin_lock_irqsave,只是該巨集不儲存標誌暫存器的值。
spin_lock_bh(lock) |
該巨集在得到自旋鎖的同時失效本地軟中斷。
spin_unlock(lock) |
該巨集釋放自旋鎖lock,它與spin_trylock或spin_lock配對使用。如果spin_trylock返回假,表明沒有獲得自旋鎖,因此不必使用spin_unlock釋放。
spin_unlock_irqrestore(lock, flags) |
該巨集釋放自旋鎖lock的同時,也恢復標誌暫存器的值為變數flags儲存的值。它與spin_lock_irqsave配對使用。
spin_unlock_irq(lock) |
該巨集釋放自旋鎖lock的同時,也使能本地中斷。它與spin_lock_irq配對應用。
spin_unlock_bh(lock) |
該巨集釋放自旋鎖lock的同時,也使能本地的軟中斷。它與spin_lock_bh配對使用。
spin_trylock_irqsave(lock, flags) |
該巨集如果獲得自旋鎖lock,它也將儲存標誌暫存器的值到變數flags中,並且失效本地中斷,如果沒有獲得鎖,它什麼也不做。因此如果能夠立即獲得鎖,它等同於spin_lock_irqsave,如果不能獲得鎖,它等同於spin_trylock。如果該巨集獲得自旋鎖lock,那需要使用spin_unlock_irqrestore來釋放。
spin_trylock_irq(lock) |
該巨集類似於spin_trylock_irqsave,只是該巨集不儲存標誌暫存器。如果該巨集獲得自旋鎖lock,需要使用spin_unlock_irq來釋放。
spin_trylock_bh(lock) |
該巨集如果獲得了自旋鎖,它也將失效本地軟中斷。如果得不到鎖,它什麼也不做。因此,如果得到了鎖,它等同於spin_lock_bh,如果得不到鎖,它等同於spin_trylock。如果該巨集得到了自旋鎖,需要使用spin_unlock_bh來釋放。
spin_can_lock(lock) |
該巨集用於判斷自旋鎖lock是否能夠被鎖,它實際是spin_is_locked取反。如果lock沒有被鎖,它返回真,否則,返回假。該巨集在2.6.11中第一次被定義,在先前的核心中並沒有該巨集。
獲得自旋鎖和釋放自旋鎖有好幾個版本,因此讓讀者知道在什麼樣的情況下使用什麼版本的獲得和釋放鎖的巨集是非常必要的。
如果被保護的共享資源只在程序上下文訪問和軟中斷上下文訪問,那麼當在程序上下文訪問共享資源時,可能被軟中斷打斷,從而可能進入軟中斷上下文來對被保護的共享資源訪問,因此對於這種情況,對共享資源的訪問必須使用spin_lock_bh和spin_unlock_bh來保護。當然使用spin_lock_irq和spin_unlock_irq以及spin_lock_irqsave和spin_unlock_irqrestore也可以,它們失效了本地硬中斷,失效硬中斷隱式地也失效了軟中斷。但是使用spin_lock_bh和spin_unlock_bh是最恰當的,它比其他兩個快。
如果被保護的共享資源只在程序上下文和tasklet或timer上下文訪問,那麼應該使用與上面情況相同的獲得和釋放鎖的巨集,因為tasklet和timer是用軟中斷實現的。
如果被保護的共享資源只在一個tasklet或timer上下文訪問,那麼不需要任何自旋鎖保護,因為同一個tasklet或timer只能在一個CPU上執行,即使是在SMP環境下也是如此。實際上tasklet在呼叫tasklet_schedule標記其需要被排程時已經把該tasklet繫結到當前CPU,因此同一個tasklet決不可能同時在其他CPU上執行。timer也是在其被使用add_timer新增到timer佇列中時已經被幫定到當前CPU,所以同一個timer絕不可能執行在其他CPU上。當然同一個tasklet有兩個例項同時執行在同一個CPU就更不可能了。
如果被保護的共享資源只在兩個或多個tasklet或timer上下文訪問,那麼對共享資源的訪問僅需要用spin_lock和spin_unlock來保護,不必使用_bh版本,因為當tasklet或timer執行時,不可能有其他tasklet或timer在當前CPU上執行。如果被保護的共享資源只在一個軟中斷(tasklet和timer除外)上下文訪問,那麼這個共享資源需要用spin_lock和spin_unlock來保護,因為同樣的軟中斷可以同時在不同的CPU上執行。
如果被保護的共享資源在兩個或多個軟中斷上下文訪問,那麼這個共享資源當然更需要用spin_lock和spin_unlock來保護,不同的軟中斷能夠同時在不同的CPU上執行。
如果被保護的共享資源在軟中斷(包括tasklet和timer)或程序上下文和硬中斷上下文訪問,那麼在軟中斷或程序上下文訪問期間,可能被硬中斷打斷,從而進入硬中斷上下文對共享資源進行訪問,因此,在程序或軟中斷上下文需要使用spin_lock_irq和spin_unlock_irq來保護對共享資源的訪問。而在中斷處理控制代碼中使用什麼版本,需依情況而定,如果只有一箇中斷處理控制代碼訪問該共享資源,那麼在中斷處理控制代碼中僅需要spin_lock和spin_unlock來保護對共享資源的訪問就可以了。因為在執行中斷處理控制代碼期間,不可能被同一CPU上的軟中斷或程序打斷。但是如果有不同的中斷處理控制代碼訪問該共享資源,那麼需要在中斷處理控制代碼中使用spin_lock_irq和spin_unlock_irq來保護對共享資源的訪問。
在使用spin_lock_irq和spin_unlock_irq的情況下,完全可以用spin_lock_irqsave和spin_unlock_irqrestore取代,那具體應該使用哪一個也需要依情況而定,如果可以確信在對共享資源訪問前中斷是使能的,那麼使用spin_lock_irq更好一些,因為它比spin_lock_irqsave要快一些,但是如果你不能確定是否中斷使能,那麼使用spin_lock_irqsave和spin_unlock_irqrestore更好,因為它將恢復訪問共享資源前的中斷標誌而不是直接使能中斷。當然,有些情況下需要在訪問共享資源時必須中斷失效,而訪問完後必須中斷使能,這樣的情形使用spin_lock_irq和spin_unlock_irq最好。
需要特別提醒讀者,spin_lock用於阻止在不同CPU上的執行單元對共享資源的同時訪問以及不同程序上下文互相搶佔導致的對共享資源的非同步訪問,而中斷失效和軟中斷失效卻是為了阻止在同一CPU上軟中斷或中斷對共享資源的非同步訪問。
本系列文章的第二部分將詳細介紹Linux核心中的其他一些同步機制,包括大核心鎖、讀寫鎖、大讀者鎖、RCU和順序鎖。