1. 程式人生 > >Linux用戶搶占和內核搶占詳解(概念, 實現和觸發時機)--Linux進程的管理與調度(二十)

Linux用戶搶占和內核搶占詳解(概念, 實現和觸發時機)--Linux進程的管理與調度(二十)

amp 3.1 not 職責 mon 顯式 default hust ron

1 非搶占式和可搶占式內核

為了簡化問題,我使用嵌入式實時系統uC/OS作為例子

首先要指出的是,uC/OS只有內核態,沒有用戶態,這和Linux不一樣

多任務系統中, 內核負責管理各個任務, 或者說為每個任務分配CPU時間, 並且負責任務之間的通訊.

內核提供的基本服務是任務切換. 調度(Scheduler),英文還有一詞叫dispatcher, 也是調度的意思.

這是內核的主要職責之一, 就是要決定該輪到哪個任務運行了. 多數實時內核是基於優先級調度法的, 每個任務根據其重要程度的不同被賦予一定的優先級. 基於優先級的調度法指,CPU總是讓處在就緒態的優先級最高的任務先運行. 然而, 究竟何時讓高優先級任務掌握CPU的使用權, 有兩種不同的情況, 這要看用的是什麽類型的內核, 是不可剝奪型的

還是可剝奪型內核

1.1 非搶占式內核

非搶占式內核是由任務主動放棄CPU的使用權

非搶占式調度法也稱作合作型多任務, 各個任務彼此合作共享一個CPU. 異步事件還是由中斷服務來處理. 中斷服務可以使一個高優先級的任務由掛起狀態變為就緒狀態.

技術分享圖片

非搶占式內核的優點有

  • 中斷響應快(與搶占式內核比較);
  • 允許使用不可重入函數;
  • 幾乎不需要使用信號量保護共享數據, 運行的任務占有CPU,不必擔心被別的任務搶占。這不是絕對的,在打印機的使用上,仍需要滿足互斥條件。

非搶占式內核的缺點有

  • 任務響應時間慢。高優先級的任務已經進入就緒態,但還不能運行,要等到當前運行著的任務釋放CPU
  • 非搶占式內核的任務級響應時間是不確定的,不知道什麽時候最高優先級的任務才能拿到CPU的控制權,完全取決於應用程序什麽時候釋放CPU

1.2 搶占式內核

使用搶占式內核可以保證系統響應時間. 最高優先級的任務一旦就緒, 總能得到CPU的使用權。當一個運行著的任務使一個比它優先級高的任務進入了就緒態, 當前任務的CPU使用權就會被剝奪,或者說被掛起了,那個高優先級的任務立刻得到了CPU的控制權。如果是中斷服務子程序使一個高優先級的任務進入就緒態,中斷完成時,中斷了的任務被掛起,優先級高的那個任務開始運行。

搶占式內核如下圖所示
技術分享圖片

搶占式內核的優點有

  • 使用搶占式內核,最高優先級的任務什麽時候可以執行,可以得到CPU的使用權是可知的。使用搶占式內核使得任務級響應時間得以最優化。

搶占式內核的缺點有:

  • 不能直接使用不可重入型函數。調用不可重入函數時,要滿足互斥條件,這點可以使用互斥型信號量來實現。如果調用不可重入型函數時,低優先級的任務CPU的使用權被高優先級任務剝奪,不可重入型函數中的數據有可能被破壞。

2 linux用戶搶占

2.1 linux用戶搶占

當內核即將返回用戶空間時, 內核會檢查need_resched是否設置, 如果設置, 則調用schedule(),此時,發生用戶搶占.

2.2 need_resched標識

內核如何檢查一個進程是否需要被調度呢?

內核在即將返回用戶空間時檢查進程是否需要重新調度,如果設置了,就會發生調度, 這被稱為用戶搶占, 因此內核在thread_info的flag中設置了一個標識來標誌進程是否需要重新調度, 即重新調度need_resched標識TIF_NEED_RESCHED

並提供了一些設置可檢測的函數

函數 描述 定義
set_tsk_need_resched 設置指定進程中的need_resched標誌 include/linux/sched.h, L2920
clear_tsk_need_resched 清除指定進程中的need_resched標誌 include/linux/sched.h, L2926
test_tsk_need_resched 檢查指定進程need_resched標誌 include/linux/sched.h, L2931

而我們內核中調度時常用的need_resched()函數檢查進程是否需要被重新調度其實就是通過test_tsk_need_resched實現的, 其定義如下所示

// http://lxr.free-electrons.com/source/include/linux/sched.h?v=4.6#L3093
static __always_inline bool need_resched(void)
{
    return unlikely(tif_need_resched());
}

// http://lxr.free-electrons.com/source/include/linux/thread_info.h?v=4.6#L106
#define tif_need_resched() test_thread_flag(TIF_NEED_RESCHED)

2.3 用戶搶占的發生時機(什麽時候需要重新調度need_resched)

一般來說,用戶搶占發生幾下情況:

  • 從系統調用返回用戶空間;
  • 從中斷(異常)處理程序返回用戶空間

從這裏我們可以看到, 用戶搶占是發生在用戶空間的搶占現象.

更詳細的觸發條件如下所示, 其實不外乎就是前面所說的兩種情況: 從系統調用或者中斷返回用戶空間

  1. 時鐘中斷處理例程檢查當前任務的時間片,當任務的時間片消耗完時,scheduler_tick()函數就會設置need_resched標誌;
  2. 信號量、等到隊列、completion等機制喚醒時都是基於waitqueue的,而waitqueue的喚醒函數為default_wake_function,其調用try_to_wake_up將被喚醒的任務更改為就緒狀態並設置need_resched標誌。
  3. 設置用戶進程的nice值時,可能會使高優先級的任務進入就緒狀態;
  4. 改變任務的優先級時,可能會使高優先級的任務進入就緒狀態;
  5. 新建一個任務時,可能會使高優先級的任務進入就緒狀態;
  6. 對CPU(SMP)進行負載均衡時,當前任務可能需要放到另外一個CPU上運行

3 linux內核搶占

3.1 內核搶占的概念

對比用戶搶占, 顧名思義, 內核搶占就是指一個在內核態運行的進程, 可能在執行內核函數期間被另一個進程取代.

3.2 為什麽linux需要內核搶占

linux系統中, 進程在系統調用後返回用戶態之前, 或者是內核中某些特定的點上, 都會調用調度器. 這確保除了一些明確指定的情況之外, 內核是無法中斷的, 這不同於用戶進程.

在編譯內核時如果啟用了對內核搶占的支持, 則可以解決這些問題. 如果高優先級進程有事情需要完成, 那麽在啟用了內核搶占的情況下, 不僅用戶空間應用程序可以被中斷, 內核也可以被中斷,

linux內核搶占是在Linux2.5.4版本發布時加入的, 盡管使內核可搶占需要的改動特別少, 但是該機制不像搶占用戶空間進程那樣容易實現. 如果內核無法一次性完成某些操作(例如, 對數據結構的操作), 那麽可能出現靜態條件而使得系統不一致.

內核搶占和用戶層進程被其他進程搶占是兩個不同的概念, 內核搶占主要是從實時系統中引入的, 在非實時系統中的確也能提高系統的響應速度, 但也不是在所有情況下都是最優的,因為搶占也需要調度和同步開銷,在某些情況下甚至要關閉內核搶占, 比如前面我們將主調度器的時候, linux內核在完成調度的過程中是關閉了內核搶占的.

內核不能再任意點被中斷, 幸運的是, 大多數不能中斷的點已經被SMP實現標識出來了. 並且在實現內核搶占時可以重用這些信息. 如果內核可以被搶占, 那麽單處理器系統也會像是一個SMP系統

3.3 內核搶占的發生時機

要滿足什麽條件,kernel才可以搶占一個任務的內核態呢?

  • 沒持有鎖。鎖是用於保護臨界區的,不能被搶占。
  • Kernel code可重入(reentrant)。因為kernel是SMP-safe的,所以滿足可重入性。

內核搶占發生的時機,一般發生在:

  1. 當從中斷處理程序正在執行,且返回內核空間之前。當一個中斷處理例程退出,在返回到內核態時(kernel-space)。這是隱式的調用schedule()函數,當前任務沒有主動放棄CPU使用權,而是被剝奪了CPU使用權。
  2. 當內核代碼再一次具有可搶占性的時候,如解鎖(spin_unlock_bh)及使能軟中斷(local_bh_enable)等, 此時當kernel code從不可搶占狀態變為可搶占狀態時(preemptible again)。也就是preempt_count從正整數變為0時。這也是隱式的調用schedule()函數
  3. 如果內核中的任務顯式的調用schedule(), 任務主動放棄CPU使用權
  4. 如果內核中的任務阻塞(這同樣也會導致調用schedule()), 導致需要調用schedule()函數。任務主動放棄CPU使用權

內核搶占,並不是在任何一個地方都可以發生,以下情況不能發生

  1. 內核正進行中斷處理。在Linux內核中進程不能搶占中斷(中斷只能被其他中斷中止、搶占,進程不能中止、搶占中斷),在中斷例程中不允許進行進程調度。進程調度函數schedule()會對此作出判斷,如果是在中斷中調用,會打印出錯信息。
  2. 內核正在進行中斷上下文的Bottom Half(中斷下半部,即軟中斷)處理。硬件中斷返回前會執行軟中斷,此時仍然處於中斷上下文中。如果此時正在執行其它軟中斷,則不再執行該軟中斷。
  3. 內核的代碼段正持有spinlock自旋鎖、writelock/readlock讀寫鎖等鎖,處幹這些鎖的保護狀態中。內核中的這些鎖是為了在SMP系統中短時間內保證不同CPU上運行的進程並發執行的正確性。當持有這些鎖時,內核不應該被搶占。
  4. 內核正在執行調度程序Scheduler。搶占的原因就是為了進行新的調度,沒有理由將調度程序搶占掉再運行調度程序。
  5. 內核正在對每個CPU“私有”的數據結構操作(Per-CPU date structures)。在SMP中,對於per-CPU數據結構未用spinlocks保護,因為這些數據結構隱含地被保護了(不同的CPU有不一樣的per-CPU數據,其他CPU上運行的進程不會用到另一個CPU的per-CPU數據)。但是如果允許搶占,但一個進程被搶占後重新調度,有可能調度到其他的CPU上去,這時定義的Per-CPU變量就會有問題,這時應禁搶占。

4 內核搶占的實現

4.1 內核如何跟蹤它能否被搶占?

前面我們提到了, 系統中每個進程都有一個特定於體系結構的struct thread_info結構, 用戶層程序被調度的時候會檢查struct thread_info中的need_resched標識TLF_NEED_RESCHED標識來檢查自己是否需要被重新調度.

自然內核搶占·也可以應用同樣的方法被實現, linux內核在thread_info結構中添加了一個自旋鎖標識preempt_count, 稱為搶占計數器(preemption counter).

struct thread_info
{
    /*  ......  */
    int preempt_count;   /* 0 => preemptable, <0 => BUG */
    /*  ......  */
}
preempt_count值 描述
0 禁止內核搶占, 其值標記了使用preempt_count的臨界區的數目
0 開啟內核搶占
<0 鎖為負值, 內核出現錯誤

內核自然也提供了一些函數或者宏, 用來開啟, 關閉以及檢測搶占計數器preempt_count的值, 這些通用的函數定義在include/asm-generic/preempt.h, 而某些架構也定義了自己的接口, 比如x86架構/arch/x86/include/asm/preempt.h

函數 描述 定義
preempt_count 獲取當前current進程搶占計數器的值 include/asm-generic/preempt.h, line 8
preempt_count_ptr 返回指向當前current進程的搶占計數器的指針 include/asm-generic/preempt.h, line 18
init_task_preempt_count 初始化task的搶占計數器為FORK_PREEMPT_COUNT include/asm-generic/preempt.h, line 26
init_idle_preempt_count 初始化task的搶占計數器為PREEMPT_ENABLED include/asm-generic/preempt.h, line 30
preempt_count_add 將增加current的搶占計數器增加val include/linux/preempt.h, line 132
preempt_count_sub 將增加current的搶占計數器減少val include/linux/preempt.h, line 133
preempt_count_dec_and_test 將current的搶占計數器減少1, 然後看是否可以進程內核搶占, 即檢查搶占計數器是否為0(允許搶占), 同時檢查tif_need_resched標識是否為真 include/linux/preempt.h, line 134, 61
preempt_count_inc current的搶占計數器增加1 include/linux/preempt.h, line 140
preempt_count_dec current的搶占計數器減少1 include/linux/preempt.h, line 141

還有其他函數可用於開啟和關閉內核搶占

函數 描述 定義
preempt_disable 通過preempt_count_inc來停用內核搶占, 並且通過路障barrier同步來避免編譯器的優化 include/linux/preempt.h, line 145
preempt_enable preempt_count_dec_and_test啟用內核搶占, 然後通過__preempt_schedule檢測是夠有必要進行調度 include/linux/preempt.h, line 162
preempt_enable_no_resched 開啟搶占, 但是不進行重調度 include/linuxc/preempt.h, line 151
preempt_check_resched 調用__preempt_schedule檢測是夠有必要進行調度 include/linux/preempt.h, line 176
should_resched 檢查current的搶占計數器是否為參數preempt_offset的值, 同時檢查 tif_need_resched是否為真 include/linux/preempt.h, line 74
preemptible 檢查是否可以內核搶占, 檢查搶占計數器是否為0, 以及是否停用了中斷 /include/linux/preempt.h, line159

4.2 內核如何知道是否需要搶占?

首先必須設置了TLF_NEED_RESCHED標識來通知內核有進程在等待得到CPU時間, 然後會在判斷搶占計數器preempt_count是否為0, 這個工作往往通過preempt_check_resched或者其相關來實現

4.2.1 重新啟用內核搶占時使用preempt_schedule檢查搶占

在內核停用搶占後重新啟用時, 檢測是否有進程打算搶占當前執行的內核代碼, 是一個比較好的時機, 如果是這樣, 應該盡快完成, 則無需等待下一次對調度器的例行調用.

搶占機制中主要的函數是preempt_schedule, 設置了TIF_NEED_RESCHED標誌並不能保證可以搶占內核, 內核可能處於臨界區, 不能被幹擾

//  http://lxr.free-electrons.com/source/kernel/sched/core.c?v=4.6#L3307

/*
 * this is the entry point to schedule() from in-kernel preemption
 * off of preempt_enable. Kernel preemptions off return from interrupt
 * occur there and call schedule directly.
 */
asmlinkage __visible void __sched notrace preempt_schedule(void)
{
    /*
     * If there is a non-zero preempt_count or interrupts are disabled,
     * we do not want to preempt the current task. Just return..
     */
     /* !preemptible() => preempt_count() != 0 || irqs_disabled()
      * 如果搶占計數器大於0, 那麽搶占被停用, 該函數立即返回
      * 如果
     */
    if (likely(!preemptible())) 
        return;

    preempt_schedule_common();
}
NOKPROBE_SYMBOL(preempt_schedule);
EXPORT_SYMBOL(preempt_schedule);

// http://lxr.free-electrons.com/source/include/linux/preempt.h?v=4.6#L159
 #define preemptible()   (preempt_count() == 0 && !irqs_disabled())

!preemptible => preempt_count() != 0 || irqs_disabled()表明

  • 如果搶占計數器大於0, 那麽搶占仍然是被停用的, 因此內核不能被打斷, 該函數立即結束.
  • 如果在某些重要的點上內核停用了硬件中斷, 以保證一次性完成相關的處理, 那麽搶占也是不可能的.irqs_disabled會檢測是否停用了中斷. 如果已經停用, 則內核不能被搶占

接著如果可以被搶占, 則執行如下步驟


static void __sched notrace preempt_schedule_common(void)
{
    do {
        /*
            preempt_disable_notrace定義在
            http://lxr.free-electrons.com/source/include/linux/preempt.h?v=4.6#L198             等待於__preempt_count_inc();
        */
        preempt_disable_notrace();
        /*  完成一次調度  */
        __schedule(true);

        /*
            preempt_enable_no_resched_notrace
            http://lxr.free-electrons.com/source/include/linux/preempt.h?v=4.6#L204
            等價於__preempt_count_dec
        */
        preempt_enable_no_resched_notrace();

        /*
         * Check again in case we missed a preemption opportunity
         * between schedule and now.
         * 再次檢查, 以免在__scheudle和當前點之間錯過了搶占的時機
         */
    } while (need_resched());
}

我們可以看到, 內核在增加了搶占計數器的計數後, 用__schedule進行了一次調度, 參數傳入preempt = true, 表明調度不是以普通的方式引發的, 而是由於內核搶占. 在內核重調度之後, 代碼流程回到當前進程, 那麽就井搶占計數器減少1.

4.2.2 中斷之後返回內核態時通過preempt_schedule_irq觸發

上面preempt_schedule只是觸發內核搶占的一種方法, 另一種激活搶占的方式是在處理了一個硬件中斷請求之後. 如果處理器在處理中斷請求後返回內核態(返回用戶態則沒有影響), 特定體系結構的匯編例程會檢查搶占計數器是否為0, 即是否允許搶占, 以及是否設置了重調度標識, 類似於preempt_schedule的處理. 如果兩個條件都滿足則通過preempt_schedule_irq調用調度器, 此時表明搶占請求發自中斷上下文

該函數與preempt_schedule的本質區別在於: preempt_schedule_irq調用時停用了中斷, 防止終端造成的遞歸調用, 其定義在kernel/sched/core.c, line3360

/*
 * this is the entry point to schedule() from kernel preemption
 * off of irq context.
 * Note, that this is called and return with irqs disabled. This will
 * protect us against recursive calling from irq.
 */
asmlinkage __visible void __sched preempt_schedule_irq(void)
{
    enum ctx_state prev_state;

    /* Catch callers which need to be fixed */
    BUG_ON(preempt_count() || !irqs_disabled());

    prev_state = exception_enter();

    do {
        preempt_disable();
        local_irq_enable();
        __schedule(true);
        local_irq_disable();
        sched_preempt_enable_no_resched();
    } while (need_resched());

    exception_exit(prev_state);
}

4.2.3 PREEMPT_ACTIVE標識位和PREEMPT_DISABLE_OFFSET

之前的內核版本中, 搶占計數器中於一個標識位PREEMPT_ACTIVE, 這個位設置後即標識了可以進行內核搶占, 使得preempt_count有一個很大的值, 這樣就不受普通的搶占計數器加1操作的影響了

PREEMPT_ACTIVE的引入, 參見PREEMPT_ACTIVE: add default defines

然後也為其提供了一些置位的函數,其實就是將preempt_count加上/減去一個很大的數, 參見preempt: Disable preemption from preempt_schedule*() callers

//  http://lxr.free-electrons.com/source/include/linux/preempt.h?v=4.3#L58
#define PREEMPT_ACTIVE_BITS     1
#define PREEMPT_ACTIVE_SHIFT    (NMI_SHIFT + NMI_BITS)
#define PREEMPT_ACTIVE  (__IRQ_MASK(PREEMPT_ACTIVE_BITS) << PREEMPT_ACTIVE_SHIFT)

但是在linux-4.4版本之後移除了這個標誌, 取而代之的是在linux-4.2時引入的PREEMPT_DISABLE_OFFSET

參見

Rename PREEMPT_CHECK_OFFSET to PREEMPT_DISABLE_OFFSET

preempt: Rename PREEMPT_CHECK_OFFSET to PREEMPT_DISABLE_OFFSET

preempt: Remove PREEMPT_ACTIVE unmasking off in_atomic()

sched: Kill PREEMPT_ACTIVE

sched: Stop setting PREEMPT_ACTIVE

參考

內核隨記(二)——內核搶占與中斷返回

PREEMPT_ACTIVE

5 總結

一般來說,CPU在任何時刻都處於以下三種情況之一:

  1. 運行於用戶空間,執行用戶進程
  2. 運行於內核空間,處於進程上下文
  3. 運行於內核空間,處於中斷上下文

5.1 用戶搶占

一般來說, 當進程從系統調用或者從中斷(異常)處理程序返回用戶空間時會觸發主調度器進行用戶搶占

  • 從系統調用返回用戶空間
  • 從中斷(異常)處理程序返回用戶空間

為了對一個進程需要被調度進行標記, 內核在thread_info的flag中設置了一個標識來標誌進程是否需要重新調度, 即重新調度need_resched標識TIF_NEED_RESCHED, 內核在即將返回用戶空間時會檢查標識TIF_NEED_RESCHED標誌進程是否需要重新調度,如果設置了,就會發生調度, 這被稱為用戶搶占

5.2 內核搶占

如果內核處於相對耗時的操作中, 比如文件系統或者內存管理相關的任務, 這種行為可能會帶來問題. 這種情況下, 內核代替特定的進程執行相當長的時間, 而其他進程無法執行, 無法調度, 這就造成了系統的延遲增加, 用戶體驗到”緩慢”的響應. 因此linux內核引入了內核搶占.

linux內核通過在thread_info結構中添加了一個自旋鎖標識preempt_count, 稱為搶占計數器(preemption counter)來作為內核搶占的標記,

內核搶占的觸發大致也是兩類, 內核搶占關閉後重新開啟時, 中斷返回內核態時

  • 內核重新開啟內核搶占時使用preempt_schedule檢查內核搶占
  • 中斷之後返回內核態時通過preempt_schedule_irq觸發內核搶占

中斷之後返回內核態時通過preempt_schedule_irq觸發內核搶占

Linux用戶搶占和內核搶占詳解(概念, 實現和觸發時機)--Linux進程的管理與調度(二十)