1. 程式人生 > >淺談Linux死鎖檢測

淺談Linux死鎖檢測

死鎖:就是多個程序(≥2)因為爭奪資源而相互等待的一種現象,若無外力推動,將無法繼續執行下去。
注意,只有在多程序或者多執行緒之間或者他們與中斷之間相互通訊或者共享資源才有可能發生死鎖,單執行緒或者程序之間沒有聯絡的話,一般不會發生死鎖。鎖的種類比較多,這裡主要說自旋鎖和訊號量。兩者的差別就在於前者獲得不到資源時的動作是不斷的資源(即忙轉浪費cpu的cycles)而後者則表現為睡眠等待。
死鎖的基本情況如下:
(一)、自旋鎖
   1 遞迴使用:同一個程序或執行緒中,申請自旋鎖,但沒有釋放之前又再次申請,一定產生死鎖。
    2 程序得到自旋鎖後阻塞,睡眠:在獲得自旋鎖之後呼叫copy_from_user()、copy_to_ser()、和kmalloc()等有可能引起阻塞的函式。

    3 中斷中沒有關中斷,或著因為申請未釋放的自旋鎖:在中斷中使用自旋鎖是可以的,應該在進入中斷的時候關閉中斷,不然中斷再次進入的時候,中斷處理函式會自旋等待自旋鎖可以再次使用。或者在程序中申請了自旋鎖,釋放前進入中斷處理函式,中斷處理函式又申請同樣的自旋鎖,這將導致死鎖。
    4 中斷與中斷下半部共享資源和中斷與程序共享資源死鎖出現的情況類似。
    5 中斷下半部與程序共享資源和中斷與程序共享資源死鎖出現的情況類似。

    自旋鎖三種狀態:
    自旋鎖保持期間是搶佔失效的(核心不允許被搶佔)。
    1 單CPU且核心不可搶佔:
      自旋鎖的所有操作都是空。不會引起死鎖,核心程序間不存在併發操作程序,程序與中斷仍然可能共享資料,存在併發操作,此時核心自旋鎖已經失去效果。

    2 單CPU且核心可搶佔:
      當獲得自旋鎖的時候,禁止核心搶佔直到釋放鎖為止。此時可能存在死鎖的情況是參考自旋鎖可能死鎖的一般情況。
      禁止核心搶佔並不代表不會進行核心排程,如果在獲得自旋鎖後阻塞或者主動排程,核心會排程其他程序執行,被排程的核心程序返回使用者空間時,會進行使用者搶佔,此時呼叫的程序再次申請上次未釋放的自旋鎖時,會一直自旋。但是核心被禁止搶佔,從而造成死鎖。
      核心被禁止搶佔,但此時中斷並沒被禁止,核心程序可能因為中斷申請自旋鎖而死鎖。
    3 多CPU且核心可搶佔:
      這才是是真正的SMP的情況。當獲得自旋鎖的時候,禁止核心搶佔直到釋放鎖為止。

(二)訊號量
    1 遞迴使用: 同理,在同一個程序或執行緒中,申請了訊號量,但沒有釋放之前又再次申請,程序會一直睡眠,這種情況一定死鎖。
    2 程序得到訊號量後阻塞,睡眠:由於獲取到訊號量的程序阻塞或者隨眠,其他在獲取不到後訊號量也會進入睡眠等待,這種情況可能造成死鎖。
    3 中斷中申請訊號量:由於訊號量在獲取不到自旋鎖後會進入睡眠等待,中斷處理函式不允許睡眠,如果睡眠,中斷將無法返回。
    4 中斷下半部申請訊號量:中斷下半部允許睡眠,這種情況不會造成死鎖。
    5 倆個程序相互等待資源:程序1獲得訊號量A,需要訊號量B,在程序1需要訊號量B之前程序2獲得訊號量B,需要訊號量A。程序1、2因相互等待資源而死鎖。

上面是死鎖的基本情況和型別。linux本身就提供了檢測死鎖的機制,如下:
(一)D狀態死鎖檢測
所謂D狀態死鎖:程序長時間(系統預設配置120秒)處於TASK_UNINTERRUPTIBLE 睡眠狀態,這種狀態下程序不響應非同步訊號。如:程序與外設硬體的互動(如read),通常使用這種狀態來保證程序與裝置的互動過程不被打斷,否則裝置可能處於不可控的狀態。
對於這種死鎖的檢測linux提供的是hungtask機制,主要內容集中在Hung_task.c檔案中。具體實現原理如下:
 1)、系統建立normal級別的khungtaskd核心執行緒,核心執行緒每120秒檢查一次,檢查的內容:遍歷所有的執行緒連結串列,發現D狀態的任務,就判斷自最近一次切換以來是否還有切換髮生,若是有,則返回。若沒有發生切換,則把任務的所有呼叫棧等資訊打印出來。
2)、具體實現過程如下:
首先,hung_task_init建立一個名為khungtaskd的核心執行緒,核心執行緒的工作由watchdog來完成。
  1. static int __init hung_task_init(void)
  2. {
  3.     atomic_notifier_chain_register(&panic_notifier_list, &panic_block);
  4.     watchdog_task = kthread_run(watchdog, NULL, "khungtaskd");
  5.     return 0;
  6. }
其次,我們看watchdog的實現:
  1. static int watchdog(void *dummy)
  2. {
  3.         //將核心執行緒設定為normal級別
  4.     set_user_nice(current, 0);
  5.     for ( ; ; ) {
  6. //設定hungtask的校驗時間間隔,使用者可以修改這個時間,預設為120秒
  7.         unsigned long timeout = sysctl_hung_task_timeout_secs;
  8.         while (schedule_timeout_interruptible(timeout_jiffies(timeout)))
  9.             timeout = sysctl_hung_task_timeout_secs;
  10. //核心的檢查程式碼在下面的函式中實現。        check_hung_uninterruptible_tasks(timeout);
  11.     }
  12.     return 0;
  13. }
最後,我們分析一下hungtask的核心實現check_hung_uninterruptible_tasks,如下:
  1. static void check_hung_uninterruptible_tasks(unsigned long timeout)
  2. {
  3.     int max_count = sysctl_hung_task_check_count;
  4.     int batch_count = HUNG_TASK_BATCHING;
  5.     struct task_struct *g, *t;
  6.     /*
  7.      * If the system crashed already then all bets are off,
  8.      * do not report extra hung tasks:
  9.      */
  10. //判斷系統是否已經die、oops或者panic了,若是系統已經crash了,就無需再做hungtask了。
  11.     if (test_taint(TAINT_DIE) || did_panic)
  12.         return;
  13.     rcu_read_lock();
  14. //檢查程序的列表,尋找D狀態的任務
  15.     do_each_thread(g, t) {
  16. //判斷使用者是否設定了檢查程序的數量,若是已經達到使用者設定的限制,就跳出迴圈。
  17.         if (!max_count--)
  18.             goto unlock;
  19. //判斷是否到達批處理的個數,做這個批處理的目的就是因為整個檢查是在關搶佔的前提下進行的,可能程序列表的程序數很多,為了防止hungtask壟斷cpu,所以,做了一個批處理的限制,到達批處理的數量後,就放一下權,給其他的程序執行的機會。
  20.         if (!--batch_count) {
  21.             batch_count = HUNG_TASK_BATCHING;
  22.             rcu_lock_break(g, t);
  23.             /* Exit if t or g was unhashed during refresh. */
  24.             if (t->state == TASK_DEAD || g->state == TASK_DEAD)
  25.                 goto unlock;
  26.         }
  27.         /* use "==" to skip the TASK_KILLABLE tasks waiting on NFS */
  28. //如果程序處於D狀態,就開始把相關的資訊顯示出來了。
  29.         if (t->state == TASK_UNINTERRUPTIBLE)
  30.             check_hung_task(t, timeout);
  31.     } while_each_thread(g, t);
  32.  unlock:
  33.     rcu_read_unlock();
  34. }
  1. static void check_hung_task(struct task_struct *t, unsigned long timeout)
  2. {
  3. //統計程序的切換次數=主動切換次數+被動切換次數
  4.     unsigned long switch_count = t->nvcsw + t->nivcsw;
  5.     /*
  6.      * Ensure the task is not frozen.
  7.      * Also, when a freshly created task is scheduled once, changes
  8.      * its state to TASK_UNINTERRUPTIBLE without having ever been
  9.      * switched out once, it musn
怎麼樣,經過上面的分析,可以發現其實原理很簡單。
(二)R狀態死鎖檢測
所謂R狀態死鎖:程序長時間(系統預設配置60秒)處於TASK_RUNNING 狀態壟斷cpu而不發生切換,一般情況下是程序關搶佔後長時候幹活,有時候可能程序關搶佔後處於死迴圈或者睡眠後,這樣就造成系統異常。
對於這種死鎖的檢測機制linux提供的機制是softlockup。主要集中在softlockup.c檔案中。
1)、系統建立一個fifo的程序,此程序週期性的清一下時間戳(per cpu),而系統的時鐘中斷中會被softlockup掛入一個鉤子(softlockup_tick),這個鉤子就是每個時鐘中斷到來的時候都檢查是否每cpu的時間戳被touch了,若在閥值60秒內都沒有被touch,系統就列印除錯資訊。
2)、讓我們分析一下具體的實現:
首先,系統初始化的時候為每個cpu建立一個watchdog執行緒,這個執行緒是fifo的。具體實現如下:
  1. static int __init spawn_softlockup_task(void)
  2. {
  3.     void *cpu = (void *)(long)smp_processor_id();
  4.     int err;
  5. //可以通過啟動引數禁止softlockup
  6.     if (nosoftlockup)
  7.         return 0;
  8. //下面兩個回撥函式就是為每個cpu建立一個watchdog執行緒
  9.     err = cpu_callback(&cpu_nfb, CPU_UP_PREPARE, cpu);
  10.     if (err == NOTIFY_BAD) {
  11.         BUG();
  12.         return 1;
  13.     }
  14.     cpu_callback(&cpu_nfb, CPU_ONLINE, cpu);
  15.     register_cpu_notifier(&cpu_nfb);
  16.     atomic_notifier_chain_register(&panic_notifier_list, &panic_block);
  17.     return 0;
  18. }
  1. static int __cpuinit
  2. cpu_callback(struct notifier_block *nfb, unsigned long action, void *hcpu)
  3. {
  4.     int hotcpu = (unsigned long)hcpu;
  5.     struct task_struct *p;
  6.     switch (action) {
  7.     case CPU_UP_PREPARE:
  8.     case CPU_UP_PREPARE_FROZEN:
  9.         BUG_ON(per_cpu(softlockup_watchdog, hotcpu));
  10. //建立watchdog核心執行緒
  11.         p = kthread_create(watchdog, hcpu, "watchdog/%d", hotcpu);
  12.         if (IS_ERR(p)) {
  13.             printk(KERN_ERR "watchdog for %i failed\n", hotcpu);
  14.             return NOTIFY_BAD;
  15.         }
  16. //將時間戳清零
  17.         per_cpu(softlockup_touch_ts, hotcpu) = 0;
  18. //設定watchdog
  19.         per_cpu(softlockup_watchdog, hotcpu) = p;
  20. //繫結cpu
  21.         kthread_bind(p, hotcpu);
  22.         break;
  23.     case CPU_ONLINE:
  24.     case CPU_ONLINE_FROZEN:
  25. //喚醒watchdog這個核心執行緒        wake_up_process(per_cpu(softlockup_watchdog, hotcpu));
  26.         break;
  27. ......
  28.     return NOTIFY_OK;
  29. }
其次,我們看一下核心執行緒watchdog的實現,如下:
  1. static int watchdog(void *__bind_cpu)
  2. {
  3. //將watchdog設定為fifo
  4.     struct sched_param param = { .sched_priority = MAX_RT_PRIO-1 };
  5.     sched_setscheduler(current, SCHED_FIFO, ?m);
  6. //清狗,即touch時間戳
  7.     /* initialize timestamp */
  8.     __touch_softlockup_watchdog();
  9. //當前程序可以被訊號打斷
  10.     set_current_state(TASK_INTERRUPTIBLE);
  11.     /*
  12.      * Run briefly once per second to reset the softlockup timestamp.
  13.      * If this gets delayed for more than 60 seconds then the
  14.      * debug-printout triggers in softlockup_tick().
  15.      */
  16.     while (!kthread_should_stop()) {
  17. //核心實現就是touch時間戳,讓出cpu
  18.         __touch_softlockup_watchdog();
  19.         schedule();
  20.         if (kthread_should_stop())
  21.             break;
  22.         set_current_state(TASK_INTERRUPTIBLE);
  23.     }
  24.     __set_current_state(TASK_RUNNING);
  25.     return 0;
  26. }
最後,softlockup在時鐘中斷中掛上一個鉤子softlockup_tick,每個時鐘中斷都來檢查watchdog這個fifo程序是否有touch過時間戳,若是60秒都沒有touch過,就向系統上報異常資訊了,如下:

  1. void softlockup_tick(void)
  2. {
  3. //取得當前的cpu
  4.     int this_cpu = smp_processor_id();
  5. //獲得當前cpu的時間戳
  6.     unsigned long touch_ts = per_cpu(softlockup_touch_ts, this_cpu);
  7.     unsigned long print_ts;
  8. //獲得程序當前的暫存器組
  9.     struct pt_regs *regs = get_irq_regs();
  10.     unsigned long now;
  11. //如果沒有開啟softlockup,就將這個cpu對應的時間戳清零
  12.     /* Is detection switched off? */
  13.     if (!per_cpu(softlockup_watchdog, this_cpu) || softlockup_thresh <= 0) {
  14.         /* Be sure we don
怎麼樣,說白了,也不難,就是兩條線並行工作:一條線是fifo級別的核心執行緒負責清時間戳,另一條線是時鐘中斷定期檢查時間戳是否有被清過,若是到了閥值都沒有被請過,則列印softlockup的資訊。
(三)長時間關中斷檢測
長時間關中斷檢測可以有幾種實現機制,而利用nmi watchdog來檢查這種長時間關中斷情況,是比較簡單的。其原理是需要軟硬體配合,硬體通常提供一個計數器(可以遞增也可以遞減),當記數到某個值得時候,系統就硬體復位。而nmi watchdog就定期(小於這個計數到達系統復位的時間)的去清一下系統的計數,若是某個程序長時間關中斷,則可能導致nmi watchdog得不到清,最終系統復位。