核心除錯工具 — kdump & crash

阿新 • • 發佈：2019-02-05

kdump簡介

kdump是系統崩潰的時候，用來轉儲執行記憶體的一個工具。

系統一旦崩潰，核心就沒法正常工作了，這個時候將由kdump提供一個用於捕獲當前執行資訊的核心，

該核心會將此時記憶體中的所有執行狀態和資料資訊收集到一個dump core檔案中以便之後分析崩潰原因。

一旦記憶體資訊收集完成，可以讓系統將自動重啟。

kdump是RHEL5之後才支援的，2006被主線接收為核心的一部分。它的原理簡單來說是在記憶體中保留一塊

區域，這塊區域用來存放capture kernel，當production kernel發生crash的時候，通過kexec把保留區域的

capure kernel給執行起來，再由捕獲核心負責把產品核心的完整資訊 - 包括CPU暫存器、堆疊資料等轉儲

到指定位置的檔案中。

kdump原理

kexec是kdump機制的關鍵，包含兩部分：

核心空間的系統呼叫kexec_load。負責在生產核心啟動時將捕獲核心載入到指定地址。

使用者空間的工具kexec-tools。將捕獲核心的地址傳遞給生產核心，從而在系統崩潰的時候找到捕獲核心的地址並執行。

kdump是一種基於kexec的核心崩潰轉儲機制。當系統崩潰時，kdump使用kexec啟動到第二個核心。第二個核心通常

叫做捕獲核心，以很小記憶體啟動以捕獲轉儲映象。第一個核心保留了記憶體的一部分給第二個核心啟動使用。

由於kdump利用kexec啟動捕獲核心，繞過了BIOS，所以第一個核心的記憶體得以保留。這是記憶體崩潰轉儲的本質。

捕獲核心啟動後，會像一般核心一樣，去執行為它建立的ramdisk上的init程式。而各種轉儲機制都可以事先在init中實現。

為了在生產核心崩潰時能順利啟動捕獲核心，捕獲核心以及它的ramdisk是事先放到生產核心的記憶體中的。

生產核心的記憶體是通過/proc/vmcore這個檔案交給捕獲核心的。為了生成它，使用者工具在生產核心中分析出記憶體的使用和

分佈等情況，然後把這些資訊綜合起來生成一個ELF標頭檔案儲存起來。捕獲核心被引導時會被同時傳遞這個ELF檔案頭的

地址，通過分析它，捕獲核心就可以生成出/proc/vmcore。有了/proc/vmcore這個檔案，捕獲核心的ramdisk中的指令碼就

可以通過通常的檔案讀寫和網路來實現各種策略了。

kdump配置

RHEL5開始，kexec-tools是預設安裝的。

如果需要除錯kdump生成的vmcore檔案，需要手動安裝kernel-debuginfo包。

(1) 預留記憶體

可以修改核心引導引數，為啟動捕獲核心預留指定記憶體。

在/etc/grub.conf (一般為/boot/grub/grub.conf的軟連結)中：

[email protected]，Y是為kdump捕獲核心保留的記憶體，X是保留部分記憶體的起始位置。

預設為crashkernel=auto，可自行設定如crashkernel=256M。

(2) 配置檔案

配置檔案為/etc/kdump.conf，以下是幾個常用配置：

# path /var/crash

預設的vmcore存放目錄為/var/crash/%HOST-%DATE/，包括兩個檔案：vmcore和vmcore-dmesg.txt

# ssh <[email protected]>

will copy /proc/vmcore to <[email protected]>:<path>/%HOST-%DATE/ via SSH

make sure user has necessary write permissions on server.

自動拷貝到遠端機器上。

# default <reboot | halt | poweroff | shell | mount_root_run_init>

Actions to perform in case dumping to intended target fails.

轉儲失敗時執行。

(3) 啟動服務

# chkconfig kdump on // 開機啟動

# service kdump status // start、stop、restart等

(4) 功能驗證

Magic System request key is a magical key combo you can hit which the kernel will respond to regardless

of whatever else it is doing, unless it is completely locked up.

使用sysrq需要編譯選項CONFIG_MAGIC_SYSRQ的支援。詳細資訊可看documentation/sysrq.txt。

故意讓系統崩潰，來測試kdump是否正常工作。

# echo c > /proc/sysrq-trigger

Will perform a system crash by a NULL pointer dereference.

A crash dump will be taken if configured.

Magic SysRq還有一些很有趣的值，有的具有很大的破環性，輸出在/var/log/messages：

f：call oom_kill to kill a memory hog process. 執行oom killer。

l：shows a stack backtrace for all active CPUs. 打印出所有CPU的stack backtrace。

m：dump current memory info. 打印出記憶體使用資訊。

p：dump the current registers and flags. 打印出所在CPU的暫存器資訊。

(5) 捕獲核心

捕獲核心是一個未壓縮的ELF映像檔案，檢視捕獲核心是否載入到記憶體中：

# cat /sys/kernel/kexec_crash_loaded

縮小捕獲核心佔用的記憶體：

# echo N > /sys/kernel/kexec_crash_size

crash簡介

當系統崩潰時，通過kdump可以獲得當時的記憶體轉儲檔案vmcore，但是該如何分析vmcore呢？

crash是一個用於分析核心轉儲檔案的工具，一般和kdump搭配使用。

使用crash時，要求除錯核心vmlinux在編譯時帶有-g選項，即帶有除錯資訊。

如果沒有指定vmcore，則預設使用實時系統的記憶體來分析。

值得一提的是，crash也可以用來分析實時的系統記憶體，是一個很強大的除錯工具。

crash使用gdb作為內部引擎，語法類似於gdb，命令的使用說明可以用<cmd> help來檢視。

使用crash需要安裝crash工具包和核心除錯資訊包：

crash

kernel-debuginfo-common

kernel-debuginfo

crash使用

Analyze Linux crash dump data or a live system.

crash [OPTION] NAMELIST MEMORY-IMAGE (dumpfile form)

crash [OPTION] [NAMELIST] (live system form)

使用crash來除錯vmcore，至少需要兩個引數：

NAMELIST：未壓縮的核心映像檔案vmlinux，預設位於/usr/lib/debug/lib/modules/$(uname -r)/vmlinux，由

核心除錯資訊包提供。

MEMORY-IMAGE：記憶體轉儲檔案vmcore，預設位於/var/crash/%HOST-%DATE/vmcore，由kdump生成。

例如：# crash /usr/lib/debug/lib/modules/$(uname -r)/vmlinux /var/crash/%HOST-%DATE/vmcore

(1) 錯誤型別

首先可以在vmcore-dmesg.txt中先檢視錯誤型別，如：

1. divide error: 0000 [#1] SMP，除數為0造成核心崩潰，由1號CPU觸發。

2. BUG: unable to handle kernel NULL pointer dereference at 000000000000012c，引用空指標。

這樣一來就能知道引發核心崩潰的錯誤型別。

(2) 錯誤地點

RIP為造成核心崩潰的指令，Call Trace為函式呼叫棧，通過RIP和Call Trace可以確定函式的呼叫路徑，以及在

哪個函式中的哪條指令引發了錯誤。

例如RIP為：[<ffffffff812cdb54>] ? tcp_enter_loss+0x1d3/0x23b

[<ffffffff812cdb54>]是指令在記憶體中的虛擬地址。

tcp_enter_loss是函式名(symbol)。

0x1d3是這條指令相對於tcp_enter_loss入口的偏移，0x23b是函式編譯成機器碼後的長度。

這樣一來就能確定在哪個函式中引發了錯誤，以及錯誤的大概位置。

Call Trace為函式的呼叫棧，是從下往上看的。可以用來分析函式的呼叫關係。

(3) crash基本輸出

# crash /usr/lib/debug/lib/modules/$(uname -r)/vmlinux /var/crash/%HOST-%DATE/vmcore

      KERNEL: /usr/lib/debug/lib/modules/2.6.32-358.el6.x86_64/vmlinux
    DUMPFILE: vmcore  [PARTIAL DUMP]
        CPUS: 12
        DATE: Fri Sep 19 16:47:01 2014
      UPTIME: 7 days, 06:37:46
LOAD AVERAGE: 0.19, 0.05, 0.01
       TASKS: 282
    NODENAME: localhost.localdomain
     RELEASE: 2.6.32-358.el6.x86_64
     VERSION: #1 SMP Tue Oct 29 10:18:21 CST 2013
     MACHINE: x86_64  (1999 Mhz)
      MEMORY: 48 GB
       PANIC: "Oops: 0002 [#1] SMP " (check log for details)
         PID: 0
     COMMAND: "swapper"
        TASK: ffffffff81a8d020  (1 of 12)  [THREAD_INFO: ffffffff81a00000]
         CPU: 0
       STATE: TASK_RUNNING (PANIC)

這些基本輸出資訊簡單明瞭，可由sys命令觸發。

(4) crash常用命令

bt：列印函式呼叫棧，displays a task's kernel-stack backtrace，可以指定程序號bt <pid>。

log：列印系統訊息緩衝區，displays the kernel log_buf contents，如log | tail -n 30。

ps：顯示程序的狀態，>表示活躍的程序，如ps | grep RU。

sys：顯示系統概況。

kmem -i：顯示記憶體使用資訊。

dis <addr>：對給定地址進行反彙編。

exception RIP即為造成錯誤的指令。

關於log命令：

核心首先把訊息列印到核心態的ring buffer，使用者態的klogd負責讀取並轉發給syslogd，讓它記錄到磁碟。

在核心崩潰時，可能無法把訊息記錄到磁碟，但是ring buffer中一般會有記錄。所以log命令有時候能檢視

到系統日誌中所缺失的資訊。

(5) 結構體和變數

檢視結構體中所有成員的值，例如：

# ps | grep RU

>     0      0   0  ffffffff81a8d020  RU   0.0       0      0  [swapper]

# struct task_struct ffffffff81a8d020

struct task_struct {
  state = 0, 
  stack = 0xffffffff81a00000, 
  usage = {
    counter = 2
  }, 
  flags = 2097408,

顯示整個結構體的定義：

# struct task_struct

struct task_struct {
    volatile long int state;
    void *stack;
    atomic_t usage;
    unsigned int flags;

顯示整個結構體的定義，以及每個成員的偏移：

# struct -o task_struct

struct task_struct {
     [0] volatile long int state;
     [8] void *stack;
    [16] atomic_t usage;
    [20] unsigned int flags;
    ...

顯示結構體中的成員定義，以及它的偏移：

# struct task_struct.pid

struct task_struct {
  [1192] pid_t pid;
}

顯示結構體中成員的值：

# struct task_struct.pid ffffffff81a8d020

  pid = 0

檢視全域性變數的值：

# p sysctl_tcp_rmem

sysctl_tcp_rmem = $4 = 
 {40960, 873800, 41943040}

檢視percpu全域性變數(加字首per_cpu_)：

# p per_cpu__irq_stat

PER-CPU DATA TYPE:
  irq_cpustat_t per_cpu__irq_stat; // 變數型別的宣告
PER-CPU ADDRESSES:
  [0]: ffff880028216540 // 0號CPU對應變數的地址
  [1]: ffff880645416540
  ...

檢視0號CPU對應變數的值：

# struct irq_cpustat_t ffff880028216540

struct irq_cpustat_t {
  __softirq_pending = 0, 
  __nmi_count = 4780195, 
  irq0_irqs = 148, 
  ...

(6) 反彙編和原始碼行

反彙編：

# dis ffffffffa021ba91 // 反彙編一條指令

# dis -l probe_2093+497 10 // 反彙編從某個地址開始的10條指令

對於核心中的符號：

# sym tcp_v4_do_rcv // 通過symbol，顯示虛擬地址和原始碼位置

# sym ffffffff8149f930 // 通過虛擬地址，顯示symbol和原始碼位置

對於模組中的符號：

需要先載入相應的模組進來，才能顯示符號對應的原始碼：

# mod // 檢視模組

# mod -s module /path/to/module.ko // 載入模組

# sym symbol // 顯示符號對應的模組原始碼，也可以用virtual address

(7) 修改記憶體

提供動態的修改執行中核心的功能，以供除錯，但是RHEL和CentOS上不允許。

wr：modifies the contents of memory.

wr [-u | -k | -p] [-8 | -16 | -32 | -64] [address | symbol] value

使用例子：

# p sysctl_tcp_timestamps

sysctl_tcp_timestamps = $3 = 1

# wr sysctl_tcp_timestamps 0

wr: cannot write to /dev/crash!

我勒個擦，/dev/crash的檔案屬性是rw，但是crash_fops中並沒有提供寫函式，所以還是隻讀的。

這個功能很有用，但被RHEL和CentOS禁止了，所以如需動態修改執行核心還是用systemtap吧。

Reference

核心除錯工具 — kdump & crash

kdump簡介 kdump是系統崩潰的時候，用來轉儲執行記憶體的一個工具。系統一旦崩潰，核心就沒法正常工作了，這個時候將由kdump提供一個用於捕獲當前執行資訊的核心，該核心會將此時記憶體中的所有執行狀態和資料資訊收集到一個dump core檔案中以便之後分析崩潰原因

Linux核心除錯工具

一些Linux Kernel的分析除錯工作，主要包換qemu，kprobes和trace等，以作備忘。 Qemu原始碼級除錯Kernel 1. Qemu編譯與安裝先安裝libsdl的開發庫 $ ./configure $ make # make install Qe

記一次Linux核心崩潰：kdump,crash,vmcore

### 原理 Linux核心傳送崩潰時，kdump會生成一個核心轉儲檔案vmcore。可以通過分析vmcore分析出核心崩潰的原因。 crash是一個被廣泛應用的核心奔潰轉儲檔案分析工具。使用crash除錯核心轉儲檔案，需要安裝crash工具和核心除錯工具kernel-debuginfo。 ### 安裝需

【舊文章搬運】Windbg+Vmware驅動除錯入門(四)---VirtualKD核心除錯加速工具

原文發表於百度空間，2009-01-09========================================================================== 今天又想起來VirtualKD這個東西，試用了一下，真是爽壞了，可能我火星了~~ 很久以前就知道小喂有個VmKd工具

Linux核心除錯的方式以及工具集錦

本作品採用知識共享署名-非商業性使用-相同方式共享 4.0 國際許可協議進行許可, 轉載請註明出處, 謝謝合作因本人技術水平和知識面有限, 內容如有紕漏或者需要修正的地方, 歡迎大家指正, 也歡迎大家提供一些其他好的除錯工具以供收錄, 鄙人在此謝

linux3.0 核心級除錯工具KDB支援反彙編

KDB是linux核心整合的一個除錯工具，關於更多KDB的資訊，請查閱相關的資訊。本文就是移植kdb的反彙編命令ID。在KDB成為核心自身的一部分的時候，關於ID命令就已經被移除，具體的原因不知道。現在的核心雖然支援kdb了，但是並沒有這個命令 I

vue 開發除錯工具vue-devtools 安裝

安裝前的準備因為安裝依賴需要Node.js環境。所以，第一件事就是安裝Node.js。安裝完成之後，從github的下載地址將該外掛下載下來：https://github.com/vuejs/vue-devtools 安裝步驟下載之後，解壓檔案，然後複製貼上解

linux核心資料結構以及核心除錯

一、可移植性 1.1 資料型別可移植性由於核心可能執行在不同的架構上，不同的架構具有不同的機器字長，因而可移植性對核心程式設計非常重要。核心資料使用的資料型別分為 3 個主要型別標準C型別明確大小的型別用作特定核心物件的型別 1.1.1 標準 C 型別使用標準

移動端web開發除錯工具——Vorlon.JS上手教程

問題提出：在移動端頁面的日常開發中常常會碰到這樣一個問題，頁面在Chrome的Device模式下顯示正常，但在移動端瀏覽器或者內嵌到APP裡就會出現樣式問題或者Js程式碼問題，但是移動端上沒有類似Chrome的開發者除錯工具，只能通過嘗試修改，重複釋出版本來檢查問題，或者寫一大堆a

在 thinkphp5.1+ 中利用 composer 安裝 php 除錯工具 kint

在 thinkphp 中,沒有 php 除錯函式,如類似在 Laravel/Lumen 中有一個常用的除錯 dd(),我們可以利用 composer 工具安裝一個類似這樣的 php 除錯工具. 文件地址 https://kint-php.github.io/kint/ 直接在專案中

除錯前端頁面的瀏覽器除錯工具

主要瀏覽器的除錯工具通常，瀏覽器啟用除錯工具一般是按下 F12 鍵，並在除錯選單中選擇 "Console" 。各瀏覽器的步驟如下: Chrome 瀏覽器開啟瀏覽器。在選單中選擇工具。在工具中選擇開發者工具。最後，選擇 Console。 Fi

Laravel Telescope：優雅的應用除錯工具

文章轉自：laravel-china.org/topics/1901… 視訊教程：047. 優雅的應用除錯工具--laravel/telescope （5.7 新擴充套件） Laravel Telescope 是由 Mohamed Said 和 Taylor Otwell 開源

SylixOS 核心除錯

1、printk()是最常用的，可以在核心態中列印響應除錯資訊； 2、部分核心程式碼中無法使用printk()列印資訊時就需要用到_DebugFormat()，申明如下： _DebugFormat(level, fmt, ...) level可選值如下： #define __LO

SylixOS下開啟核心除錯資訊

開啟檔案libsylixos/SylixOS/config/net/net_cfg.h 將巨集LW_CFG_LWIP_DEBUG置1 開啟檔案libsylixos/SylixOS/include/network/

GDB程式除錯工具

使用gcc/g++編譯程式時加-g選項以方便除錯。設定系統允許產生core檔案: $ulimit -c unlimited 除錯由test程式產生的core檔案: $gdb ./test core 設定輸出資訊時的分頁功能 set pagination on # 或者 set heigh

Mac OS下安裝串列埠除錯工具minicom

最近在做一個Mac下的ssh除錯工具，但是出現了一點問題。後來發現居然Mac下有串列埠除錯工具可以用，所以果斷換串列埠了，是普通PL2303晶片的usb轉串列埠線。接下來說下簡單的安裝步驟吧。我是勤勞的搬磚工。。。首先的是安裝PL2303串列埠驅動，轉載自在MAC OS X下安裝usb轉

嵌入式Linux開發——(十六)Linux核心除錯技術

1、核心列印函式printk ①printk函式與printf函式用法格式完全相同 ②它所列印的字串頭部可以加入“<n>”樣式字元，n=0---7表示這條資訊的記錄級別 ③對於p

【Linux C/C++】第07講 gdb除錯工具詳解

當你需要單步跟蹤除錯的時候，就必然會用到gdb工具，不同於VS方便的除錯方式，gdb的除錯並不是那麼的方便直觀。不要降低熱情，熟練以後你會發現Linux下的程式設計方式非常好用。一、簡介 &

【除錯：除錯工具】 Windbg的gflags.exe 和 pageheap的使用和原理分析

PageHeap / Gflags 使用，溢位容易用到堆除錯工具——pageheap的使用和原理分析今天除錯一個bug，用pageheap解決，在此記錄一下。 bug症狀如下： 1：不確定性崩潰，用vs除錯啟動每次崩潰地點都在crt分配或者釋放堆的位置 2：崩潰時v

核心除錯工具 — kdump & crash

kdump簡介

kdump原理

kdump配置

crash簡介

crash使用

Reference

相關推薦