[Kernel_exception2] data abort Unable to handle kernel paging request

阿新 • • 發佈：2018-11-16

一、概序：

data abort 型別的KE比較常見，觸發此KE的原因是，使用者空間使用的地址都是虛擬地址，此地址經過MMU的負複雜

的頁表對映到實體地址，當其中發生一些異常導致此虛擬地址無法訪問到對應的實體地址時，就會通過報對應的BUG

使系統重啟，此地址有可能已經被其他程序訪問，也有可能因為部分硬體問題導致對應的地址出現翻轉導致無法訪問。

二、案例：

（1）硬體bitflip的KE：

堆疊資訊如下：

[20512.223175] -(3)[30488:kworker/u8:2]Unable to handle kernel paging request at virtual address 4156106c
[20512.223201] -(3)[30488:kworker/u8:2]pgd = c0003000
[20512.223207] [4156106c] *pgd=80000040005003, *pmd=00000000
[20512.223223] -(3)[30488:kworker/u8:2]Internal error: Oops: 205 [#1] PREEMPT SMP ARM
[20512.223230] -(3)[30488:kworker/u8:2]Kernel Offset: disabled
[20513.223253] -(3)[30488:kworker/u8:2]PC is at set_task_cpu+0xd8/0x23c
[20513.223262] -(3)[30488:kworker/u8:2]LR is at walt_fixup_busy_time+0x1f0/0x4ac
[20513.223268] -(3)[30488:kworker/u8:2]pc : [<c02596f0>]    lr : [<c028f46c>]    psr: 60070093

使用GDB通過解析對應的符號表vmlinux可以看到堆疊如下：

(gdb) bt
#0  0xc02596f0 in set_task_rq (cpu=<optimized out>, p=<optimized out>)
    at /home/buildsrv-108/jenkins/workspace/PY_UNIFIED_VERSION_BUILD/code/kernel-4.9/kernel/sched/sched.h:1061
#1  __set_task_cpu (cpu=<optimized out>, p=<optimized out>)
    at /home/buildsrv-108/jenkins/workspace/PY_UNIFIED_VERSION_BUILD/code/kernel-4.9/kernel/sched/sched.h:1084
#2  set_task_cpu (p=0xdbcd4000, new_cpu=0) at /home/buildsrv-108/jenkins/workspace/PY_UNIFIED_VERSION_BUILD/code/kernel-4.9/kernel/sched/core.c:1314
#3  0xc025a648 in try_to_wake_up (p=0xdbcd4000, state=<optimized out>, wake_flags=<optimized out>)
    at /home/buildsrv-108/jenkins/workspace/PY_UNIFIED_VERSION_BUILD/code/kernel-4.9/kernel/sched/core.c:2214
#4  0xc025a914 in wake_up_process (p=<optimized out>)
    at /home/buildsrv-108/jenkins/workspace/PY_UNIFIED_VERSION_BUILD/code/kernel-4.9/kernel/sched/core.c:2294
#5  0xc0240bdc in wake_up_worker (pool=<optimized out>)
    at /home/buildsrv-108/jenkins/workspace/PY_UNIFIED_VERSION_BUILD/code/kernel-4.9/kernel/workqueue.c:837
#6  process_one_work (worker=0xdbea5080, work=0xd5c5b434)
    at /home/buildsrv-108/jenkins/workspace/PY_UNIFIED_VERSION_BUILD/code/kernel-4.9/kernel/workqueue.c:2076
#7  0xc0241998 in worker_thread (__worker=0xdbea5080)
    at /home/buildsrv-108/jenkins/workspace/PY_UNIFIED_VERSION_BUILD/code/kernel-4.9/kernel/workqueue.c:2225

對應的set_task_cpu程式碼如下：

void set_task_cpu(struct task_struct *p, unsigned int new_cpu)
{
    ......
	if (task_cpu(p) != new_cpu) {
		if (p->sched_class->migrate_task_rq)
			p->sched_class->migrate_task_rq(p);
		p->se.nr_migrations++;
		perf_event_task_migrate(p);

		walt_fixup_busy_time(p, new_cpu);
	}

	__set_task_cpu(p, new_cpu);
}

對應幀的反彙編程式碼如下：

(gdb) f 3
#3  0xc025a648 in try_to_wake_up (p=0xdbcd4000, state=<optimized out>, wake_flags=<optimized out>)
    at /home/buildsrv-108/jenkins/workspace/PY_UNIFIED_VERSION_BUILD/code/kernel-4.9/kernel/sched/core.c:2214
2214	in /home/buildsrv-108/jenkins/workspace/PY_UNIFIED_VERSION_BUILD/code/kernel-4.9/kernel/sched/core.c

(gdb) i reg
r0             0xdbcd4080	3687661696
r1             0xdf79c900	3749300480
r2             0x4094d	264525
r3             0x4094d	264525
r4             0xdbcd4000	3687661568
r5             0xdbcd4644	3687663172
r6             0xc1404548	3242214728

gdb) disas
Dump of assembler code for function try_to_wake_up:

   0xc025a62c <+552>:    beq    0xc025a648 <try_to_wake_up+580>
   0xc025a630 <+556>:    ldr    r3, [r11, #-56]    ; 0x38
   0xc025a634 <+560>:    mov    r1, r10
   0xc025a638 <+564>:    mov    r0, r4      //將r4的值傳給r0
   0xc025a63c <+568>:    orr    r3, r3, #4
   0xc025a640 <+572>:    str    r3, [r11, #-56]    ; 0x38
   0xc025a644 <+576>:    bl    0xc0259618 <set_task_cpu> //跳轉到set_task_cpu函式中
=> 0xc025a648 <+580>:    movw    r3, #17828    ; 0x45a4

從上面彙編程式碼可以看出r4的值應該和r0相等（也就是程式碼中p的值），但時間r0 的倒數第四位翻轉為1，使訪問的

地址發生變化：dbcd4000 ->dbcd4080，從此點可以看出是硬體Bitflip導致的KE，如果問題概率比較高的話，可

以通過交叉CPU/memory來驗證此問題。

（2）踩記憶體觸發的KE：

所謂踩記憶體，意思就是將要使用的這塊記憶體已經其他地方非法佔有，非法佔有的方式有陣列越界/use after free等，下面

看一個具體的例項，其中kernel log打印出來的堆疊資訊如下：

[  192.960966]  (0)[1410:Signal Catcher]Unable to handle kernel paging request at virtual address 880646e1
[  192.960998]  (0)[1410:Signal Catcher]pgd = d06f4000
[  192.961013] [880646e1] *pgd=00000000
[  193.961221] -(0)[1410:Signal Catcher]PC is at find_vma+0x54/0x80
[  193.961233] -(0)[1410:Signal Catcher]LR is at 0xd18ac3d8

通過GDB載入vmlinux解析出如下堆疊：

(gdb) bt
#0  find_vma (mm=0xdab73180, addr=3040309248) at /home/buildsrv-96/jenkins/workspace/UNIFIED_VERSION_BUILD-2/code/kernel-3.18/mm/mmap.c:2099
#1  0xc01171f8 in __do_page_fault (tsk=<optimized out>, flags=<optimized out>, fsr=<optimized out>, addr=<optimized out>, mm=<optimized out>)
    at /home/buildsrv-96/jenkins/workspace/UNIFIED_VERSION_BUILD-2/code/kernel-3.18/arch/arm/mm/fault.c:232
#2  do_page_fault (addr=0, fsr=3040309248, regs=0xd0001fb0)
    at /home/buildsrv-96/jenkins/workspace/UNIFIED_VERSION_BUILD-2/code/kernel-3.18/arch/arm/mm/fault.c:314
#3  0xc01003dc in do_DataAbort (addr=0, fsr=23, regs=0xd0001fb0)

看到第0幀的addr = 3040309248就可以明顯發現很奇怪，一般不會出現這種異常的addr，下面接著分析，

(gdb) f 2
#2  do_page_fault (addr=0, fsr=3040309248, regs=0xd0001fb0)
    at /home/buildsrv-96/jenkins/workspace/UNIFIED_VERSION_BUILD-2/code/kernel-3.18/arch/arm/mm/fault.c:314
314	in /home/buildsrv-96/jenkins/workspace/UNIFIED_VERSION_BUILD-2/code/kernel-3.18/arch/arm/mm/fault.c

切到第二幀的時候，可以看到addr = 0，並且在函式的傳遞過程中，addr的值並沒有發生變化，這裡可以看出addr

有被踩的可能，下面看彙編程式碼也可以很明顯的看出addr被踩：

(gdb) disas
Dump of assembler code for function do_page_fault:
   0xc0117130 <+0>:	mov	r12, sp
   0xc0117134 <+4>:	push	{r4, r5, r6, r7, r8, r9, r10, r11, r12, lr, pc}
   0xc0117138 <+8>:	sub	r11, r12, #4
   0xc01171f0 <+192>:	mov	r0, r5
   0xc01171f4 <+196>:	bl	0xc0222e1c <find_vma>
=> 0xc01171f8 <+200>:	subs	r9, r0, #0   //r9 = r0 - 0=0
   0xc01171fc <+204>:	beq	0xc01173b8 <do_page_fault+648>
   0xc0117200 <+208>:	ldr	r3, [r9]
   0xc0117204 <+212>:	cmp	r8, r3
   0xc0117208 <+216>:	bcc	0xc0117390 <do_page_fault+608>

(gdb) i reg
r0             0x0	0
r1             0xb5377000	3040309248
r2             0xff000b2c	4278192940
r3             0x880646ed	2282112749
r4             0xd0001fb0	3489669040
r5             0xdab73180	3669438848
r6             0xd18ac100	3515531520
r7             0x17	23
r8             0xb5377000	3040309248
r9             0xb5377000	3040309248
r10            0xdab731b8	3669438904

上面彙編程式碼中r9中的值應該為0，但棧打印出來的是0xb5377000 = 3040309248，懷疑這個地址被踩了導致出現

的問題。對於踩記憶體的問題，需要開啟slub或者kasan的debug機制來除錯此類問題，當出現踩記憶體時可以將對應踩的

位置表示出來，具體方法可以參考部落格：記憶體管理三核心記憶體檢測KASAN。

作者：frank_zyp
您的支援是對博主最大的鼓勵，感謝您的認真閱讀。
本文無所謂版權，歡迎轉載。

[Kernel_exception2] data abort Unable to handle kernel paging request

一、概序： data abort 型別的KE比較常見，觸發此KE的原因是，使用者空間使用的地址都是虛擬地址，此地址經過MMU的負複雜的頁表對映到實體地址，當其中發生一些異常導致此虛擬地址無法訪問到對應的實體地址時，就會通過報對應的BUG 使系統重啟

執行OK6410攝像頭程式時出現Unable to handle kernel NULL pointer dereference at virtual address 00000060

[[email protected]]# ./test_usb_camera Unable to handle kernel NULL pointer dereference at virtual address 00000060 pgd = c3d70000 [000

驅動開發誤用指標錯誤：Unable to handle kernel NULL pointer dereference at virtual address

前言今天，來說說驅動開發中誤用指標導致的錯誤：Unable to handle kernel NULL pointer dereference at virtual address xxxxxxxx。這個錯誤是我當作在做液晶驅動使用DMA的時候遇到的，在分

Unable to open kernel device "\\.\Global\vmx86"

現在手上用的機子是公司的，拿到手後發現是windows xp sp3的，嫌麻煩，沒有重灌系統，為了工作方便，裝了VMware6.5破解版的，但是每次安裝好，第二天重新開機後，就發現會提示“Unable to open kernel device \\.\Global\vmx86;系統找不到

虛擬機器報錯：Unable to open kernel device "\\.\VMCIDev\VMX": 重疊 I/O 操作在進行中

今天啟動虛擬機器突然出現： Unable to open kernel device "\\.\VMCIDev\VMX": 重疊 I/O 操作在進行中. Did you reboot after installing VMware Workstation? 這樣的報錯，

Unable to verify your data submission.加入了_csrf也報400錯誤的解決

需要 pos 簡單配置文件 ken 驗證中文查看數據 <input type="hidden" name="_csrf" value="<?=Yii::$app->request->csrfToken?>" />如果你添加了以上標

Centos kernel panic-not syncing:VFS:Unable to mount root fs on unknown block 解決辦法

昨晚更新了一下核心，今晚開機就無法進系統了...提示如下圖：解決方案：開機啟動時按Esc，然後選擇下面的舊版本的核心啟動即可。（成功進入系統後，你可以選擇改變開機預設選擇的核心）。 uname -r 檢視當前核心版本 rpm -qa|grep k

【原創】叢集搭建報“Error unable to connect to nodes ['data-cfemail="96e4f7f4f4ffe2d6e4fbe7bbf8a7

在rabbitmq叢集搭建時，將rmq-n2和rmq-n3兩節點加入rmq-n1時，報如下錯：解決辦法： rabbitmq叢集是基於erlang叢集的，而erlang叢集中各節點間的通訊是通過4369埠和25672埠來進行通訊的，所以：防火牆開啟4369埠和25672埠&nbs

Unable to resolve dependency for ':data-cfemail="a6c7d6d6e6c2c3c4d3c1e7c8c2d4c9cfc2f2c3

Unable to resolve dependency for ':[email protected]/compileClasspath': Could not resolve com.android.support:appcompat-v7:26.1.0. Open File Sh

Unable to resolve dependency for ':data-cfemail="56372626163233342331">[email prot

今天匯入Android專案的時候突然遇到了一個問題，‘Unable to resolve dependency’ 有點頭疼，然後就在網上找了很多方法，發現都不行，最後發現，原來是這個檔案的配置出了錯，我新匯入的gradle-4.6-all.zip，我的專案的是gradle-4.4

inflate: data stream error (unknown compression method) unable to unpack

inflate: data stream error 資料流異常個人總結，親測成功，不喜勿噴原因：電腦藍屏關機導致git檔案損壞解決：方案一：重新git clone 方案二： 1.控制檯輸入：git fsck --full 檢查損壞的檔案，然後去本地專

kafka連zk報錯：Unable to read additional data from server sessionid 0x0...

問題描述：主機資訊： IP hostname 10.0.0.10 host10 10.0.0.12 host12 10.0.0.13 h

android Studio 出現：Unable to resolve dependency for ':data-cfemail="4b2a3b3b0b2f2e293e2c

li經千辛萬苦，我的新工程gradle搞定了但是卻在變異的時候告訴我 Unable to resolve dependency for ':[email protected]/compileClasspath'xxx 等等，導致我的所有的依賴都拿不下來我去，這不是要我的命嗎然後又是一

關於 Unable to resolve dependency for ':data-cfemail="69081919290d0c0b1c0e28070d1b06000d3d0c1

Android studio升級到3.0往上之後，遇到的最噁心的一件事，本人及其懶惰，從來不寫文章，但這個問題還是要記錄下來。百度了NNNNN多之後，問題都沒有解決，像關掉"offline work"開關、或者匯入的model 的build版本不一致這種方案，我也不知道發

rabbitMQ報錯；解決方案Error: unable to connect to node data-cfemail="77051615151e03371b1814161b1f1

錯誤內容如下：首先　　　　# /sbin/service rabbitmq-server stop 　　　　# /sbin/service rabbitmq-server start 　　　　# rabbitmqctl status 執行上面內容如果沒有出現剛才出現

android.view.WindowManager$BadTokenException: Unable to add window -- token data-cfemail="2

android.view.WindowManager$BadTokenException: Unable to add window – token [email protected] is

Unable to lock the lock file: /data/db/mongod.lock (Resource temporarily unavailable). Another mongo

錯誤：Unable to lock the lock file: /data/db/mongod.lock (Resource temporarily unavailable). Another mongod instance is already running on the /data/db

python exe cx_Oracle: unable to acquire oracle environment handle問題解決

解決python使用pyinstall打包包含cx_Oracle模組的exe檔案在別的機器上執行報 cx_Oracle: unable to acquire oracle environment handle問題 1.pyinstaller -F test.py 生成tes

rabbitMQ報錯；解決方案Error: unable to connect to node data-cfemail="65170407070c1125090a0604090d0

錯誤內容如下：首先　　　　# /sbin/service rabbitmq-server stop 　　　　# /sbin/service rabbitmq-server start 　　　　# r

RabbitMQ_____error rabbitMQ：Error: unable to perform an operation on node 'data-cfemail

Error: unable to perform an operation on node '[email protected]' 將登入身份改為指定帳戶，重啟RabbitMq服務 Error: unable to perform an operation on node '

[Kernel_exception2] data abort Unable to handle kernel paging request

相關推薦