CentOS 7.1系統自動重啟的Bug定位過程

阿新 • • 發佈：2018-12-27

【問題】

有同事反應最近有多臺MongoDB的伺服器CentOS 7.1系統會自動重啟，分析了下問題原因。

【排查過程】

1、檢查系統日誌/var/log/message，並沒有記錄異常資訊，journalctl相關日誌只記錄發生過重啟

2、系統預設配置了kdump，使用crash工具分析/var/crash下的轉儲檔案vmcore，命令如下：

crash /usr/lib/debug/lib/modules/3.10.0-327.36.3.el7.x86_64/vmlinux /tmp/vmcore

3、可以看到kernel crash時的Call Trace，關鍵資訊標註為黃色字型

crash> bt

PID: 9979 TASK: ffff8804b4020b80 CPU: 2 COMMAND: "crond"

#0 [ffff8804b42db778] machine_kexec at ffffffff81051e9b

#1 [ffff8804b42db7d8] crash_kexec at ffffffff810f27e2

#2 [ffff8804b42db8a8] oops_end at ffffffff8163f448

#3 [ffff8804b42db8d0] no_context at ffffffff8162f561

#4 [ffff8804b42db920] __bad_area_nosemaphore at ffffffff8162f5f7

#5 [ffff8804b42db968] bad_area at ffffffff8162f91b

#6 [ffff8804b42db990] __do_page_fault at ffffffff81642235

#7 [ffff8804b42db9f0] trace_do_page_fault at ffffffff81642403

#8 [ffff8804b42dba28] do_async_page_fault at ffffffff81641ae9

#9 [ffff8804b42dba40] async_page_fault at ffffffff8163e678

[exception RIP: netlink_compare

+11]

RIP: ffffffff815560bb RSP: ffff8804b42dbaf8 RFLAGS: 00010246

RAX: 0000000000000000 RBX: 000000049f250000 RCX: 00000000c3637c42

RDX: 00000000000026fb RSI: ffff8804b42dbb48 RDI: 000000049f24fb78

RBP: ffff8804b42dbb30 R8: ffff8804b42dbb44 R9: 0000000000002170

R10: 0000000000000000 R11: ffff8804b42db966 R12: ffff88061dcd2678

R13: ffff8804b42dbb48 R14: ffffffff815560b0 R15: ffff88061b639000

ORIG_RAX: ffffffffffffffff CS: 0010 SS: 0018

#10 [ffff8804b42dbb00] rhashtable_lookup_compare at ffffffff813080d0

#11 [ffff8804b42dbb38] netlink_lookup at ffffffff815569ee

#12 [ffff8804b42dbb68] netlink_getsockbyportid at ffffffff81557d8f

#13 [ffff8804b42dbb80] netlink_alloc_skb at ffffffff81557dff

#14 [ffff8804b42dbbb8] netlink_ack at ffffffff8155a8a9

#15 [ffff8804b42dbbf0] audit_receive at ffffffff811067e7

#16 [ffff8804b42dbc18] netlink_unicast at ffffffff8155a02d

#17 [ffff8804b42dbc60] netlink_sendmsg at ffffffff8155a420

#18 [ffff8804b42dbcf8] sock_sendmsg at ffffffff815112d0

#19 [ffff8804b42dbe58] SYSC_sendto at ffffffff81511841

#20 [ffff8804b42dbf70] sys_sendto at ffffffff815122ce

#21 [ffff8804b42dbf80] system_call_fastpath at ffffffff81646b49

RIP: 00007f4ac19d5353 RSP: 00007ffe233b1fb8 RFLAGS: 00010202

RAX: 000000000000002c RBX: ffffffff81646b49 RCX: 0000000000000000

RDX: 000000000000009c RSI: 00007ffe233b1ff0 RDI: 0000000000000003

RBP: 00007ffe233b1ff0 R8: 00007ffe233b1fe0 R9: 000000000000000c

R10: 0000000000000000 R11: 0000000000000246 R12: ffffffff815122ce

R13: ffff8804b42dbf78 R14: 000000000000044d R15: 0000000000000001

ORIG_RAX: 000000000000002c CS: 0033 SS: 002b

4、在網上搜索，定位到這是kernel Linux 3.10.0-327.36.3.el7.x86_64的bug，詳細描述可以參見下面，該bug在 7.3 kernel (3.10.0-514.el7)後修復

https://bugs.centos.org/view.php?id=12012

5、但考慮到升級系統成本較高，後面嘗試定位觸發條件，可以看到觸發這個bug是crond命令

PID: 9979 TASK: ffff8804b4020b80 CPU: 2 COMMAND: "crond"

6、藉助systemtap工具，在發生crash的kernel函式上加探針，kernel.function("rhashtable_lookup_compare")

抓取到crond等系統命令確實會呼叫上面的函式

7、考慮到Mongo最近新上了一套系統監控的指令碼是通過crontab排程的，而上監控之前伺服器重啟的情況很少，猜測可能是crontab排程系統監控採集觸發了kernel bug

後面計劃將採集指令碼改為服務的方式觀察是否可以規避觸發bug

【結論】

由於已發現當前CentOS 7.1存在自動重啟的bug，建議後面新上的linux伺服器都採用CentOS7.4的系統

Description: CentOS Linux release 7.1.1503 (Core)

Release: 7.1.1503

Linux 3.10.0-327.36.3.el7.x86_64

資料庫運維經驗分享&MySQL原始碼學習漫漫路

CentOS 7.1系統自動重啟的Bug定位過程

【問題】有同事反應最近有多臺MongoDB的伺服器CentOS 7.1系統會自動重啟，分析了下問題原因。【排查過程】 1、檢查系統日誌/var/log/message，並沒有記錄異常資訊，journalctl相關日誌只記錄發生過重啟 2、系統預設配置了kdump，使用crash

Android 系統自動重啟Bug(高通平臺)

CentOS kernel panic後自動重啟

崩潰導致服務器 ger 收集信息正常自動重啟 entos 　　這段時間公司有幾臺老化的服務器老是莫名其妙宕機，最後查看日誌都是一些類似“I/O error”的錯誤導致的kernel panic。由於這幾臺機器跑的也不是什麽重要的業務，為了省事想幹脆把內核設置為內核

轉 CentOS 7 網絡卡重啟方法

1、 centos6的網絡卡重啟方法： service network restart centos7的網絡卡重啟方法： systemctl restart network 2、DNS配置檔案：cat /etc/resolv.conf 設定主機和IP繫結資訊：cat /etc/h

CentOS 7中啟動/停止/重啟服務

CentOS 7.0中一個最主要的改變，就是切換到了systemd。它用於替代紅帽企業版Linux前任版本中的SysV和Upstart，對系統和服務進行管理。systemd相容SysV和Linux標準組的啟動指令碼。 Systemd是一個Linux作業系統下的系統和服務管理

CentOS 7 網絡卡重啟方法

1、 centos6的網絡卡重啟方法： service network restart centos7的網絡卡重啟方法： systemctl restart network 2、DNS配置檔案：cat /etc/resolv.conf 設定主機和I

解決CentOS 7.1版本以上安裝好zabbix 3.4 無法重啟zabbix-server的問題

1. 問題所在報錯資訊：zabbix_server[46512]: segfault at 18 ip 00007f78842b4bd0 sp 00007fff1995a818 error 4 in libpthread-2.17.so[7f78842ab000+16000] 2. 產生原

Window10系統您的電腦將在一分鐘後自動重啟

今天想和夥伴們玩玩遊戲，開啟電腦，開啟tgp，不對，現在叫wegame。開啟之後卡在了登入介面，好辦,ctrl+alt+del,刪掉tgp程序。再次開啟，還打不開，重複幾次，電腦卡死，繼續ctrl+alt+del，刪掉了幾個程序。關機，重啟出現了以下錯誤問題：你的電腦將在一分鐘後自動

Uber提交安全報告自動駕駛測試專案停擺7月後或重啟

“90後”女大學生放棄北大保送復旦！她到底有多厲害？　　東北網12月6日訊(記者姜姍姍) 在東北農業大學有這樣一個自強不息的女大學生，她放棄北大直博被保送到復旦大學藥學院。她本科期間獲得國家獎學金、國家勵志獎學金、新東方自強獎學金、第一屆全國大學生生命聯賽國家二等獎……被評為黑龍江省“三好學生”。她就是生命

MongoDB系統CentOS 7.1 crash的排障過程

【作者】王棟：攜程技術保障中心資料庫專家，對資料庫疑難問題的排查和資料庫自動化智慧化運維工具的開發有強烈的興趣。【問題描述】最近我們有多臺MongoDB的伺服器CentOS 7.1系統發生了crash，會不定期的自動重啟。【排查思路】 1、碰到linux系統crash的問題，我們首先想到的是

windows系統環境下，讓tomcat自動重啟的指令碼

如果你使用的是Windows系統，並且想讓tomcat掛掉之後自動重啟的話，可以直接複製下面的程式碼，然後儲存到一個文字檔案中，然後將字尾名命名為.vbs，再然後雙擊執行即可。如：tomcat自動重啟指令碼.vbs 這裡稍微解釋一下，幾點值得注意的內容：

centos 修改resolv.conf後重啟系統恢復原狀

最近配置bind時，修改/etc/resolv.conf後，dns解析是伺服器ip，但下次啟動電腦時dns的ip變成外網dns.覺得奇怪上網搜尋資料發現原因： CentOS 5.4以上版本(我用的是centos 6.2)下面直接修改/etc/resolv.conf不行。必須要在/et

解決android系統進行OTA升級失敗時進入recovery介面不能自動重啟問題

1.前言在使用android系統中我們肯定需要對其進行OTA升級，因專案原因，我們機器升級頻率比較高，android系統升級出現失敗的情況肯定是有的，原因用多方面，下面會說到。升級

centos設定服務自動重啟

步驟： 1）把寫好的啟動指令碼start.sh新增到目錄/etc/rc.d/init.d/,並賦予start.sh可執行權 chmod +x start.sh 2）使用命令chkconfig設定開機啟動

浪潮服務器自動重啟

浪潮服務器自動重啟環境：浪潮服務器，型號NF5270M4故障：服務器不定時自重啟排查：在/var/log/message發現，每次重啟前都會有如下語句/usr/sbin/bmc-watchdog[3383]: fiid_obj_get: ‘present_countdown_value‘: data no

ASR9K MOD160板卡 Parity error 自動重啟

parity errorASR9K 的MOD160卡自動重啟，表現為MOD160子卡上的MPA子卡上的端口均不通，出現中斷。自動重啟的原因可能是由於Parity error 奇偶校驗錯誤。檢查ASR9K 的系統log，會發現如下日誌：LC/0/2/CPU0:May 9 06:05:19.776 : prm_

centos關閉ctrl+alt+del重啟

配置文件cat /etc/inittab # inittab is no longer used when using systemd.## ADDING CONFIGURATION HERE WILL HAVE NO EFFECT ON YOUR SYSTEM.## Ctrl-Alt-Delete is h

CentOS 7.1下SSH遠程登錄服務器詳解-轉

info which 開啟如何 pty wan public keygen ger 轉自：http://www.linuxidc.com/Linux/2016-03/129204.htm 一、明文傳輸與加密傳輸明文傳輸：當我們的數據包在網絡上傳輸的時候，以數據包的原

觀察者模式實際應用：監聽線程，意外退出線程後自動重啟

lee text 實時之間最終 ren tap instance and 摘要: 　觀察者模式，定義對象之間的一種一對多的依賴關系，當對象的狀態發生改變時，所有依賴於它的對象都得到通知並且被自動更新。觀察者模式在JDK中有現成的實現，java.util.Obsera

Nodejs 文件修改自動重啟擴展

tle ins nbsp code title 修改 super 自動 pos 使用 supervisor：安裝： 1 # 全局安裝 2 npm -g install supervisor 啟動： supervisor app.js Nodejs 文件修改自動重

CentOS 7.1系統自動重啟的Bug定位過程

相關推薦