1. 程式人生 > >系統異常重啟檢測-mcelog

系統異常重啟檢測-mcelog

mcelog 是Linux 系統上用來檢查硬體錯誤,特別是記憶體和CPU錯誤的工具。
比如伺服器隔一段時間莫名的重啟一次,而message和syslog又檢測不到有價值的資訊。
通常發生MCE報錯的原因有如下:
1、記憶體報錯或者ECC問題
2、處理器過熱
3、系統匯流排錯誤
4、CPU或者硬體快取錯誤
一般來說當有錯誤提示時,需要優先注意記憶體問題,但由於現在記憶體控制器是整合在cpu裡,所以有個別情況是由CPU問題引起的。
安裝mcelog
# yum install mcelog
# service mcelogd start
檢視日誌:
# less /var/log/mcelog

之前抓取的故障重啟日誌如下:
MCE 0
HARDWARE ERROR. This is NOT a software problem!
Please contact your hardware vendor
CPU 1 BANK 8 TSC 1193fd60c6699 [at 2000 Mhz 1 days 18:56:49 uptime (unreliable)]
MISC 8f44960800095840 ADDR 4a9f3b1c0
MCG status:
MCi status:
Error overflow
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Transaction: Memory read error
Memory read ECC error
Memory corrected error count (CORE_ERR_CNT): 18
Memory transaction Tracker ID (RTId): 40
Memory DIMM ID of error: 1
Memory channel ID of error: 0
Memory ECC syndrome: f449608
STATUS cc0004800001009f MCGSTATUS 0