1. 程式人生 > >多種日誌分析方法助你輕鬆定位硬體故障

多種日誌分析方法助你輕鬆定位硬體故障

同事發現某臺機器上message日誌數量突然暴增,簡單查看了下有記憶體相關的報錯,所以轉交給我來檢視。

Message日誌

進入伺服器檢視message日誌,先看看同事說的告警到底是什麼,如下圖

還真是,通道3,第一個槽位的記憶體發生故障了。但是,我只知道A1/B1/A2/B2,所以我還是繼續。

Ipmitool工具

不論怎樣

Ipmitool工具查看了下,確實是有記憶體告警,如下圖

雖然告警,可是無法定位大具體哪根記憶體壞了呀

IDRAC-web

不論怎樣

我們還有DELL自帶的IDRAC的web頁面可以檢視硬體狀態,登陸看看,先看看日誌,這裡有了吧,B6記憶體槽故障

再看看硬體狀態,B6記憶體存在告警

就此,我找到了我想要的資訊,定位到了B6記憶體故障,需要更換,至於如何更換,需要注意哪些事項,以後再說

總結

硬體安全是伺服器最底層的安全,一定要做好各項硬體監控,及時處理硬體故障,否則,你們懂的。介紹幾種常見的涉及硬體故障分析的日誌:

  1. messages日誌
  2. dmesg日誌
  3. ipmitool sel list檢視硬體日誌
  4. 遠端管理頁面上的日誌(DELL的IDRAC,HP的ILO,IBM的IMM等等)
  5. smart日誌

原文來自微信公眾號:餘果果園