資料庫叢集自動重啟？Linux硬體錯誤日誌立大功！

阿新 • • 發佈：2018-12-27

環境：兩臺某想R680的物理機搭建一套2節點RAC，資料庫版本為ORACLE 11.2.0.4

一、故障問題現象

節點2頻繁發生重啟，從1月至2月發生多次重啟，甚至一天內3次重啟，讓人頭疼。

資料庫叢集自動重啟

二、問題分析處理過程

1、檢查是否時間同步問題

首先懷疑是時間不同步造成的。

觀察現象是該伺服器的ntp時間同步offset過大（下圖offset為11376）

資料庫叢集自動重啟

並在資料庫的CTSS日誌出現不正常的返回值

資料庫叢集

在這裡發現一個問題，就是時間源指向舊的時間源伺服器10.33.144.18和10.33.144.19，而伺服器在新的資料中心，所以修改為新資料的時間源伺服器11.8.13.1和11.8.13.9，並修改了BIOS時鐘，使系統時鐘和硬體時鐘時間一致。

至此，時間同步問題排除。

2、檢查資料庫日誌反應的問題

通過查ALERT日誌，發現有節點驅逐

資料庫叢集

又查CSSD日誌發現

Linux 硬體

顯示有磁碟的心跳，但無網路的心跳。

此時判斷：node 2 節點老是頻繁重啟，私網出問題的概率會較大，因此從網路處查。

node 2 每次重啟完以後，都能順利加入rac叢集，更不是時間同步的問題。

補充：

如果叢集中的節點連續丟失磁碟心跳或網路心跳，該節點就會被從叢集中驅逐，也就是節點重啟。組管理導致的節點重啟，我們稱之為node kill escalation（只有在11gR1以及以上版本適用）。

重啟需要在指定的時間（reboot time,一般為3秒）內完成。

網路心跳

：ocssd.bin程序每秒鐘向叢集中的各個節點通過私網傳送網路心跳資訊，以確認各個節點是否正常。

如果某個節點連續丟失網路心跳達到閥值，misscount（預設為30秒，如果存在其他叢集管理軟體則為600秒），叢集會通過表決盤進行投票，使丟失網路心跳的節點被主節點驅逐出叢集，即節點重啟。

如果叢集只包含2個節點，則會出現腦裂，結果是節點號小的節點存活下來，即使是節點號小的節點存在網路問題。

磁碟心跳：ocssd.bin程序每秒鐘都會向所有表決盤（Voting File）註冊本節點的狀態資訊，這個過程叫做磁碟心跳。

如果某個節點連續丟失磁碟心跳達到閥值disk timeou(一般為200秒)，則該節點會自動重啟以保證叢集的一致性。

另外，CRS只要求[N/2]+1個表決盤可用即可，其中N為表決盤數量，一般為奇數。

3、核查是否網路的問題

這套RAC的心跳網是由ETH13和ETH15兩塊網絡卡組成，對應兩個交換機的兩個埠。

Linux 硬體

先後採取啟用宕掉交換機兩個埠和網絡卡口沒有解決問題，最後又採用換線、單獨拉線等解決辦法，發現線的光衰有點大，但重啟問題沒有最終解決。

4、檢查是否是硬體的問題

問題至此陷入了困境，換個思路既然網路和資料庫都可能不是問題，那麼硬體真的能獨善其身，超然之外麼？

答案是否定的，那就是硬體的問題。

在節點發生重啟時，資料庫的日誌裡有中斷的現象，那麼會不會是CPU和記憶體的問題呢？檢查下MCELOG日誌就知道了。

MCELOG：不容忽視的日誌

mcelog 是 x86 的 Linux 系統上用來檢查硬體錯誤，特別是記憶體和CPU錯誤的工具。它的日誌就是MCELOG.

一般來說大記憶體的伺服器容易出現記憶體上的問題，現在記憶體控制器都是整合在cpu裡，記憶體的校驗錯誤和CPU的問題易引起伺服器的重啟。

好了，下面我們看看MCELOG日誌的錯誤提示

ORACLE官方對MCELOG事件的解釋：

Linux 硬體錯誤日誌

至此，問題浮出水面。和硬體廠商聯絡，刷主機板韌體程式，更換一根記憶體後問題最終解決。

三、問題總結與思考

1、不能忽視監控的作用。這次記憶體硬體的問題，在伺服器硬體監控平臺沒有被發現，這個需要聯絡廠商，繼續完善伺服器硬體監控的細粒度和敏感性

2、從日誌、網路、資料庫、系統、硬體等方面全面排查，問題終會被發現。

3、解決問題靠的是耐心和細心，進一步再進一步，問題終會被解決。

文章出處：高效運維

資料庫叢集自動重啟？Linux硬體錯誤日誌立大功！

環境：兩臺某想R680的物理機搭建一套2節點RAC，資料庫版本為ORACLE 11.2.0.4 一、故障問題現象節點2頻繁發生重啟，從1月至2月發生多次重啟，甚至一天內3次重啟，讓人頭疼。二、問題分析處理過程 1、檢查是否時間同步問題首先懷疑是時間不同步造成的。觀察現象是該伺服器的ntp時

linux kafka程序掛了自動重啟

使用crontab，定時監控 kafka程序，發現掛了後重啟。 shell指令碼如下： #!/bin/sh source /etc/profile proc_dir="/data/kafka" # 程式目錄 pro

用Shell指令碼定時監控Linux下的程序狀態並自動重啟

以mysql為例，先上shell指令碼，如下: #!/bin/bash ps -ef | grep mysqld | grep -v grep if [ $? -ne 0 ] then echo “start process…” /etc/rc.d/init.d

Linux下Tomcat實時監控並自動重啟

由於專案時常出現記憶體不足，然後造成服務掛掉，由於公司成本考慮，和戰略轉移，不能在硬體上進行升級，但還要保證服務的穩定執行，因此寫了個shell指令碼來對服務進行實時監控，並在掛掉的情況下實現自動重啟。指令碼程式碼注意事項一、指令碼寫好後要進行命名，一定要

arm linux 使用monit監控程式在崩潰後自動重啟它們

在arm linux上有很多程式想實現長期穩定執行，但是很多人寫的程式碼不健壯，偶爾會出現崩潰的問題，需要在崩潰以後能自動重啟，可能有些人使用了shell指令碼做個死迴圈來實現，其實沒必要這麼費勁，使用monit來做就可以，monit主頁是一隻鬥牛犬，大概是看門狗的意思。

Linux 下python 利用supervisord自動重啟多程序

1、安裝supervisord 利用SecureCRT進入Linux環境，輸入python，進入python shell環境，import supervisor看是否安裝了supervisord，若沒有安裝， yum install python-setuptools

Linux 程序終止後自動重啟

/opt/a.sh #! /bin/bash ps -ef | grep python3 a.py | grep -v grep | grep python3 if [ $? -ne 0 ] then cd /opt/a.py && python3 a.py else echo "runni

linux 程序守護，監控並自動重啟

1、[下載](http://cr.yp.to/daemontools.html daemontools)daemontools安裝包 2、安裝 tar xvzf daemontools-0.76.tar.gz cd admin/daemontools-0.76 package/in

Linux-- 簡單的程式守護指令碼，程式異常退出後自動重啟

#!/bin/sh while true do ps -ef | grep "test(程式名)" | grep -v "grep" if ["$?" -eq 0] then ./test echo "wath process has been restarted! "

linux監控程式-程式自動重啟方法

家在寫server的時候，不管server寫的是多麼健壯，還是經常出現core dump等程式異常退出的，但是一般情況下需要在無人為干預情況下，能夠自動重新啟動，保證server程式能夠服務使用者。這時就需要一個監控程式來實現能夠讓程式自動重新啟動，現在筆者在寫portma

Linux下Tomcat服務監聽，關閉後自動重啟

本教程用來解決，linux下tomcat服務，因為各種原因異常關閉後，實現自動重啟服務，保證服務可用還用到一個自啟動指令碼 #!/bin/sh # func:自動監控tomcat指令碼並且執行

linux下定時自動重啟tomcat伺服器

我們在Linux系統上的tomcat部署了專案之後，可能因為專案存在某些bug等原因會導致過段時間就掛掉，作為臨時解決方案，我們需要間隔一段時間之後就重啟一次伺服器，但是人為重啟又太low太費力，所以自動重啟就略顯高大上牛逼霸氣了~ 下面開始介紹步驟： 1.編輯一個文字檔

linux下實現tomcat定時自動重啟

tomcat自帶的指令碼中沒有提供直接restart的模式，但是有start和shutdown兩種模式。要實現restart模式，實際上只需要判斷是否已經啟動tomcat，若已經啟動則限制性shutdown，然後在執行start。或者通過ps aux查詢出是

Zookeeper / Linux Shell zookeeper自動重啟指令碼

最近博主遇到了 zookeeper 自動死掉的問題, 這裡留下一個重啟指令碼, 作為備份 #!/bin/bash #zk伺服器問題修復指令碼 #zkServer服務所在路徑 zkDir="/usr/local/zookeeper/bin/" zkLog='zook

linux下監視程序崩潰掛掉後自動重啟的shell指令碼

如何保證服務一直執行？如何保證即使服務掛掉了也能自動重啟？在寫服務程式時經常會碰到這樣的問題。在Linux系統中，強大的shell就可以很靈活的處理這樣的事務。下面的shell通過一個while-do迴圈，用ps -ef|grep 檢查loader程序是否正在執行，

Linux自動重啟oracle實類監聽

如何在Linux啟動時自動啟動Oracle監聽和例項首先要解決上面的問題，才能繼續喲！第一步:修改/etc/oratab檔案，命令如下： [oracle@oracle11g ~]$ vi /etc/oratab 找到：accp:/u01/oracle:N 修改為：

浪潮服務器自動重啟

浪潮服務器自動重啟環境：浪潮服務器，型號NF5270M4故障：服務器不定時自重啟排查：在/var/log/message發現，每次重啟前都會有如下語句/usr/sbin/bmc-watchdog[3383]: fiid_obj_get: ‘present_countdown_value‘: data no

ASR9K MOD160板卡 Parity error 自動重啟

parity errorASR9K 的MOD160卡自動重啟，表現為MOD160子卡上的MPA子卡上的端口均不通，出現中斷。自動重啟的原因可能是由於Parity error 奇偶校驗錯誤。檢查ASR9K 的系統log，會發現如下日誌：LC/0/2/CPU0:May 9 06:05:19.776 : prm_

Win10首次啟動出現計算機意外地重啟或遇到錯誤的解決方法

windows 計算機 Win10系統安裝完後首次開機時系統彈出窗口，提示：計算機意外重新啟動或遇到錯誤，導致系統安裝無法繼續。這是怎麽回事，下面讓小編來講解這個問題的解決方法吧。　　故障分析：　　首次啟動Win10系統時提示：計算機意外地重新啟動或遇到錯誤。Windows 安裝無法繼續。若要安裝W

觀察者模式實際應用：監聽線程，意外退出線程後自動重啟

lee text 實時之間最終 ren tap instance and 摘要: 　觀察者模式，定義對象之間的一種一對多的依賴關系，當對象的狀態發生改變時，所有依賴於它的對象都得到通知並且被自動更新。觀察者模式在JDK中有現成的實現，java.util.Obsera

資料庫叢集自動重啟？Linux硬體錯誤日誌立大功！

一、故障問題現象

二、問題分析處理過程

1、檢查是否時間同步問題

2、檢查資料庫日誌反應的問題

3、核查是否網路的問題

4、檢查是否是硬體的問題

三、問題總結與思考

相關推薦