1. 程式人生 > >記錄一次RAC 打補丁後,叢集無法啟動的問題

記錄一次RAC 打補丁後,叢集無法啟動的問題

RDBMS11.2.0.4 。安裝2018年7月份的psu,在一個節點上安裝成功,在另一個節點上安裝失敗(當時也沒有仔細看日誌)。然後失敗的節點上叢集起不來了。安裝成功的節點上,叢集是可以起來的。

比較奇怪的問題,在節點上,通過root使用者執行crsctl check crs 可以看到ohas是啟動的。

但是使用grid使用者,執行crsctl check crs ,發現ohas沒有啟動。 好奇怪。當時為了這個問題,困擾了好幾天,為啥grid不行,root就可以呢?

[[email protected] bin]$ crsctl check crs
CRS-4639: Could not contact Oracle High Availability Services
[
[email protected]
bin]$ su root Password: [[email protected] bin]# crsctl check crs CRS-4638: Oracle High Availability Services is online CRS-4535: Cannot communicate with Cluster Ready Services CRS-4530: Communications failure contacting Cluster Synchronization Services daemon CRS-4534: Cannot communicate with Event Manager [
[email protected]
bin]#

看了好幾天的日誌,沒有發現異常。包括叢集的日誌,gpnp的日誌,ocss、crsd的日誌。

今天又嘗試去看日誌。發現ocssd日誌裡面,提示網路有問題,查看了下網路,沒有問題。

又提示gpnp初始化失敗。 看了看gpnp的日誌,沒啥問題。

後來看了叢集的日誌。發現很多資源都不能啟動。

於是嘗試手工啟動asm例項,當連上asm例項的時候,提示裝置空間不足。無法建立審計檔案等等。

當時想,是不是trc檔案太多了。導致一些資料夾撐爆了。df -h一看。發現根目錄使用率100%。

刪除掉一些檔案後。 重啟。crsctl check crs 。正常了。

[[email protected] ~]$ crsctl check cluster -n host02
**************************************************************
host02:
CRS-4537: Cluster Ready Services is online
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online
**************************************************************
[[email protected] ~]$ crsctl check cluster -n host03
**************************************************************
host03:
CRS-4537: Cluster Ready Services is online
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online
**************************************************************
[[email protected] ~]$

隨便犯了低階錯誤。但是還是老老實實看了很幾天日誌。對於rac的啟動等等有了深入的瞭解。

END

相關推薦

記錄RAC 補丁叢集無法啟動的問題

RDBMS11.2.0.4 。安裝2018年7月份的psu,在一個節點上安裝成功,在另一個節點上安裝失敗(當時也沒有仔細看日誌)。然後失敗的節點上叢集起不來了。安裝成功的節點上,叢集是可以起來的。 比較奇怪的問題,在節點上,通過root使用者執行crsctl check c

記錄MySQL進程崩潰無法重啟故障排查

not pool function 解決 variables fail data class 緩沖 最近程序在跑著沒幾天,突然訪問不了,查看應用進程都還在。只有數據庫的進程down掉了。於是找到日誌文件看到如下錯誤 2017-07-24 01:58:53 19934 [N

記錄laravel 模型關聯 一對一 一對多 取數據

foreach style 遍歷 一個用戶 use span AC each 判斷 一對一是 用戶表和用戶信息表 一個用戶對應一個用戶信息 user 對應 userinfo user 中存入的是郵箱密碼之類的,userinfo存入的是姓名年齡之類的。 在控制器中取數據

記錄SpringBoot成war包部署到tomcat啟動報錯

tar oca sep localhost ring ant boot exc RoCE 啟動時,報錯信息如下: 28-Sep-2018 16:55:41.567 嚴重 [localhost-startStop-1] org.apache.catalina.core.Sta

記錄刪除大文件但磁盤沒有釋放空間的問題

服務器 restart 啟動 rest 很大的 rep 記錄 -h rsyslogd 上服務器查看/dev/xxx 掛載的/var 快滿了都過了90%,所以需要清理一下日誌文件了df -h.../dev/xxx xxG xxG 1.0G 93% /va

arch滾掛更換lts核心

背景 因為arch的滾動升級模式,每天pacman -Syu已經是一種習慣了(雖然我是使用yay的),升級過程中會連核心一起升級,但不會立刻生效,通常要等到下次重啟時才會生效。 因為此前使用的是有一點激進的linux核心,而不是linux-lts,所以在國慶節前的某一次不知名的升級中,就出了岔子,然而當時什麼

記錄 Nginx 配置 proxy_pass 返回404問題

## 一、 Nginx 配置 proxy_pass 後 返回404問題 故障解決和定位 ### 1.1、 問題 在一次生產涉及多次轉發的配置中, 需求是下面的圖: ![image](https://djxblog.oss-cn-shenzhen.aliyuncs.com/picture/Nginx/proxy

Docker學習記錄二 -- Dokcer安裝Ubuntu容器命令無法執行問題

我的理解為,通過映象安裝的ubuntu容器為純淨的環境,其好多命令執行不了,即缺少很多可執行指令碼,安裝即可~~~ 執行一切安裝之前請先執行 apt-get update 1. lsb_release apt-get install lsb-release 2. ifconfig ap

docker 關閉鏡像容器無法啟動---Conflict. The container nam

Error response fro Conflict. The contai 當執行關閉某個鏡像:執行關閉: docker stop fa671dd6bdfbdocker ps重啟某個容器:docker run --name itbilu-mysql -e MYSQL_ROOT_PASSWORD=m

mysql5.7版本之後安裝成功服務無法啟動沒有報告任何錯誤的解決辦法。

原因多出在手動建立data目錄。 5.7版本及以前可以通過新建一個my.ini檔案,然後輸入一下程式碼即可按步驟成功啟動: [client] port=3306 default-character-set=utf8 [mysqld]  # 設定為自己MYSQL的安裝目錄&n

更新glibc庫導致Linux伺服器無法啟動的解決方案

簡記: 由於某種原因將glibc庫從2.12更新到2.14,期間使用的是sudo,更新的最後提示失敗,但是檢視/lib64目錄下相關庫檔案都已經更新。然後就沒有在意錯誤提示。第二天上班的時候有同事反應無法登陸伺服器。但我自己早晨開的幾個crt視窗都已經正常登陸了,聽同事反饋

eclipse在異常關閉導致無法啟動workspace問題的解決

現象: 現在大多數java開發者使用的IDE都是eclipse,而且一般在一個workspace中,會有很多個專案,有些是open的,有些是關閉的。有時候eclipse在使用過程中會莫名其妙的異常中斷關閉,再開啟eclipse,選擇workspace後,會一直停留在載入的

[kpw] Kindle Paperwhite 升級到 5.6.5 kterm無法啟動

Kindle 升級到 5.6.5 後,kterm啟動失敗。 原因:libpng 和 libjpeg 載入失敗。系統更新了.so庫,把舊的刪掉了。 解決:找到舊的,重新放回/usr/bin目錄裡。 引用:http://www.mobileread.com/forums/sho

記錄坑經歷】axios使用x-www-form-urlencoded 伺服器報400(錯誤的請求。 )(端.Net MVC5 WebApi OAuth前端Electron-Vue)

首先放上原始碼 electron-vue axios 註冊 axios.defaults.baseURL = 'http://localhost:8888/' axios.defaults.headers.post['Content-Type'] = 'applicatio

Python+Selenium自動化模擬用戶登錄(備註:記錄強行卸載rpm依賴包引發的rpm、yum等命令異常無法遠程xftp工具)

支持 fir 遠程 margin pan ~~ dep sta aliyun 近期在摸索Python+Selenium自動化,實現模擬用戶登錄搜索等操作,反饋相關日誌,再交由Zabbix分析,監控頁面訪問是否正常。 期間需要對Linux火狐瀏

記錄線程池的在項目中的實際應用講解下線程池的配置和參數理解。

div pro 繼續 bstr warn fin autowire string ping 前言:最近項目中與融360項目中接口對接,有反饋接口(也就是我們接收到請求,需要立即響應,並且還要有一個接口推送給他們其他計算結果),推送過程耗時、或者說兩個接口不能是同時返回,有先

記錄刪除大檔案但磁碟沒有釋放空間的問題

上伺服器檢視/dev/xxx 掛載的/var 快滿了都過了90%,所以需要清理一下日誌檔案了df -h.../dev/xxx xxG xxG 1.0G 93% /var... 去/var/log中檢查到檔案cd /var/logls...-rw-------. 1 root root 26G 10月 20

關於js物件中兩個函式互相呼叫其中一個為定時器宣告定時器迴圈報錯問題(記錄嘗試新寫法的報錯經歷)附帶無縫輪播圖程式碼

先上之前的錯誤程式碼吧,注意計時器這個方法(是想把之前寫的的輪播圖演示重構一下) var obj = { sleepTime: 2000,//輪播延時 cont: 0,//第幾張 origin: document.getElementsByClassName('main-

記錄Responsejson結構返回字串的問題

1、客戶端容錯做的不好,以為不會返回空字串的情況,出現了,結果解析Json丟擲異常了,雖然捕獲到了,但是底下的程式碼不走了,客戶端表現為照片無法得到正常展示   2、像這種因為伺服器端返回Json欄位值有問題的情況,客戶端一定要做容錯,不然就真的low了,你是catch住異常了

【報錯記錄】記Springboot 打包jar放在伺服器上執行失敗的排錯

使用mvn package -DSkipTests打包成jar包,然後上傳到伺服器。執行java -jar XXX.jar --env=pro後丟擲: [localhost-startStop-1] ERROR o.s.boot.web.embedded.tomcat.TomcatStart