故障測試 [目標: 延時自動執行 RECOVERY]

阿新 • • 發佈：2019-02-11

前提:

由於磁碟故障原因,  可能會導致  ceph osd 在晚上故障,  並自動完成資料遷移並自動修復功能
當早上執行更換硬碟操作後,  資料會重新再次遷移一次,
由於出現數據自動恢復功能,  會導致數恢復期間可能與使用者使用資料高峰期重疊,  會導致使用者 IO 搶奪

解決目的

避免 ceph 在故障時候自動執行 RECOVERY 功能
需要人工介入執行 RECOVERY 週期

ceph 故障恢復條件說明

1 ceph osd down
2 mon 無法獲得 ceph osd heartbeat 資訊標註 warning 資訊,  並顯示
3 五分鐘後,  mon 標記該 ceph osd 為 out 
 狀態
4 當標記 out 狀態後,  ceph 執行自動 recovery 操作

日誌記錄收集

osd down, 從 mon 中, 我們可以馬上對應獲得資訊但不會標註為 out 狀態, 因此沒有執行相應的 recovery 操作

2017-08-15 17:22:30.299262 7fd537f8b700  1 mon.ceph-node81@0(leader).osd e535 e535: 14 osds: 11 up, 14 in

ceph -s 會獲得對應報警資訊

health HEALTH_WARN 209 pgs degraded; 75 pgs stuck unclean; 209 
 pgs undersized; recovery 38/165 objects degraded (23.030%); 3/14 in osds are down

當 mon 對對應的 osd 標註為 out 之後, 系統會自動執行 recovery 操作

2017-08-15 17:27:25.667587 7fd53675e700  0 log_channel(cluster) log [INF] : osd.5 out (down for 301.474038)
2017-08-15 17:27:25.673277 7fd537f8b700  1 mon.ceph-node81@0(leader).osd e536 e536: 14 
 osds: 11 up, 13 in
2017-08-15 17:27:25.675357 7fd537f8b700  0 log_channel(cluster) log [INF] : osdmap e536: 14 osds: 11 up, 13 in
........
........
2017-08-15 17:27:33.061185 7fd537f8b700  0 log_channel(cluster) log [INF] : osdmap e541: 14 osds: 11 up, 11 in
2017-08-15 17:27:33.314995 7fd537f8b700  0 log_channel(cluster) log [INF] : pgmap v1554: 320 pgs: 209 active+undersized+degraded, 111 active+clean; 31075 MB data, 83489 MB used, 468 GB / 549 GB avail; 38/165 objects degraded (23.030%)
2017-08-15 17:27:35.639903 7fd53675e700  0 mon.ceph-node81@0(leader).data_health(20) update_stats avail 94% total 36454 MB, used 1967 MB, avail 34486 MB
2017-08-15 17:27:36.188461 7fd537f8b700  0 log_channel(cluster) log [INF] : pgmap v1555: 320 pgs: 192 active+undersized+degraded, 124 active+clean, 4 active+recovering+degraded; 31075 MB data, 84258 MB used, 467 GB / 549 GB avail; 50/165 objects degraded (30.303%)
2017-08-15 17:27:37.257884 7fd537f8b700  0 log_channel(cluster) log [INF] : pgmap v1556: 320 pgs: 139 active+undersized+degraded, 164 active+clean, 4 active+recovery_wait+degraded, 13 active+recovering+degraded; 31075 MB data, 85061 MB used, 466 GB / 549 GB avail; 78/165 objects degraded (47.273%); 265 MB/s, 0 objects/s recovering

ceph 動態引數修改說明

ceph tell {daemon-type}.{id or *} injectargs --{name} {value} [--{name} {value}]

用 osd 、 mon 、 mds 中的一個替代 {daemon-type} ，你可以用星號（ * ）更改一類程序的所有例程配置、或者更改某一具體程序 ID （即數字或字母）的配置。

ceph 配置修改說明:

ceph --admin-daemon /var/run/ceph/ceph-osd.0.asok config show   [獲得當前 ceph 動態配置]
ceph tell osd.\* injectargs "--osd_recovery_delay_start 10000"          [延時 recovery 操作時間  但對當前環境不適用]
ceph tell * injectargs "--mon_osd_down_out_interval 300000"           [延時 osd mark out 動作]

測試:

修改引數 osd_recovery_delay_start

作用, 對 osd recovery 操作演示 150 分鐘

ceph tell osd.\* injectargs "--osd_recovery_delay_start 9000"

recovery 總結

1 osd down
2 mon 會在 5 分鐘後標記相應的 osd out 狀態
3 預設狀態下,  osd_recovery_delay_start =0 , 即 recovery 會馬上發生
4 但當修改設定  osd_recovery_delay_start = 9000 ,   recovery 操作將會延時  150 分鐘
5 但在等待恢復的 150 分鐘其間,   我們還原  osd_recovery_delay_start  = 0 ,   recovery 操作不會自動發生,   必須要等待 150 分鐘後才會發生

    結果:  無法達到預期需求,  無法滿足自動控制 recovery 時間,

後續操作, 恢復改設定為 0

修改引數 mon_osd_down_out_interval

ceph tell osd.\* injectargs "--mon_osd_down_out_interval 9000"

自動 recovery 總結

1 osd down
2 mon 會在 150 分鐘後才標記相應的 osd out 狀態
3 當 mon 標記 osd out 狀態後,  recovery 自動發生

按需 recovery 總結

1 osd down
2 mon 將會在 150 分鐘後才標記相應的 osd out 狀態
3 在 osd down 之後, 進行磁碟更換, 並令其 osd 再次線上,  recovery 會自動執行恢復,  無需等待 150 分鐘標記 osd out 狀態後再執行 recovery

結果: 
  可以在 osd out  時,  對 recovery 操作延時 150 分鐘, 
  並且在 osd out 期間, 可以根據需要人工干預 recovery 操作

永久化修改 ceph.conf 配置

需重啟叢集生效

[global]
...
...
[mon]
...
...
[osd]
mon osd down out interval = 172800   [延時兩天]

驗證

[root@ceph-node81 ceph]#  ceph --admin-daemon /var/run/ceph/ceph-osd.0.asok config show  | grep "mon_osd_down_out_interval"
  "mon_osd_down_out_interval": "172800",

故障測試 [目標: 延時自動執行 RECOVERY]

前提: 由於磁碟故障原因, 可能會導致 ceph osd 在晚上故障, 並自動完成資料遷移並自動修復功能當早上執行更換硬碟操作後, 資料會重新再次遷移一次, 由於出現數據自動恢復功能, 會導致數恢復期間可能與使用者使用資料高峰期重疊, 會導致

Docker-mysql啟動時自動執行SQL

說明在用docker建立mysql容器的時，有時候我們期望容器啟動後資料庫和表會自動構建，初始化資料也已自動錄入，也就是說容器啟動後我們就能直接連上容器中的資料庫，使用其中的資料了。自動執行SQL這一過程存在於第一次使用映象構建容器時，下一次restart容器時則不會存在

如何用VBA在開啟EXCEL檔案時自動執行巨集

例子： Sub Auto_open() '一種方法是將巨集的名稱改為這個即可 MsgBox "歡迎回來繼續學習VBA！" End Sub 還有一種方法就是使用VBE在工作簿的Open事件中編寫VBA過程。

Spring MVC讓Web容器啟動時自動執行程式碼

在web.xml中，對於每一個servlet都有一個load-on-startup屬性，其值為一個整數。若該值為0或正整數，則當Web容器啟動時，該servlet會自動載入，並呼叫其中的init()方

SpringBoot專案啟動時自動執行指定方法

在SpringBoot中，有兩種介面方式實現啟動執行，分別是ApplicationRunner和CommandLineRunner，除了可接受引數不同，其他的大同小異 ApplicationRunner ： import org.springfr

Java的靜態程式碼塊是否會在類被載入時自動執行？

JAVA靜態程式碼塊會在類被載入時自動執行？一、先看Java靜態方法,靜態變數靜態程式碼塊在類中，可以將某一塊程式碼宣告為靜態的，這樣的程式塊叫靜態初始化段。靜態程式碼塊的一般形式如下： static { 語句序列 } public class staticBlock{

【Java】—— java Web 啟動時自動執行程式碼的幾種方式(總有些程式碼需要在虛擬機器啟動時執行)

Web容器啟動後執行程式碼的幾種方式其執行順序為：4===>5===>1===>2===>3即指定init-method的Bean開始執行接著實現Spring的Bean後置處理器開始執行然後是Servlet的監聽器執行再接下來是Servlet的過濾器執

實現tomcat啟動時自動執行程式碼

方法1：tomcat 自動執行servlet 寫一個servlet，在init()方法中寫好想要執行的程式，程式如下： eclipse新建一個web\Dynamic Web Project , name = myweb1 ，把tomcat中的 servlet-api.jar複製到lib中，新建一個類MyS

Linux如何在開機時自動執行sh檔案

這個還是比較簡單的。使用vim開啟 /etc/rc.local 在最後加上你要執行的.sh檔案路徑即可。具體實現： 1. vim /etc/rc.local 2. /home/run-dd.sh

VisualStudio在啟動專案時自動執行"install npm"指令

這幾天開啟一個專案時，由於其中一個子工程是用Vue.js實現的。其資源包配置中引用了 "Node.js 4.0"的完整包。結果每次開啟專案都開始拉取node包，有近5w的檔案數以及長到vs不識別的路徑深度。研究了好一會，才發現不是專案內的程式碼觸發的，而是VS自帶的包管理工

Linux啟動和關閉時自動執行的所有指令碼檔案

原文地址：http://www.cnblogs.com/armlinux/archive/2010/08/11/2390949.html Linux使用的是基於執行級(run-levels)概念的稱為SysVinit的專用啟動工具。SysVinit(從現在開始我

asp.net 呼叫函式時自動執行了一些事件

問題描述:定義了一個自定義的自動用頁使用者控制元件, 裡面提供了一個改變類別的函式.在控制元件中使用了pageload事件下面使用了二種呼叫方法:1. 在其它控制元件事件中執行control.changelb(lb) 執行的順序應該是先執行了pageloa

SetTimeout直接執行沒有延時

timeout 答案一個 png color 如果設置 .cn 運行今天做頁面下拉加載效果，遇到一個坑爹的問題。我在做這個效果的時候用了setTimeout，設置了3秒的延遲時間，但是效果確實直接運行沒有延時。這個效果讓我很操蛋，最後我在CSDN看到一位前輩對這個問題

oc延時執行

/**延時執行*/ -(void)delay{ //第一種 [self performSelector:@selector(start) withObject:nil afterDelay:2.0];

kickstart自動安裝指令碼;系統延時定時任務的at，crobtab，檔案方式設定定時任務；

kickstart自動安裝指令碼前提條件：掛載好yum，開啟httpd服務，配置dhcp服務 yum install -y system-config-kickstart system-config-kickstart 點Add 點 Add Netwo

7、實現指令碼執行失敗時自動截圖並儲存出錯資訊到檔案中

自動化指令碼如果失敗了，憑藉什麼去快速定位呢？當然是截圖和出錯資訊了，這裡就來實現這兩個功能。方法是重寫TestListenerAdapter中的onTestFailure和onTestSkipped方法，在方法中新增截圖和儲存出錯資訊到文字的方法。新建一個webtestListener.j

JavaWeb專案啟動時，自動執行程式碼的三種方式（包含不佔用tomcat啟動時長的方式）

三種方式實現在tomcat啟動時執行某段程式碼由於這三種方式的執行時長計算在tomcat的啟動時長裡，如果tomcat設定了啟動超時時間，那麼這三種方式執行的操作很可能會讓tomcat啟動超時。為了解決自動執行的部分不影響tomcat的正常啟動我們可以在三種方式中新建一個執行

使用Handler延時執行小方法

也許是我太不用心，每次寫延遲執行程式碼都要百度查一下，雖然是板磚的但是也太不專業了。所以寫下此篇blog熟記一下。 private final int DELAY_TIME = 1 * 60 * 1000; // 1000ms為基準，此處為1min Runnable delayExe

延時執行的執行緒池ScheduledExecutorService

一、ScheduledExecutorService的延時執行功能 ScheduledExecutorService是延時執行的執行緒池，推薦用ScheduledExecutorService代替timer定時器。建立一個ScheduledExecutorService

JS延時執行方法封裝

SetTimeout延時操作封裝 setTimeout定時器操作，需要注意清除即可。 SetTimeout延時執行function /** @ function:延時執行function @ fn:

故障測試 [目標: 延時自動執行 RECOVERY]

前提:

解決目的

ceph 故障恢復條件說明

日誌記錄收集

ceph 配置修改說明:

測試:

修改引數 osd_recovery_delay_start

recovery 總結

修改引數 mon_osd_down_out_interval

自動 recovery 總結

按需 recovery 總結

永久化修改 ceph.conf 配置

相關推薦