存在單點故障的namenode宕機恢復測試

阿新 • • 發佈：2018-11-14

前提：如果namenode沒有做HA，那麼至少應該啟用secondarynamenode，以便namenode宕機之後手動恢復資料

實驗環境：3個節點（cenos 6.10）

測試前資料：

1.為了確保資料儘可能恢復，手動checkpoint一下

[[email protected] dfs]# hdfs secondarynamenode -checkpoint force
/************************************************************
STARTUP_MSG: Starting SecondaryNameNode
STARTUP_MSG:   host = hadoop1/192.168.110.11
STARTUP_MSG:   args = [-checkpoint, force]
STARTUP_MSG:   version = 2.7.3
。。。。。。
。。。。。。
18/11/14 16:15:12 WARN namenode.SecondaryNameNode: Checkpoint done. New Image Size: 57464
18/11/14 16:15:12 INFO util.ExitUtil: Exiting with status 0
18/11/14 16:15:12 INFO namenode.SecondaryNameNode: SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down SecondaryNameNode at hadoop1/192.168.110.11
*********************************************************** 
*/

2.從1的輸出可以看到，checkpoint成功。現在kill掉namenode，刪除namenode的元資料資料夾。

3.停止所有節點，格式化namenode

4.用/tmp/hadoop-root/dfs/namesecondary/current/VERSION的內容替換掉新生成的元資料資料夾裡面的VERSION檔案內容，同時複製/tmp/hadoop-root/dfs/namesecondary/current資料夾下以fsimage開頭的檔案到namenode的元資料資料夾下

5.重啟叢集。通過UI介面可以看到資料已經恢復。

生產環境中資料可能不會完全恢復，因為宕機時沒有機會來做checkpoint。

存在單點故障的namenode宕機恢復測試

前提：如果namenode沒有做HA，那麼至少應該啟用secondarynamenode，以便namenode宕機之後手動恢復資料實驗環境：3個節點（cenos 6.10）測試前資料： 1.為了確保資料儘可能恢復，手動checkpoint一下 [[email

Salesforce.com遭遇電力故障導致宕機，恢復時丟失4小時資料

16歲的Salesforce.com剛剛（2016年5月12日）犯了一個不小的錯誤，太平洋標準時間 (PST)週二早上6:30到週三下午14:30，遭遇了一次由於停電導致的大範圍宕機，此次宕機影響了北美的14個站點，影響了灣區的大量使用者——灣區歷來被稱為Salesforce.com的後院，同時，部

Hadoop商業環境實戰-HDFS NameNode 宕機元資料一致保障及SNN機制深入研究

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何商業交流，可隨時

redis叢集實現(六) 容災與宕機恢復

實現叢集，一個重要的保證就是高可用性，要在各種軟體和硬體的故障情況下仍然能夠提供服務。一般來說有兩種解決思路，一種是每一個節點互相之間都會進行資料互動以及監控，出現故障的時候，各個節點都可以做協調任務。另一種就是增加一個協調元件來對叢集進行實時監控以及故障處理。現在使用比較

Kubernetes 主節點宕機恢復記錄 MountVolume.SetUp failed for volume "kube-dns-config"

今天早上，發現原來執行的好好的Kubernetes叢集不能正常工作了，dashboard介面打不開，主節點上 docker ps 不顯示任何執行中容器，重啟 kubelet 後，短暫恢復，之後再次陷入不可用狀態，經過反覆重啟觀察，發現是etcd不斷重啟，最後失

Utorrent宕機恢復種子下載

宕機儲存Utorrent種子不被刪除方法：保了200多個種，宕機了重啟就沒有什麼下載的種子的記錄，要一個個匯入實在奔潰。從被刪除的resume.dat恢復很有壓力。簡單的方法：在還沒有宕

oracle異機恢復測試

(一)問題背景最近在生產環境中，開發人員誤操作，使用truncate將oracle資料庫某個表的資料全部刪除了，在刪除之後，開發人員發現自己闖禍了，於是聯絡值班的DBA進行緊急資料恢復。經過分析，表被truncate後，使用一般的閃回表、閃回查詢、閃回事物等方法，是不可能將資料找回來的，可以使用閃回資料庫

Linux服務器宕機、數據丟失如何進行數據恢復

超級完整專業數據分析重要 .tar.gz 操作公司打開 [數據恢復故障描述]一臺linux網站服務器，DELL R200，管理約50個左右網站，使用一塊SATA 160GB硬盤。正常使用中突然宕機，嘗試再次啟動失敗，將硬盤拆下檢測時發現存在約100個壞扇區。某數

GreenPlum數據庫故障恢復測試

gpdb mirror segment primary segment master failover 本文介紹gpdb的master故障及恢復測試以及segment故障恢復測試。環境介紹：Gpdb版本：5.5.0 二進制版本操作系統版本： centos linux 7.0Master

Git服務器宕機如何使用本地克隆倉庫快速恢復Git服務器

git 代碼庫分布式在工作中難免會出現代碼倉庫不能使用如：服務器磁盤跪了，高可用失效，地區級別的網絡癱瘓，等等。之前也聽過Git的一大亮點為去中心話的可靠代碼倉庫，那麽問題來了：代碼庫真的宕機了，連不上了，在短時間內需要團隊開發合並代碼，協作開發，發布版本，筆者在網上搜索一圈沒有人寫過類似文章（也有可能大家

【長文慎點】IBM X3850服務器刪除並重建虛擬機恢復過程

文件合並效果難度數據覆蓋可能很多存儲陣列排列編號一、服務器故障描述 1、架構環境概述服務器：IBM X 3850系列服務器（用於VMware虛擬主機）。存儲陣列：柏科RD220i系列存儲（用於存放虛擬機文件）。操作系統：VMware ESXi 5.5版本。

遠離服務器宕機，騰訊WeTest正式推出服務器深度性能測試服務

容量工具系統性能微博閾值進行業務場景 tro 選擇 WeTest 導讀隨著城市發展趨向智慧化，不僅移動互聯網應用正迅速融入出行、金融、醫療、娛樂等傳統行業，跟隨移動互聯網成長起來的，還有用戶對應用使用與消費的理性意識。而在用戶不斷增加的同時，如何避免移動

Redis 中哨兵sentinel 機制、從宕機及恢復、主庫宕機及恢復解決方案

目錄什麼是哨兵原理環境設定哨兵從宕機及恢復主宕機及恢復配置多個哨兵 1、什麼是哨兵哨兵是對Redis的系統的執行情況的監控，它是一個獨立程序，功能有二個：監控主資料庫和從資料庫是否執行正常；主資料出現故障後

Mongodb 5節點異地兩中心故障轉移恢復測試案例

Mongodb5節點異地兩中心故障轉移恢復測試案例架構方式：5節點，主中心（2資料1仲裁），備中心（1資料1仲裁） 1基本情況作業系統:Red Hat Enterprise Linux Server release 6.3 (Santiago) Mo

伺服器宕機，mysql無法啟動，job for mysql.service failed because the process exited with error code，資料庫備份與恢復

[問題現象] 伺服器在執行過程中，因人為意外導致電源被拔，伺服器宕機，mysql重啟不成功，報錯如下根據提示，輸入systemctl status mysql.service和journalctl -xe檢視日誌，經過一番百度谷歌折騰也是無果。（很多時候，不能因為突發事件就“病急亂投醫”） &nb

遠離伺服器宕機，騰訊WeTest正式推出伺服器深度效能測試服務

WeTest 導讀隨著城市發展趨向智慧化，不僅移動網際網路應用正迅速融入出行、金融、醫療、娛樂等傳統行業，跟隨移動網際網路成長起來的，還有使用者對應用使用與消費的理性意識。而在使用者不斷增加的同時，如何避免移動應用延遲、閃斷、宕機等隱患給開發者們來了首當其衝的挑戰。放眼國內外，每一年都會出現伺服器宕機熱

redis cluster 全部宕機後重啟會自動恢復叢集狀態

昨天測試環境上3主3從的redis節點叢集虛擬機器3臺全部宕機(3主3從交叉部署在3臺虛機上)重新啟動各個節點發現叢集自動恢復了本來以為要重新使用create 命令猜測叢集是根據node的主從資訊檔案自己恢復的利用心跳檢測節點關係的檔案node-7001.c

namenode崩潰的資料恢復測試

2012-09-26 周海漢/文 http://abloz.com 2012.9.9 前言用second namenode 資料恢復測試。datanode由於採用2-3個備份，即使一臺裝置損壞，還是能自動恢復並找回全部資料。

[2017年5月9日]Facebook 的伺服器今早宕機了，故障持續40分鐘

今天（2017年5月9日）全球最大社交網站 Facebook 一度發生故障，新加坡、馬來西亞、泰國、日本、澳大利亞等地的部分使用者無法瀏覽網站。有使用者在嘗試登入時，網站出現錯誤訊息表示：「對不起，出現了問題。我們將盡快修復。」的提示語。Facebook 移動端 App 也有同樣的問題。根據

共享單車頻繁宕機故障，這技術水平就不怕被“脫褲”？

從去年下半年至今，共享單車市場好不熱鬧，資本助推、市場炒作、媒體追捧，各種顏色的共享單車是在檢查大家是否色盲嗎？甚至在創投圈流傳一句話“留給投資人的顏色已經不多了…” 至於共享單車的商業模式，我不打算分析，也看不懂，作為一名吃瓜群眾，只需等待，時間會給出答案的。但最近一個月，號稱TOP2的兩家共

存在單點故障的namenode宕機恢復測試

相關推薦