關於GitHub 服務中斷 24 小時 11 分鐘事故

阿新 • • 發佈：2021-11-29

1.背景
- MySQL叢集部署情況
- Orchestrator部署情況
2.事情的經過
3.存在的隱患
4.參考

這起事故雖然發生在2018年，已經過去了很長時間，但其中的問題和帶來的啟示永不過時，拿來分析，具有很重要的意義。

1.背景

GitHub主要有東、西海岸兩個資料中心，以及其他三個公有云資料中心。本次事故主要涉及東、西海岸兩個資料中心。
並且，在GitHub，使用的Orchestrator作為MySQL叢集拓撲管理和主庫高可用工具。

GitHub 的MySQL叢集和Orchestrator高可用服務部署情況如下。

MySQL叢集部署情況

MySQL叢集是一主 4從：

主庫和2個從庫在東海岸
2個從庫在西海岸

為了大規模提高擴充套件性，已經使用讀寫分離。寫操作在主庫上，大部分讀操作在從庫上。

Orchestrator部署情況

Orchestrator高可用服務以分散式叢集方式部署，跨東西海岸。

2.事情的經過

東海岸更換光纖裝置，導致東海岸資料中心與外界網路斷開，43s後，網路恢復。

這個短暫的網路斷開，引起了一連串的事故。

這些事故主要包括以下。

1）.ORC leader漂移

ORC leader 原來是在東海岸，網路斷開，觸發leader 漂移到西海岸。

2）.MySQL叢集主庫切換後，資料不一致

ORC leader 漂移到西海岸後，發現主庫探測異常，2個東海岸從庫探測異常，2個西海岸從庫複製斷開，判定為DeadMasterAndSomeSlaves，觸發MySQL叢集主庫由東海岸切到西海岸。寫入流量開始匯入到西海岸主庫。

在切換過程，東海岸的2個從庫無法change到新主庫，成為丟失副本。切換後，實際叢集拓撲，只包括一主一從，且都在西海岸。

切換後，發現東海岸有部分寫入沒有同步到西海岸。東、西海岸資料出現不一致。

出現問題後，為了保證資料一致性，GitHub 首先進行了服務降級，暫停了部分服務。

接著，在東海岸重新建立新主庫。這其中包括，從備份恢復資料、從東西海岸同步資料等。

再接著，將主庫切回東海岸。處理佇列中的資料。

最後，網站對外提供服務。

最最後，解決資料不一致。通過與使用者溝通，恢復丟失的資料。

3.存在的隱患

通過這個事故，可以看到幾個隱患。

1）.ORC 跨Region部署

跨Region 的網路抖動，會導致ORC leader漂移。如果leader正在進行切換，leader漂移，會導致切換進行到一半。

解決方案：ORC 服務不跨Region部署。

2）.MySQL叢集跨Region部署

跨Region部署，一方面，可以提供資料遠端備份。另一方面，複製可能存在延遲，如果發生類似這個故障場景的切換，會造成資料不一致。

3）. 為什麼恢復資料的方式是通過備份進行恢復？

通過備份恢復資料的問題是，時間太長。首先是備份存在公有云，需要遠端下載，其次是解壓、校驗和應用資料，耗費時間。

為什麼不將東海岸的其中一個從庫，回退部分資料，接著同步西海岸新寫入的資料，之後，就可以使用了吧？

4.參考

2018-10-30-oct21-post-incident-analysis

GitHub 服務中斷 24 小時 11 分鐘事故分析報告

Just try, don't shy.

關於GitHub 服務中斷 24 小時 11 分鐘事故

目錄1.背景MySQL叢集部署情況Orchestrator部署情況2.事情的經過3.存在的隱患4.參考

一天24小時每隔15分鐘96個點操作(二、展示)

jsp <%@ page language=\"java\" contentType=\"text/html; charset=UTF-8\" pageEncoding=\"UTF-8\"%>

一天24小時每隔15分鐘96個點操作（一）

頁面畫表單：（格子演算法12*8=96其中12是指0到11,其中8是指上午和下午的00 15 30 45 ）

專家組將對韶關特斯拉事故車輛全面檢測：目前車輛已封存，有專人 24 小時看管

5 月 9 日訊息據南方日報報道，5 月 8 日下午，被特斯拉追尾的貨車已被拖至韶關市交通清障拯救中心事故違法車輛停放場。

網友曝美團 App iOS 版 24 小時不間斷定位，每 5 分鐘請求一次

10 月 10 日訊息蘋果 iOS 15 系統目前已經廣泛推送，其新增的「記錄 App 活動」功能可以對應用獲取儲存、通話記錄、定位等資料的行為進行監控，詳細記錄。有網友今日釋出一段視訊，展現了美團 App iOS 版連續 24 小

鐵路 12306 網站、App 服務時間延長，退票業務可 24 小時全天候辦理

12 月 15 日訊息，據中國鐵路訊息，鐵路 12306 宣佈服務時間延長，退票業務將 24 小時全天候辦理。此前，為了保障鐵路 12306 系統穩定執行，每週二 23 時 30 分至週三 5 時，系統會進行運維巡檢，屆時暫停網際網路售

“百度智慧雲曦靈”智慧數字人平臺釋出：可 24 小時無休為使用者提供服務

12 月 27 日訊息，在今日舉行的百度 Create 2021（百度 AI 開發者大會）上，百度首席技術官王海峰釋出智慧數字人平臺“百度智慧雲曦靈”。據瞭解，數字人可以 24 小時無休為使用者提供貼心服務。瞭解到，百度智慧雲

湯加一電信公司聲稱修復其國際通話服務，維持約十分鐘再次中斷

1 月 19 日訊息，據央視網報道，湯加一家移動電信服務商 DIGICEL 公司執行長莎莉・詹妮弗（Shally Jannif）19 日在該公司網頁上釋出通報稱，該公司在湯加的國際通話服務已經恢復，使用該公司移動通話服務的湯加居民

這個 AI 能幫你快速搜監控：定位關鍵畫面，24 小時錄影 10 分鐘處理完

1月 23 日訊息，現如今，視訊監控的存在幫助人們記錄了許多過去難以查證的事實。但想要在 24 小時不間斷的監控裡找到那麼一兩秒的“犯罪現場”，依然是一件耗費人力的事。有沒有什麼好辦法快速找到我們想要的畫面？還

7*24 小時業務不中斷！菜鳥鄉村應用多活落地實踐

從前期調研、方案評估、多活建設到最終核心物流業務的改造上線，僅僅只用了 2 個多月，菜鳥鄉村就完成了核心業務同城多活容災的目標，實現業務的 7*24 小時不間斷服務，最大程度保障了業務穩定性及連續性。

華為鴻蒙手機天氣 App 11.1.6.203 測試版釋出：24 小時天氣預報、個性化生活指數、底部多元化廣告

感謝網友餘逸欣、Hudd 的線索投遞！

Python 日期時間datetime 加一天，減一天，加減一小時一分鐘,加減一年

計算年、月、日需要安裝元件包 pip install python-dateutil 當前日期時間 import datetime

vue自定義過濾器格式化時間為年、月、日、小時、分鐘、剛剛

轉載地址：https://www.cnblogs.com/place-J-P/p/7641779.html 首先需要在需要過濾的時間裡面新增一個過濾器

ElementUI中使用el-time-picker向SpringBoot傳輸24小時制時間引數以及資料庫中怎樣儲存

場景前端需要獲取24小時制的時間引數並傳遞到後臺儲存到資料庫。在資料庫中儲存的是

防火牆升級導致產環境服務中止20小時的問題

週六中午12點突然接到同事訊息，公司APP內的訂餐功能無法訪問，訊息無法傳送附件。

7-7 12-24小時制

題目：編寫一個程式，要求使用者輸入24小時制的時間，然後顯示12小時制的時間。

小米有品上線 HiPee 智慧動態心電儀：24 小時心電監護，499 元

9月27日訊息小米有品上線了 HiPee24 小時智慧動態心電儀，醫用級心電檢測，支援 24 種心臟風險篩查，三甲醫院線上出具專業報告，眾籌價格 499 元，預計 10 月 30 日發貨。

開足馬力：富士康鄭州工廠蘋果iPhone 12生產線24小時運轉，員工被強制加班

9 月 29 日訊息據南華早報報道，蘋果合同製造商富士康正在中國鄭州工廠 24 小時運轉，以生產新款 iPhone 12 系列手機。

庫克分享今晚釋出活動音樂列表，總時長 1 小時 42 分鐘

10 月 13 日訊息蘋果 CEO 蒂姆 · 庫克（Tim Cook）今晚在 Twitter 上分享了稍後釋出會的音樂專輯，並表示稍後見。庫克此次分享的 AppleMusic 播放列表似乎是昨天更新的，共有 26 首歌曲，播放時間為 1 小時 42 分鐘

C++24小時制轉換成12小時制

技術標籤：C語言c++c# 英文題目（老師給的原版題目）： Write a program that converts from 24-hour notation to 12-hour notation.For example,it should convert 14:25 to 2:25 PM.The input is given as two

關於GitHub 服務中斷 24 小時 11 分鐘事故

1.背景

MySQL叢集部署情況

Orchestrator部署情況

2.事情的經過

3.存在的隱患

4.參考

相關推薦