【故障公告】部署在 k8s 上的部落格後臺昨天與今天在訪問高峰多次出現 502
非常抱歉,從昨天上午開始,部署在 k8s 叢集上的部落格後臺(基於 .NET Core 3.1 + Angular 8.2 實現)出現奇怪問題,一到訪問高峰就多次出現 502 ,有時能自動恢復,有時需要我們手動刪除 pod ,由此給您帶來麻煩,請您諒解。
我們的應用都部署在同一個 k8s 叢集上,就這一個應用出現這個問題,很是奇怪,估計還是應用本身的問題,我們正在進一步排查。
為了避免再次出現這個問題,今天中午我們已經將部落格後臺暫時單獨部署到 docker swarm 叢集上。
相關推薦
【故障公告】部署在 k8s 上的部落格後臺昨天與今天在訪問高峰多次出現 502
非常抱歉,從昨天上午開始,部署在 k8s 叢集上的部落格後臺(基於 .NET Core 3.1 + Angular 8.2 實現)出現奇怪問題,一到訪問高峰就多次出現 502 ,有時能自動恢復,有時需要我們手動刪除 pod ,由此給您帶來麻煩,請您諒解。 我們的應用都部署在同一個 k8s 叢集上,就這一個
【網站公告】.NET Core 版部落格站點第二次釋出嘗試
在上次釋出失敗後,很多朋友建議我們改用 k8s ,但我們還是想再試試 docker swarm ,實在不行再改用 k8s 。 在改進了 docker swarm 叢集的部署後,我們準備今天 17:30 左右進行一次釋出嘗試。 docker swarm 叢集是我們使用阿里雲伺服器自己搭建的,這次進行了3方面
【故障公告】新版部落格後臺部署時的配置問題引發故障
最近,我們對新版部落格後臺(Angular 8.2.7 + .NET Core 3.0)進行了灰度釋出,如果您訪問部落格後臺時跳轉到 https://i-beta.cnblogs.com/ ,說明使用的就是新版部落格後臺。 今天我們在一次基於 gitlab-ci 的自動化釋出過程中,由於操作問題在釋出前沒
【故障公告】釋出 .NET Core 版部落格站點引起大量 500 錯誤
非常抱歉,今天上午的部落格站點故障給大家帶來了很大的麻煩,請大家諒解。這次故障是我們釋出 .NET Core 版部落格站點引起的,雖然我們進行了充分的準備,但還是低估了高併發下的複雜問題。 以下是故障背景與大致經過: 在這個炎炎夏日,我們正日火朝天地忙著整個 .NET Core 遷移工程的收官 &mdas
【故障公告】docker swarm 叢集問題造成新版部落格後臺故障
非常抱歉,今天下午 16:55~17:05 左右,由於 docker swarm 叢集的突發不穩定問題造成新版部落格後臺(目前處於灰度釋出階段)無法正常使用,由此給您帶來麻煩,請您諒解。 出故障期時,新版部落格後臺的2個容器都無法正常啟動。 AME NODE
【故障公告】部落格系統升級到 .NET 5.0 引發的故障
昨天晚上我們將部落格系統從 .NET Core 3.1 升級到了 .NET 5.0 ,本來是一次很有信心的升級,但沒有想到在今天下午訪問高峰時竟然出現了故障,大量請求訪問速度變慢或者因為下面的資料庫連線超時異常出現500錯誤。 System.InvalidOperationException: Time
【故障公告】部落格站點再次出現故障,最終回退 .NET 5.0 恢復正常
自從部落格系統升級 .NET 5.0 之後遇到的詭異故障(一、二、三、四),今天它又出現了,就在前天剛剛故障之後, 就在昨天 .NET 5.0 正式版剛剛釋出之後,出現了。 今天晚上(11月12日)我們在 19:30 左右進行了一次釋出,釋出後特地進行了觀察,當時沒有出現故障,滿以為這次釋出相安無事,但後來還
【故障公告】redis記憶體耗盡造成部落格後臺無法儲存
非常抱歉,今天上午11:00~11:30左右,由於 redis 伺服器記憶體耗盡造成部落格後臺故障——儲存博文時總是提示“請求太過頻繁,請稍後再試”,由此給您帶來麻煩,請您諒解。 由於 redis 監控報警配置沒有及時更新,當 redis 伺服器記憶體耗盡時我們沒有收到報警通知,所以未能及時發現問題。
【故障公告】K8s CofigMap 掛載問題引發網站故障
今天凌晨我們用阿里雲伺服器自建的 kubernetes 叢集出現突發異常情況,部落格站點(blog-web)與部落格 web api(blog-api)的 pod 無法正常啟動(CrashLoopBackOff)。 kubectl get pods -l app=blog-web ```text NAME
【故障公告】推薦系統中轉站撐爆伺服器 TCP 連線引發的故障
上週五下午,我們在部落格中部署了推薦系統,在博文下方顯示“最新IT新聞”的地方顯示自動推薦的關聯博文。我們用的推薦系統是第四正規化的推薦服務,我們自己只是搭建了一個推薦系統中轉站(基於 ASP.NET Core),接收來自部落格前端的請求,然後將請求轉發給第四正規化的推薦服務,並將響應內容轉發給部落格前端。
【故障公告】SendCloud 郵件傳送服務故障造成大量 QQ 郵箱收不到郵件
抱歉,由於我們所使用的搜狐旗下的 SendCloud 郵件傳送服務出現故障,今天上午大量發往 @qq.com 郵箱的郵件無法正常傳送,從 SendCloud 管理控制檯看這些郵件一直處於“請求中”的狀態。 我們在 10:22 向 SendCloud 提交了工單,但到目前還沒恢復。 由此給您帶來麻煩,請您諒
【故障公告】阿里雲 RDS 資料庫伺服器 CPU 100% 造成全站故障
非常非常抱歉,今晚 19:34 ~ 21:16 園子所使用的阿里雲 RDS 資料庫伺服器突然出現 CPU 100% 問題,造成全站無法正常訪問,由此您帶來了很大的麻煩,請您諒解。 故障經過是這樣的。19:34 這個時間點本來是一個訪問低峰,資料庫壓力比訪問高峰時低很多,但資料庫伺服器卻異想天開、吃飽了
【故障公告】升級阿里雲 RDS SQL Server 例項故障經過
昨天晚上,我們使用的阿里雲 RDS SQL Server 2008 R2 例項突然出現持續 CPU 100% 問題,後來我們通過重啟例項恢復了正常(詳見故障公告)。但是在恢復正常後發現了新問題,這臺 RDS 例項 IOPS 不夠用,必須要進行升級,而且當時過了 0 點也是升級的好時間,再加上我們對升級到更
【故障公告】再次出現數據庫 CPU 居高不下的問題以及找到了最可能的原因
非常非常抱歉,今天上午的故障又一次給大家帶來麻煩了,再次懇請大家的諒解。 在昨天升級阿里雲 RDS SQL Server 例項的配置後(詳見昨天的博文),萬萬沒有想到,今天上午更高配置的阿里雲 RDS 例項依然出現了 CPU 居高不下的問題。 在資料庫 CPU 高的情況下,有時對訪問速度影響不大,有時
【故障公告】docker swarm 叢集問題引發的故障
我們的生產環境部署了 2 個 docker swarm 叢集,叢集 swarm-a 用於專門跑部落格站點,叢集 swarm-b 用於跑其他站點,manager 節點用了阿里雲包月伺服器,worker 節點用了阿里雲搶佔式例項。 今天 11:03 收到阿里雲的簡訊通知“您的搶佔式例項:例項ID(例項
【故障公告】資料庫伺服器 CPU 近 100% 引發的故障(源於 .NET Core 3.0 的一個 bug)
非常抱歉,這次故障給您帶來麻煩了,請您諒解。 今天早上 10:54 左右,我們所使用的資料庫服務(阿里雲 RDS 例項 SQL Server 2016 標準版)CPU 突然飆升至 90% 以上,應用日誌中出現大量資料庫查詢超時的錯誤。 Microsoft.Data.SqlClient.SqlEx
【故障公告】資料庫伺服器 CPU 近 100% 引發的故障
非常抱歉,今天上午 10:48 ~ 11:33 期間,我們所使用的資料庫服務(阿里雲 RDS 例項 SQL Server 2016 標準版)又出現了 CPU 近 100% 問題,由此給您帶來麻煩,請您諒解。 這次剛開始出現 CPU 近 100% 問題時,沒有造成大的影響,後來有段時間 CPU 降了
【故障公告】SQL語句執行超時引發網站首頁訪問故障
非常抱歉,今天早上 6:37~8:15 期間,由於獲取網站首頁博文列表的 SQL 語句出現突發的查詢超時問題,造成訪問網站首頁時出現 500 錯誤,由此給您帶來麻煩,請您諒解。 故障的情況是這樣的。 故障期間日誌中記錄了大量下面的錯誤。 2020-02-03 06:37:24.635 [Error] An
【故障公告】再次遭遇SQL語句執行超時引發網站首頁訪問故障
非常抱歉,昨天 18:40~19:10 再次遭遇上次遇到的 SQL 語句執行超時引發的網站首頁訪問故障,由此您帶來麻煩,請您諒解。 上次故障詳見之前的故障公告,上次排查下來以為是 SQL Server 引數嗅探問題引起的,但在引起引數嗅探的漏洞被修復後再次出現故障說明上次的判斷是錯誤的。 今天出現故障時的表
【故障公告】阿里雲 RDS 例項 CPU 100% 故障引發全站無法正常訪問
非常抱歉,今天凌晨 3:20~8:30 左右,我們使用的阿里雲 RDS 例項 SQL Server 2016 標準版突然出現 CPU 100% 故障,造成全站無法正常訪問,由此給您帶來巨大的麻煩,請您諒解。 問題很奇怪,故障期間是資料庫伺服器負載極低的時間段。從阿里雲 RDS 控制檯 CloudDBA 看