【Azure Cloud Services】雲服務頻繁發生伺服器崩潰的排查方案

阿新 • • 發佈：2021-01-05

問題描述

雲服務(Cloud Services)在使用期間，頻繁發生崩潰事件，在崩潰期間，檢視CPU負載為100%，而且同時伴隨以下情況：

部署在雲服務上的應用無法訪問
遠端連線雲服務例項（RDP）訪問黑屏，無法載入或Busy狀態

排查方案

在問題的關鍵點中，CPU負載達到了100%。所以首先需要排查如下幾點：

當前雲服務是單例項還是多例項?
例項的機型是小還是大？是什麼型號的機器呢？
例項中執行的服務是不是非常耗費CPU？
CPU出現滿負載的情況是否有時間規律？
部署在雲服務上的應用請求量是否與CPU100%的規律一致?

針對以上每一點，採用不同的解決方案。

一：修改雲服務的例項數量

有多種方式修改雲服務例項的數量。在門戶中直接修改或修改雲服務配置檔案ServiceConfiguration.Cloud.cscfg中<Instances count="1" />數量

雲服務門戶 -> 配置

修改ServiceConfiguration.Cloud.cscfg後重新發布

二：修改雲服務中例項機型的大小和型號

ServiceDefinition.csdef 檔案指定 Azure 用於配置雲服務的設定，在其中可以指定A，D，E等不同的系列機型。修改完成後重新打包雲服務並進行部署。

A系列:https://docs.azure.cn/zh-cn/cloud-services/cloud-services-sizes-specs#a-series

D系列:https://docs.azure.cn/zh-cn/cloud-services/cloud-services-sizes-specs#d-series
E系列:https://docs.azure.cn/zh-cn/cloud-services/cloud-services-sizes-specs#ev3-series

修改方式如下：

三：檢視例項中具體是那個程序消耗CPU最高及時間規律

在CPU高的情況下RDP到當前例項上，開啟工作管理員，到程序選項，看一下是哪個程序佔用的CPU比較高，這是當前直觀的方式之一。其他方式還包含：

開啟Performance Monitor並設定抓取程序，詳細步驟參考文章：【Azure微服務 Service Fabric 】在SF節點中開啟Performance Monitor及設定抓取程序的方式

在Azure中開啟Application Insights收集 Azure 雲服務的效能計數器, 詳細步驟參考文章：Application Insights

Performance Monitor 配置頁面：

四：當CPU消耗與部署在雲服務中的應用相關時，通過獲取應用DUMP檔案來判斷CPU的具體消耗

當判斷出是由於某個程序而引起的CPU消耗過高，但是需要進一步分析改程序為何會佔用如此多資源時。就需要藉助抓取dump和分析dump的工具，如：Procdump(抓取)，DebugDiag(分析)

Procdump抓取Dump的執行下面的命令如下：

procdump.exe -ma 9332 -c 90 -s 30 -n 3

引數說明：

-ma: 表示抓full dump

-c: 設定CPU的閾值，比如例子中閾值是90%

-s: CPU 連續超過閾值的時間長度，比如例子中是30s,即只有在這個程序連續佔用CPU 超多90%且持續30s才會抓dump;

-n: 抓dump的數量，比如3 

9332 是程序id

參考資料

配置雲服務的大小: https://docs.azure.cn/zh-cn/cloud-services/cloud-services-sizes-specs#configure-sizes-for-cloud-services

【Azure Cloud Services】雲服務頻繁發生伺服器崩潰的排查方案

問題描述雲服務(Cloud Services)在使用期間，頻繁發生崩潰事件，在崩潰期間，檢視CPU負載為100%，而且同時伴隨以下情況：部署在雲服務上的應用無法訪問遠端連線雲服務例項（RDP）訪問黑屏，無法載入或Busy狀態排查方案在問題的關鍵點中，CPU負載達到了100

七牛雲物件儲存客戶端直傳前後端實現【spring cloud + vue】

兩種檔案上傳的方式服務端傳輸客戶端直傳兩種傳輸方式比較服務端傳輸，所有客戶端的上傳請求需傳送至業務伺服器，再由業務伺服器轉發至檔案伺服器，上傳結果的返回同樣需要業務伺服器的轉發，這樣的操作保證了傳輸的安全，但卻大大提升了業務

【8. HA模組】雲跳板機服務系統設計及實現

八. HA模組此文原出自【愛運維社群】： http://www.easysb.cn 8.1 概述由於跳板機系統都是採用單點登陸的形式，很容易出現單點故障。為了達到高可用的目的，我們單獨做了一個HA模組，負責實現跳板機的災備異常情況。 8.2 HA模組 HA模組，採用了一主多從的部署

1.【Spring Cloud Alibaba】服務發現-Nacos

一、服務的提供者與服務的消費者二、服務發現原理如果使用者中心地址發生變化怎麼辦？服務的消費者總能找到服務的提供者的這種原理，即服務發現原理。三、什麼是Nacos? Nacos文件地址請檢視，引入Nacos,架構的演進四、搭建Nacos Server 1、下載Nacos 下載地址在spr

【Azure DevOps系列】Azure DevOps使用Docker將.NET應用程式部署在雲伺服器

## Docker持續整合本章我們要實現的是通過我們往程式碼倉庫push程式碼後，我們將每次的push進行一次docker自動化打包釋出到docker hub中，釋出到之後我將進行部署環節，我們將通過ssh方式將我們的.NET應用程式pull並run到我們的雲伺服器上。 Dockerfile 如下所示:

【Azure Redis 快取】Azure Redis 服務不支援指令CONFIG

問題描述在Azure Redis的門戶頁面中，通過Redis Console連線到Redis後，想通過CONFIG命令來配置Redis，但是系統提示CONFIG命令不能用。錯誤訊息為：(error) ERR unknown command `config`。根本原因因為 Azure R

【Azure 事件中心】在微軟雲中國區 (Mooncake) 上實驗以Apache Kafka協議方式傳送/接受Event Hubs訊息 (Java版)

問題描述事件中心提供 Kafka 終結點，現有的基於 Kafka 的應用程式可將該終結點用作執行你自己的 Kafka 群集的替代方案。事件中心可與許多現有 Kafka 應用程式配合使用。在Azure官方提供的Demo中，都是針對Global Azure。以下內容通過實驗來一步一步除錯並在Azur

【Azure Redis 快取】如何得知Azure Redis服務有更新行為？

問題描述 Azure Redis作為微軟雲提供的一種PaaS服務，由於PaaS的特性，服務端的安裝和維護、修補、升級等操作均由平臺放負責。雖然終端使用者只需要關注當前服務的使用，但是後臺的升級和補丁行為，總會對使用Redis服務產生影響。如：Azure Redis的“故障轉移 Failover”就是專為此類行

【Web 叢集實戰】21_Memcached 服務應用

【Web 叢集實戰】21_Memcached 服務應用標籤（空格分隔）： Web叢集實戰文章目錄【Web 叢集實戰】21_Memcached 服務應用 1. Memcached 介紹 1.1 Memcached

【Python web 開發】雲片網傳送簡訊驗證碼

傳送簡訊驗證碼是要使用第三方服務的，運營商是不可能提供對外的個人傳送簡訊服務功能，我們本身也沒有能力去傳送驗證碼，雲片網是目前提供這種服務使用率較高的服務商之一我們先來看下雲片網國內單條傳送簡訊的api 根據api 寫了一個指令碼，這個appkey 我還沒申請如

【Spring Cloud 系列】：構建Eureka Client 專案

一. 構建 Eureka Client 端 1. 首先還是需要先看看官方文件是如何說明的，從文件中瞭解到，需要為專案引入Eureka-client 相關jar包 <dependency> <groupId>org.springframew

【極光推送】jpush服務端開發詳盡過程

package com.weiwend.jdpush.servlet; import java.io.IOException; import javax.servlet.ServletException; import javax.servlet.http.HttpServlet; import jav

【Netty原始碼分析】Netty服務端bind埠過程

這一篇部落格我們介紹一下Netty服務端繫結埠的過程，我們通過跟蹤程式碼一直到NIO原生繫結埠的操作。繫結埠操作ChannelFuture future = serverBootstrap.bind(8080).sync();AbstractBootstrap中bind操作p

3.【Spring Cloud Alibaba】宣告式HTTP客戶端-Feign

使用Feign實現遠端HTTP呼叫什麼是Feign Feign是Netflix開源的宣告式HTTP客戶端 GitHub地址：https://github.com/openfeign/feign 實現 pom.xml <dependency> <groupId>org.sp

【Azure DevOps系列】什麼是Azure DevOps

## DevOps ![](https://img2020.cnblogs.com/blog/1098068/202008/1098068-20200814224739802-1369117752.jpg) DevOps是一種重視“軟體開發人員（Dev）”和“IT運維技術人員（Ops）”之間溝通合作的文化

【Azure DevOps系列】Azure DevOps生成程式碼覆蓋率

## 前言在做單元測試時，程式碼覆蓋率可以作為我們衡量程式碼質量的一個指標，本章我們將使用Azure DevOps幫助我們生成程式碼覆蓋率的結果.Azure DevOps構建管道還是具有程式碼覆蓋率選項的，在Visual Studio測試平臺在已經集成了Coverlet格式的資料收集器，它其實並不難，它是

【Azure DevOps系列】Azure DevOps構建併發布Nuget程式包

在Azure DevOps中，管道可以用來構建解決方案，O(∩_∩)O哈哈~快萬能了，本章主要介紹如何建立Nuget包並且將其釋出到Nuget伺服器的過程。 ![file](https://blog.stackable.cn/uploads/img-f9d5b1eb-cf7a-4e31-b673-b02f64

【Azure DevOps系列】使ASP.NET Core應用程式託管到Azure Web App Service

## 使用Azure DevOps Project設定ASP.NET專案 ![file](https://blog.stackable.cn/uploads/img-55eeeba1-1ade-4a64-a992-34ced1401506.png) 我們需要先在Azure面板中建立一個Azure Web

【Azure DevOps系列】Azure DevOps構建併發布.NET5應用程式

## Azure App Service ### 獨立部署在`Azure App Service`中我們可以通過獨立部署進行部署我們的.NET5應用程式，因為它不會依賴目標系統上的環境，並且所有元件（包括librarys和執行時）都與該應用程式一起使用，並且與其他應用程式進行隔離，這樣其實我們更好的去控

【Azure Service Bus】 Service Bus如何確保訊息傳送成功，傳送端是否有Ack機制

問題描述 Service Bus如何確保訊息傳送成功，傳送端是否有Ack機制(是否有回撥API告訴傳送端，服務端已經收到訊息)？根據對.NET傳送Service Bus訊息程式碼的分析，傳送方法queueClient.SendAsync(message)並沒有返回值，所以無法知道傳送訊息是否成功。 &nb

【Azure Cloud Services】雲服務頻繁發生伺服器崩潰的排查方案

問題描述

排查方案

一：修改雲服務的例項數量

二：修改雲服務中例項機型的大小和型號

三：檢視例項中具體是那個程序消耗CPU最高及時間規律

四：當CPU消耗與部署在雲服務中的應用相關時，通過獲取應用DUMP檔案來判斷CPU的具體消耗

參考資料

相關推薦