阿里雲監控使用者手冊
原文 http://www.wenwenyun.com/aliyun/wenzhang/20140823/408.html
一、概覽
在概覽頁面中展示中系統預設提供的監控項或者使用者建立的監控項、使用者建立的監控點、雲服務的例項數、使用者設定的報警規則等。
1.1名詞解釋
先介紹下雲監控三個核心的概念。
【監控項】:使用者設定或者系統預設的監控資料型別,例如站點監控的Http監控預設有兩個監控項http.responseTime&http.status。ECS的監控項有CPU利用率、記憶體利用率等等。
【監控點】:某一例項繫結到具體的一個監控項即為一個監控點。如針對
【報警規則】:使用者在監控點上設定規則,當滿足條件時會觸發報警
1.2簡訊使用情況
雲監控預設為每位使用者提供1000條免費的報警簡訊。在概覽中,使用者可以檢視已經使用的簡訊數。二、站點監控
站點監控可以對目標站點服務的可用性以及響應時間進行監控。系統已經預設預置了8種監控型別,包括http監控、ping監控、tcp監控、udp監控、DNS監控、pop監控、smtp監控、ftp監控。其中每種監控型別裡面包含了兩個監控項:status和responsetime。
監控型別 | 簡介 |
HTTP監控 | 監控Web站點中任何指定的URL,獲得可用性監控以及響應時間。 |
Ping監控 | 對指定的伺服器進行ICMPPing檢測,獲得可用性監控以及響應時間、丟包率等。 |
TCP埠監控 | 監控伺服器TCP埠的可用性和響應時間。 |
UDP埠監控 | 監控伺服器UDP埠的可用性和響應時間。 |
DNS監控 | 監控域名的可用性和響應時間,並獲得各種域名記錄列表,支援域名輪詢(RR)。 |
POP3監控 | 監控POP3伺服器的可用性和響應時間。 |
SMTP監控 | 監控SMTP伺服器的可用性和響應時間。 |
FTP監控 | 監控FTP伺服器的可用性和響應時間。 |
1.點選頁面右上角的“建立監控點”按鈕,進入“站點監控”型別選擇頁面;
單擊列表頁面的某一行,可以顯示縮圖,可用性縮略表顯示的是一天內的可用性展示,響應時間縮圖展示的是近1小時內的響應時間曲線,不代表當前狀態。可用性和響應時間縮圖均是統計資料,不代表監控站點的最新狀態。
2.選擇您要建立的“監控型別”,點選某一“監控型別”連結進入監控點建立頁面;
3.進入建立監控點的表單頁面;
4.建立監控點表單描述
1)監控點名稱:為您的監控點輸入個性化的名稱
2)監控地址:您要監控的地址,對http來說,就是一個網站的地地址,對域名解析來說,就是某一個域名等等。
3)上報頻率:站點監控探測引擎多長時間執行一次探測任務,並上報資料的頻率。預設為5分鐘,請謹慎選擇1分鐘,過於頻繁的探測可能會導致對方服務遮蔽您的賬號。
4)分頁式監測點,目前我們部署了兩個監測點,可以分別從杭州和青島對您設定
的目標服務進行監測,您也可以只選擇從其中一個監測點進行探測。後續會支援更多監測點,包括海外的監測點。
5)高階設定,不同的監控型別會有一些高階選項
- http監控:
- 請求方法,http標準的請求方法,get\post\head,其中post支援提交內容。
- 提交內容,只對post請求方法有效,輸入您的目標服務能夠識別的內容。
- 匹配響應內容,您期望探測目標網站返回什麼樣的內容。
- 匹配方式:選擇匹配,則如果網站返回內容匹配您期望的內容報警;選擇不匹配,則如果網站返回內容不匹配您期望的內容報警。
- Cookie:您期望探測目標網站需要的cookie,key:value形式,多個cookie以半形分號分隔。
- http請求頭資訊:您期望探測目標網站需要的httpheader資訊,key:value形式,多個header以半形分號分隔。
- http驗證使用者名稱:
- http驗證密碼:
- ping監控:您可以使用ping監控服務來檢測目標服務的網路延遲。
- Tcp監控:監控地址的埠是不是連通的。另外,您也可以配置請求內容和期望的響應內容。如果配置了這兩項內容,則不匹配時會報警。內容支援16進位制位元組碼和文字兩種形式,
- 16進位制位元組碼。如:0xcf,0x0f,0x85,0x85
- 文字。系統內容會對文字內容進行轉換,請注意空格等容易出錯的字元。
- Udp監控:監控某地址的udp服務,因為udp協議的特性,必須要為
- 16進位制位元組碼。如:0xcf,0x0f,0x85,0x85
- 文字。系統內容會對文字內容進行轉換,請注意空格、換行符等容易出錯的字元。
- DNS監控:監控域名的可用性和響應時間,並獲得各種域名記錄列表,支援域名輪詢(RR)。通常只需要預設選擇查詢型別A.
- POP監控:監控POP3協議的接收郵件伺服器,填寫正確的地址、埠,如果配置使用者名稱密碼,則會驗證使用者名稱密碼。請注意頻率,如果頻率太快,有可能會導致對方服務遮蔽您的賬號。請依據對方服務選擇是否使用完全連線
- Smtp監控:監控SMTP協議的傳送郵件伺服器,填寫正確的地址、埠,如果配置使用者名稱密碼,則會驗證使用者名稱密碼。請注意頻率,如果頻率太快,有可能會導致對方服務遮蔽您的賬號。請依據對方服務選擇是否使用完全連線。
- ftp監控:驗證Ftp服務是否正常以及延遲情況。
- 每個建立成功的監控點會形式兩個監控指標,一個是狀態,一個是響應時間。對所有的狀態來說,我們約定,小於400的狀態碼為正常(對需要匹配內容的服務,如果服務狀態正常,但內容不匹配,我們也認為是不正常。),大於等於400的狀態為異常(有可能是服務響應內容不匹配您預置的期望值)。
- 響應時間單位是毫秒。
- 對於可用性圖表,每小時計算一次。
- 監控,目前沒有可用性統計,我們展示的是某統計週期內的丟包率和響應時間的平均值統計。
- 監控點建立成功後,站點監控後臺會啟動相應的探測任務,按您指定的頻率探測並上報資料給雲監控後臺,進行分析和報警服務。
建立報警規則表單詳細描述:
- 統計週期:後臺會依據統計週期形成統計報表,
- 重試幾次報警:您可以選擇連續幾次超過閥值報警,預設是三次,通常偶然因素會導致狀態不對或者服務響應超時,連續三次以上更能代表服務工作不正常,減少誤報的情況。
- 響應時間的報警閥值:服務響應時間超過這個閥值,則會報警。
- 報警的接收組(人):參照報警管理部分的文件。建立成功的監控點會進入列表頁面
- 檢視詳情:檢視該監控點的當前的詳情狀態。
- 報警規則修改:修改報警規則
- 修改:修改監控點
- 刪除:會刪除當前監控點以及監控點關聯的報警規則。
- 取樣點:當前監控狀態,列表頁面的監控狀態顯示的是最新一條監控資料的狀態。及時性很高。代表該目標服務的最新狀態。
可以檢視到今日、昨日、近7天、近15天、近1月的監控資料情況。
描述:站點監控的詳情頁面共有兩個tab頁面,分別是顯示可用性圖表和響應時間的變化曲線。
可用性展示的是按小時統計的可用性比例。計算規則如下:成功狀態的資料總數/上報資料總數=可用性比率。假定使用者設定的上報頻率為1分鐘,則每小時共有60次資料上報,其中2條不成功,則在當前的這一小時內的可用性為58/60=96.7。
響應時間展示的資料統計週期,隨查詢的時間段不同而不同,今天和昨天兩個時間段,查詢的是5分鐘內的平均值。7天及以上,查詢的是1小時內的平均值。
所以,圖表展示的監控狀態會有延遲,有可能和監控點列表頁面的狀態不一致,該圖表僅作統計展示用,不代表監控點的當前狀態。
2)點選報警詳情,可以檢視報警的詳情,包括概述,通知歷史,報警的狀態變化,操作歷史。
三、雲服務監控
雲服務監控是阿里云為使用者提供的各種雲產品的監控,包括ECS,RDS,OCS,OTS,OSS等,當前對使用者開放的只有ECS雲主機的監控,其它雲產品的監控會陸續加入進來,盡請期待。
3.1雲伺服器監控
ECS監控主要涵蓋的指標有CPU利用率、記憶體利用率、磁碟利用率、磁碟讀寫、網路速率,系統平均負載(僅限Linux主機)、程序數、TCP連線數等。
進入雲監控的控制檯後,點選【雲服務監控】標籤,即可進入ECS雲伺服器監控。如下圖所示:
首頁中,羅列出使用者的機器列表。對於每一臺雲主機,預設展示的有例項ID、作業系統型別、機器IP、CPU利用率、記憶體利用率、操作等。這裡CPU利用率與記憶體利用率是最新的監控資料展示。
3.1.1檢視明細
【ECS雲伺服器】à【檢視明細】,可看到此雲主機所有的監控指標情況。點選檢視明細:
明細指標頁面:
可以檢視到今日、昨日、近7天、近15天、近1月的監控資料情況。說明:對於系統為linux的主機,磁碟IO的監控資料獲取是通過iostat進行的;若您發
現Linux主機無磁碟IO資料,請確認您的機器是否安裝了iostat指令。Redhat與
CentOS使用者可以使用yum進行安裝;Ubuntu與Debian使用者可以使用apt-get進行安裝。
3.1.2ECS雲主機報警管理
在【檢視明細】的頁面的下端,有針對這臺雲主機報警規則的管理頁面,如下圖:
使用者可以在這裡新增報警、修改報警、暫停報警、刪除報警、檢視報警歷史詳情。
3.1.2.1新增報警
名詞解釋:
【監控項】:雲主機採集的監控資料指標,如CPU利用率、記憶體利用率等
【統計週期】:監控資料的聚合週期,如採集週期是1分鐘一次,統計週期可以是5分 鍾、1小時等,ECS的統計週期是固定的,不需要使用者設定,但在報警設定這裡,使用者可以選擇對採集的原始資料(1分鐘1次)進行報警設定,也可以選擇對統計的結果進行報警設定
【統計方法】:預設有五種統計方式,最大值、最小值、平均值、求和值、取樣計數 值。特別說明下,取樣計數值,是指在統計週期內,上報的監控資料條數。閾值目前數值型。
【重試幾次後報警】:是指當監控資料連續幾次滿足使用者設定的規則後,才進行報警。主要目的是避免監控資料的抖動。
【聯絡人通知組】:滿足報警條件後,通知給哪些聯絡人。具體的概念介紹請參考第一部分,使用者資訊管理
3.1.2.2暫停報警
使用者可以選擇關閉或者開啟報警
3.1.2.3報警詳情
點選詳情按鈕進入下圖展示的頁面,包含概述、通知歷史、狀態變化、操作歷史。概述:使用者針對當前例項某一監控項設定的報警規則通知歷史:在滿足使用者設定的報警規則時,會進行報警;當恢復正常後,亦會通知使用者。
這裡需要介紹下通道沉默這一概念,當某一條報警發出後,在1天內若再次觸發報警,不 會通知,恢復正常的通知不會受沉默期的影響。當前系統預設的沉默期是1天,在後面的版本會將沉默期的設定開放給使用者。
狀態變化:共三種狀態,發生報警、恢復正常、資料不足
資料不足,是指無監控資料上報到伺服器端。
3.1.3如何開通雲主機監控
請注意,當前只雲盾阿里雲ECS雲主機- 若使用者發現自己的主機並未顯示在雲監控的雲伺服器的監控列表中,請從雲監控控制檯下載新版雲盾,安裝或者升級雲盾
- 若使用者發現自己的主機已經顯示在雲監控的機器列表中,但無監控資料,請重新下載安裝新版雲盾進行安裝
- 雲盾安裝過後,請等待10分鐘,監控資料方可展示在雲監控控制檯。具體操作請參考http://jiankong.aliyun.com/readme.htm
四、自定義監控
自定義監控是提供給使用者自由定義監控項及報警規則的一項功能。通過此功能,使用者可以針對自己關心的業務進行監控,將採集到監控資料上報至雲監控,由雲監控來進行資料的處理,並根據結果進行報警。
登入雲監控後,點選標籤頁【自定義監控】,即可進入以下頁面:左側分別有三個選項,分別為【自定義監控項管理】、【自定義監控資料查詢】、【自定
義報警管理】
4.1自定義監控項管理
雲監控當前允許至多10個自定義監控項,且上報監控資料的服務必須在阿里雲的雲伺服器上。
4.1.1建立監控項
使用者點選建立監控項按鈕,即可進行自定義監控項設定頁面:
名詞解釋
【監控項名稱】:使用者上報的監控資料指標名稱,如cpuUtilization,memoryUtilization等。
【單位】:監控資料的單位,在上報資料時不會做校驗,只是為了便於展示資料,或者便於資料資訊的溝通,希望使用者根據自己的實際情況填寫。
【上報頻率】:監控資料上報的週期,只允許1分鐘,5分鐘,15分鐘三種上報頻率
【欄位資訊】:一條監控資料肯定需要附屬到某一實體才有意義。如ECS的cpu監控項,需要對映到某臺機器才有意義。因此,欄位資訊可以填寫vmIP,在使用者上報監控資料時,需要在上報的資料中填寫如vmIp=xxx.xxx.xxx.xxx。欄位資訊最多允許五項。
【統計週期】:使用者可以告知雲監控,上報的監控資料需要以何種頻率進行聚合。
【統計方法】:參考2.1.2.3報警詳情
若使用者設定的自定義監控項已經達到10個,再進行建立時,會顯示如下異常:
例如,建立一個監控項名稱為memoryUtilization,欄位資訊亦為vmIp,點選確認後進入報警規則設定頁面;若此時使用者不想建立報警規則可以先點選頁面上的取消按鈕
使用者可以在欄位資訊中填寫某一機器的IP,如192.168.1.1;填寫【規則名稱】、【閾值】、選擇【聯絡人通知組】,點選【確認】後即建立了192.168.1.1這臺機器memoryUtilization的報警。
若前面取消了建立報警規則,可以在【自定義報警管理】監控項下拉框中選擇您所希望創建報警的監控項,然後點選建立報警規則。
4.1.2修改監控項
點選【修改】按鈕,可以進入監控項修改頁面點選【報警管理】按鈕,可以檢視在些監控項上設定的所有報警4.2自定義監控資料查詢
使用者選擇監控項名稱,填寫欄位資訊,選擇統計週期進行監控資料查詢
自定義監控暫時只支援資料在頁面上的展示,尚不支援按照時間倒序排列,所以若使用者關心最近的監控資料是多少,請選擇最近的開始時間與結束時間。自定義監控暫時也不
支援圖表展示。請見下圖:
4.3自定義報警管理
進入自定義報警管理頁面後,展示在使用者面前的是所有使用者配置過的報警規則。使用者可以在監控項欄,選擇在某一監控項,查詢在此監控項上設定的報警規則。
4.4監控資料上報
自定義監控操作分為兩部分,一部分操作是在雲監控Portal上配置自定義監控項與報警規則,如3.1,3.3節所示;另一部分操作是使用者編寫程式碼上報監控資料。
4.4.1監控資料上報規範
使用者可以使用雲監控介面http://open.cms.aliyun.com/metrics/put上報監控資料
Post方式
使用者可以一次提交多條統計資料,統計資料放在訊息體中,遵循JSON格式。如訊息體內容:
userId=123456&namespace=acs/custom/123456&metrics=[{"metricName":"vm.cpu","timestamp":"1395556197448","value":80.0,"unit":"Percent","dimensions":{"instanceId":"vm_001"}}]
GET方式
使用者可以一次提交多條統計資料,統計資料存放在metrics欄位中,遵循JSON格式。
http://open.cms.aliyun.com /metrics/put?userId=123456&namespace=acs/custom/123456&metrics=[{"metricName":"vm.cpu","timestamp":"1395556197448","value":80.0,"unit":"Percent","dimensions" :{"instanceId":"vm_001"}},{"metricName":"vm.mem","timestamp":"1395556197448","v alue":1280.0,"unit":"Megabytes","dimensions":{"instanceId":"vm_002"}}]
欄位說明
使用者在雲監控portal上建立自定義監控項
metricName:portal建立時填寫的【監控項名稱】
unit:使用者選擇的【單位】
dimensions:使用者填寫的【欄位資訊】,允許多個,使用半形逗號分隔
點選確認過後,進行【自定義監控項管理】,這裡使用者可以看見userId,namespace
namespace:紅色方框中的字串
userId:紅色方框字串最後的數字串timestamp:資料上傳的時間,支援兩種表示方式:一種方式取時間的長整型表示方式1395556197448,另一種方式按照ISO8601標準表示,並使用UTC時間,例如2014-9-11T10:00:00Z,注意它對應的北京時間是2014-09-1118:00:00響應訊息
雲監控收到http請求後,若處理成功,則直接返回狀態碼為200的Http響應,訊息體中不攜帶內容,使用者也不需要處理響應訊息。若處理失敗,返回JSON格式的訊息體,同時Http響應的狀態碼不為200
錯誤 | 錯誤描述 | HTTPStatusCode | |
InternalServerError | 由於內部錯誤或不確定的異常導致 的請求失敗 | 500 | |
InvalidParameterCombination | 引數組合錯誤 | 400 | |
InvalidParameterValue | 引數無效或超出範圍 | 400 | |
Missing | RequiredParameter | 缺少必須的引數 | 400 |
例如
:{"code":"InvalidParameterValue","msg":"themetricNameisempty."}
4.4.2監控資料上報方式
雲監控為使用者提供了方便的定時任務排程程式,若使用者安裝了雲盾,可以在雲盾的目錄下找到aegis_quartz程式。若沒有發現,請升級雲盾至最新版本。
作業系統型別 | Quartz路徑 |
Windows32bit | C:\”programfiles”\alibaba\aegis\aegis_quartz\aegis_quartz.exe |
Windows64bit | C:\”programfiles(x86)”\alibaba\aegis\aegis_quartz\aegis_quartz.exe |
linux | /usr/local/aegis/aegis_quartz/aegis_quartz |
各作業系統平臺下aegis_quartz使用方式相同。下面我們以linux為例,說明quartz的
使用方式。檢視幫助
檢視當前任務
新增任務
刪除任務
需要使用者注意的一些事情:
- aegis_quartz程序請匆停止,系統的監控資料採集也是通過aegis_quartz完成
- aegis_quartz程式的呼叫請使用絕對路徑,如linux環境下
/usr/local/aegis/aegis_quartz/aegis_quartz
- aegis_quartzlibexec/default下面的指令碼是內建的監控資料採集指令碼,請使用者匆使用與修改
- 使用者的監控資料程式只能放在libexec/user目錄下面;上面新增任務與刪除任務的示例中,指令碼程式的路徑寫的即是相對路徑。因此,使用者在命令列中的指令碼路徑只需要填寫成user/xxx即可(其中xxx,是使用者的指令碼)
- 關於任務的執行頻率,是基於標準的quartz表示式,使用者按照規範填寫即可。使用者的執行頻率請與portal中設定監控項上報頻率保持一致(portal支援的頻率是1分鐘,5分鐘,15分鐘),若修改上報頻率請保持portal與指令碼一致,否則監控資料處理可能會不準確。關於如何建立自定義監控項請參考3.1節
- aegis_quartz只允許使用者建立10個定時任務
- 若使用者的指令碼被排程後,沒有成功上報監控資料,可以將loglevel設定為debug模式,通過aegis_quart/log查看出錯的原因;log位置在aegis_quartz/log下
五、使用者資訊管理
5.1名詞解釋
【報警聯絡人】:報警訊息的接收人,包含手機、旺旺(淘寶)、郵件。
【報警組】:一組報警聯絡人,可以包含一個或多個“報警聯絡人”。在報警設定中,均通過“報警組”傳送報警通知。對應每一個監控點,根據預先設定的報警方式在到達報警閾值時採取不同的報警方式向報警組成員傳送報警訊息。
【報警方式】:異常通知使用者的手段。包括簡訊、旺旺、郵件等。
5.2功能說明
報警聯絡人管理,所屬標籤位置:【使用者資訊】->【報警聯絡人管理】
5.2.1新增報警聯絡人
點選【新增報警聯絡人按鈕】,如下圖紅框標識,出現新增報警聯絡人頁面
下圖為新增報警聯絡人表單頁面。其中【姓名】為必填專案,且不能重複。餘下【手機號碼】、【郵箱地址】、【阿里旺旺】三個通知方式中,選擇其中一個。目前單個聯絡人不支援多個手機號或者多個郵箱,多個旺旺。如有需要,可以通過新建多個聯絡人解決。
填寫【手機號碼】時,需要進行校驗。點選【傳送校驗碼】,系統會向輸入的手機號傳送校驗碼,請收到校驗碼後,輸入到校驗框中。校驗碼1分鐘內有效,若1分鐘內未使用將失效,請重新點選【傳送校驗碼】。
5.2.2修改報警聯絡人
在報警聯絡人列表中,點選【修改】按鈕,進行聯絡人修改:
在修改聯絡人的介面,除姓名無法修改,手機號碼、郵箱地址、阿里旺旺均可修改。刪除報警聯絡人時,目前刪除的是單項,而不是整個聯絡人的所有資訊。
5.3報警組管理
新增報警組時,名稱不可重複。一組報警聯絡人,可以包含一個或多個“報警聯絡人”。在報警設定中,均通過“報警組”傳送報警通知。對應每一個監控點,根據預先設定的報警方式在到達報警閾值時採取不同的報警方式向報警組成員傳送報警訊息。
5.4報警統計
【報警統計】功能展示的是每天傳送的郵件次數、簡訊條數、旺旺次數,該統計會有幾分鐘(不超過10分鐘)的統計滯後。手機校驗碼的傳送量,也統計在簡訊傳送條數中。每個使用者總共擁有1000條簡訊/月的免費使用配額。
PDF版下載: http://imgs-storage.cdn.aliyuncs.com/help/jiankong/雲監控使用者手冊.pdf
網頁版由wenwenyun.com整理,轉載請保留連結