NAS日誌分析用戶指南
NAS文件存儲是阿裏雲提供給用戶的雲上高性能文件系統存儲服務。數據安全和性能是用戶對文件存儲服務最關註的兩大因素,經常有用戶反映以下這些情況:
- 我想查看自己的文件存儲服務性能指標(吞吐,iops等等)
- 我想了解自己的文件系統內數據操作分布(讀、寫、新建、刪除)
- 我的文件系統內某某文件怎麽沒了?(文件誤刪除)
為了更好地服務用戶,讓用戶清晰地了解到自己的文件系統在雲上的運行狀況,我們新推出了“NAS日誌分析”功能,旨在幫助用戶更好地管理文件系統資源。通過該功能,用戶可以方便地跟蹤系統性能問題,記錄文件系統上的數據操作情況,審計文件刪除等相關操作,有效監控各區域內文件系統資源大盤和明細信息,實時報警等。
NAS日誌分析功能是阿裏雲文件存儲(NAS)和日誌服務(SLS)聯合研發出的一個內建於NAS控制臺內的日誌分析功能,該日誌分析服務能夠實時寫入10M/s 的日誌數據,並實時分析每秒1000萬行的日誌記錄,計算處理延時在秒級別以內。
- 如何開通
目前NAS日誌分析功能處於上線公測階段,需要用戶主動申請開通服務。
具體步驟如下:
步驟一,申請開通
登錄阿裏雲官網NAS控制臺,在控制臺首頁找到“NAS現已開通用戶級監控”一欄,並點擊“申請”按鈕
步驟二,填寫申請信息
填寫具體的申請信息後,點擊提交
步驟三,等待審批通過
等待阿裏雲後臺運營人員審批通過,在審批通過後,在NAS控制臺左側導航欄中將會顯示“日誌分析”一欄
步驟四,進行日誌授權
“NAS日誌分析”功能涉及到使用用戶自己的日誌存儲(由日誌服務SLS提供),需要用戶授權NAS服務將日誌數據寫入日誌存儲的相關權限。
用戶需要如下操作:
點擊“日誌分析”->“日誌管理”一欄,在右側主頁中點擊“授權入口”,授權阿裏雲NAS服務可以寫入您的日誌存儲數據。
在跳轉的授權頁面中,點擊“同意授權”。
步驟五,創建相應文件系統的日誌轉儲
相關授權操作完成後,即可創建您相應文件系統的日誌轉儲,將對應文件系統的運行日誌導入您自己的日誌存儲(Log Store)中,以進行後續的日誌分析工作。
至此,您已完成了NAS日誌分析功能的完整配置。NAS日誌數據已經導入到您自己的日誌存儲中,日誌服務會在後臺為您的NAS日誌數據進行分析,隨後您即可看到相關的日誌分析信息。
- 使用指南
在用戶完成上述的服務開通和配置後,用戶即可瀏覽相關的日誌分析數據。
2.1 日誌管理
登錄阿裏雲官網NAS控制臺,在左側導航欄中點擊“日誌分析”->“日誌管理”一欄,展示NAS日誌分析功能的日誌管理視圖
上圖右側列表中列出的2個文件系統表明已經由用戶配置了日誌分析功能,可以通過左側的分析視圖查詢這2個文件系統相關的日誌分析數據。
在列表的右側有“操作”一欄,其中:
“點擊前往”鏈接去往該日誌最終存儲的日誌服務(SLS)控制臺,在那裏用戶可以進行更細化的日誌分析行為;
“停止”可以讓用戶手動關停某個文件系統的日誌分析服務,該文件系統將從日誌管理列表中移除,並停止日誌數據的采集過程。
2.2 日誌視圖
用戶在對已經配置了日誌分析服務的文件系統進行一段時間的數據訪問和操作後,系統會產生相關的訪問日誌,並采集相關日誌數據,將其轉儲到日誌服務(SLS)的Log Store中,日誌服務對采集到的日誌數據進行數據分析,隨後,用戶就可以通過日誌視圖查詢到相關的分析和統計數據。
如上圖左側紅框所示,目前提供了三個維度的文件系統日誌分析視圖:
總覽視圖:總覽該區域內各個文件系統的總體指標、操作分布、客戶端分布等
明細視圖:詳細展示具體的讀寫數據流、操作趨勢、平均讀寫大小、異常狀態等
審計視圖:展示文件系統的創建、刪除、讀取、寫入的審計信息等
2.2.1 總覽視圖
總覽視圖展示相應區域內文件系統資源訪問的整體情況,包括分析的文件系統個數、總的寫入流量和讀取流量、最近訪問的客戶端個數、每個文件系統的客戶端分布情況、創建、刪除、讀寫數據的整體分布情況等。
2.2.2 明細視圖
明細視圖詳細展示具體文件系統的數據操作細節。
寫->讀數據流
展示了每個文件系統數據流入流出的情況,圖表左側表示客戶端向文件系統寫入數據,右側表示客戶端從文件系統讀出數據。
最近訪問的文件數量
展示了每個文件系統內最近訪問的文件數量
操作趨勢
展示了每個文件系統(NFS類型)在操作過程中單位時間內NFS協議的交互次數。
寫/讀操作流量趨勢
展示了每個文件系統在讀寫數據時單位時間內的數據流量統計
平均寫/讀操作大小
展示了每個文件系統在讀寫數據時單位時間內平均單次IO的讀寫數據塊大小
讀寫客戶端Top
展示了客戶端對相關文件系統操作的分布和熱度
操作錯誤Top客戶端
展示了客戶端在與文件系統的NFS協議交互中返回錯誤狀態的分布情況,這個“錯誤”不代表服務端異常,而是正常的協議交互錯誤,比如:客戶端ls某個文件,而該文件不存在。
這個指標可以在一定程度上反向指導上層業務是否發生異常或者存在bug,比如,我們曾經遇到過一個客戶案例,其有一個後臺批處理應用頻繁遍歷若幹不存在的目錄,該指標值會瞬間拉升,最終發現是由於批處理進程存在一個遍歷目錄的bug,將路徑拼錯,導致業務暫停,造成了一定的損失。通過該指標,再結合相關報警,可以從數據源頭感知業務的變化,從而幫助業務系統快速發現問題,解決問題。
熱點操作分布
展示了每個文件系統常見操作的分布情況,這些常見操作包括創建目錄(mkdir)、讀目錄(ls,遍歷目錄下的文件)、寫(write)、讀(read)、刪除(rm)、重命名(rename)、以及其他。
熱門文件
展示了每個文件系統內被訪問頻次較高的文件的分布情況,目前僅分析到文件所在inode,並沒有給出文件在文件系統內的全路徑,用戶可以使用debugfs等相關工具根據文件inode反查pathname
異常操作分布
展示了每個文件系統內異常操作的分布情況,如鑒權失敗、網絡錯誤、讀寫錯誤等
操作狀態分布
展示了每個文件系統內整體操作的分布情況
2.2.3 審計視圖
審計視圖展示各文件系統內的敏感操作的審計信息和歷史記錄
創建操作數
展示了每個文件系統在統計時間內的創建文件數量和分布
刪除文件數
展示了每個文件系統在統計時間內的刪除文件數量和分布
讀取文件數
展示了每個文件系統在統計時間內的讀取文件數量和分布
寫入文件數
展示了每個文件系統在統計時間內的寫入文件數量和分布
文件操作趨勢圖
在時間軸上展示了區域內所有文件系統的常見操作的分布和趨勢,常見操作包括讀文件、寫文件、刪除文件、創建文件等。
最近被刪除文件列表
展示了該區域內最近發生刪除操作的目錄的歷史列表,列表中包含了被刪除文件所在父目錄的inode、所在文件系統、執行刪除操作的來源IP、掛載文件系統的NFS版本號、該目錄下最近刪除文件數目等信息
最近創建的文件
展示了該區域內最近發生創建操作的目錄的歷史列表,列表中包含了被創建文件所在父目錄的inode、所在文件系統、執行創建操作的來源IP、掛載文件系統的NFS版本號、該目錄下最近創建文件數目等信息
最近寫文件Top
展示了該區域內最近發生寫操作的文件Top榜,列表中包含了寫操作所在文件系統、寫操作文件inode、統計時間內的寫數據大小、執行寫操作的客戶端數量、掛載文件系統的NFS版本號等信息
最近讀文件Top
展示了該區域內最近發生讀操作的文件Top榜,列表中包含了讀操作所在文件系統、讀操作文件inode、統計時間內的讀數據大小、執行讀操作的客戶端數量、掛載文件系統的NFS版本號等信息
2.3 日誌字段詳解
在用戶完成日誌配置後,文件系統的訪問日誌將轉儲到日誌服務(SLS)的Log Store中,通過“日誌管理”列表中的操作欄“點擊前往”可以進入SLS詳情頁查看具體的NAS日誌數據,其具體日誌字段釋義如下:
字段名 字段值 字段含義
ArgIno 226 文件系統inode號
AuthRc 0 授權返回碼
NFSProtocolRc 0 NFS協議返回碼
OpList null NFSv4 Procedures編號
Proc 1 NFSv3 Procedures編號
RWSize -1 讀寫大小,單位字節
RequestId 5ACF5CD506EAC7A508F056DF 請求ID
ResIno nulll ookup的資源inode號
SourceIp 172.18.159.169 客戶端IP
User *** 用戶ID
Vers 3 NFS協議版本號
Vip 172.18.158.178 服務端IP
Volume **** 文件系統ID
microtime 1523539157201995 請求發生時間,單位微秒
-
註意事項
-
關於日誌分析是否跨區域
不跨區域。
NAS日誌分析功能目前以區域(Region)劃分,如華北1、華北2、華東1、華東2,不同區域產生各自的日誌分析視圖,同一個區域內的多個文件系統的日誌數據做聚合分析,目前暫不支持對跨區域的文件系統做聚合分析。
-
關於文件系統類型的支持
目前NAS日誌分析功能僅支持NFS協議類型,後續會支持SMB等其他類型。
-
關於日誌分析結果的延遲
正常情況下,NAS日誌從被采集到轉儲,到最終分析出結果,最大延遲在10s以內。
-
關於收費
NAS日誌分析功能,目前處於申請公測階段,在此期間,該功能不會產生任何費用。在公測階段結束後,NAS可以免費將日誌數據開放給用戶,但日誌存儲和日誌分析需要使用日誌服務(SLS)的相關功能,其計費標準可以參考現行日誌服務(SLS)的計費說明。
-
原文鏈接
本文為雲棲社區原創內容,未經允許不得轉載。
NAS日誌分析用戶指南