你需要精通一種監控-CPU資源監控例項

知識點回顧

CPU的使用率是如何計算的？

1）CPU相關概念

    CPU利用率：CPU的使用情況。
    使用者時間(User time) ：表示CPU執行使用者程序的時間，包括nices時間。通常期望使用者空間CPU越高越好。
    系統時間(System time) ：表示CPU在核心執行時間，包括IRQ和softirq時間。系統CPU佔用率高，表明系統某部分存在瓶頸。通常值越低越好。
    等待時間(Waiting time) ：CPU在等待I/O操作完成所花費的時間。系統不應該花費大量時間來等待I/O操作，否則就說明I/O存在瓶頸。
    空閒時間(Idle time) ：系統處於空閒期，等待程序執行。
    Nice時間(Nice time) ：系統調整程序優先順序所花費的時間。
    硬中斷處理時間(Hard Irq time) ：系統處理硬中斷所花費的時間。
    軟中斷處理時間(SoftIrq time) ：系統處理軟中斷中斷所花費的時間。
    丟失時間(Steal time) ：被強制等待（involuntary wait）虛擬CPU的時間，此時hypervisor在為另一個虛擬處理器服務。

2）我們檢視下一臺安裝了Prometheus node_exporter主機都採集了那些cpu相關資料

curl localhost:9100/metrics | grep cpu

node_cpu_seconds_total{cpu="0",mode="idle"} 1.12742968e+06
node_cpu_seconds_total{cpu="0",mode="iowait"} 15314.29
node_cpu_seconds_total{cpu="0",mode="irq"} 0
node_cpu_seconds_total{cpu="0",mode="nice"} 2851.94
node_cpu_seconds_total{cpu="0",mode="softirq"} 826.97
node_cpu_seconds_total{cpu="0",mode="steal"} 0
node_cpu_seconds_total{cpu="0",mode="system"} 8983.57
node_cpu_seconds_total{cpu="0",mode="user"} 29765.21

後面的數字是cpu的使用時間

3）CPU的使用率是怎麼計算的呢？

    CPU佔用率計算公式
    CPU時間=user+system+nice+idle+iowait+irq+softirq+Stl +guest
    %us=(User time + Nice time)/CPU時間*100%
    %sy=(System time + Hard Irq time +SoftIRQ time)/CPU時間*100%
    %id=(Idle time)/CPU時間*100%
    %ni=(Nice time)/CPU時間*100% %wa=(Waiting time)/CPU時間*100%
    %hi=(Hard Irq time)/CPU時間*100%
    %si=(SoftIRQ time)/CPU時間*100%
    %st=(Steal time)/CPU時間*100%

Prometheus的演示

通過 curl localhost:9100/metrics 我們可以看到cpu的總量在prometheus中的key是node_cpu_seconds_total

1）node_cpu_seconds_total 檢視

2）如何獲取cpu眾多值中的一個？例如idle(空閒cpu)

表示式 (key的過濾是通過 { } 實現的 )

node_cpu_seconds_total{mode="idle"}

3）獲取1m中內的資料變化通過increase()

表示式

increase(node_cpu_seconds_total{mode="idle"}[1m])

4) 獲取1m中內的資料變化和

表示式

sum(increase(node_cpu_seconds_total{mode="idle"}[1m]))

當然這裡有個問題，當你使用了sum像是上面的方式，我們求的和是包含了所有伺服器的所有cpu的平均值和。意思就是說假如監控上面監控了100伺服器其中各個伺服器的cpu數量都不盡相同，那麼我們的求和就是將這100伺服器中的所有cpu求和求平均。

5) 如何解決上面的問題呢？

這裡就引進一個方法 by(instance),將sum加和一起的數值按照指定的方式進行一層拆分，instance代表的是機器名.

表示式

sum(increase(node_cpu_seconds_total{mode="idle"}[1m])) by(instance)

6) 獲取空閒cpu的百分比

表示式（開始使用預算符）

sum(increase(node_cpu_seconds_total{mode="idle"}[1m])) by(instance) /sum(increase(node_cpu_seconds_total[1m])) by(instance)

or
(sum(increase(node_cpu_seconds_total{mode="idle"}[1m])) by(instance)) / (sum(increase(node_cpu_seconds_total[1m])) by(instance))

7）非空閒cpu1m使用百分比

表示式


(1- ((sum(increase(node_cpu_seconds_total{mode="idle"}[1m])) by(instance)) / (sum(increase(node_cpu_seconds_total[1m])) by(instance))))*100

你需要精通一種監控-CPU資源監控例項

知識點回顧

Prometheus的演示

你需要精通一種監控-CPU資源監控例項

你需要精通一種監控-Prometheus資料型別

你需要精通一種監控系列

你需要精通一種監控-Prometheus核心元件

你需要精通一種監控-時間序列資料庫

你需要精通一種監控-初識PromQL

你需要精通一種監控-PromQL聚合操作

你需要精通一種監控-標籤的使用和基於數值的過濾

你需要精通一種監控-常用行數詳解

你需要精通一種監控-prometheus服務端相關內容

23 種 Pandas 核心操作，你需要過一遍嗎？

程序員的十種級別，看看你屬於哪一種？

跨境電商賣家你需要的一款跨境電商ERP在這裏？

四種人“cai”在兄弟連戰狼班Java培訓，你屬於哪一種?

一種對共享資源和獨享資源的檢查方法

做成一件事一定需要具備一種匠心精神

創建線程有幾種不同的方式？你喜歡哪一種？為什麽？

2分鐘精準鑒別初級、中級、高級程序員，你是哪一種？

五種型別的程式設計師，你屬於哪一種？

閱讀《認識天性》有感-----你應該換一種學習方式了！(第一次閱讀部分)

你需要精通一種監控-CPU資源監控例項

知識點回顧

Prometheus的演示

相關推薦