CEPHADM 操作之健康檢查
cephadm 模組提供額外的健康檢查來補充叢集提供的預設健康檢查。這些額外的健康檢查分為兩類:
- cephadm 操作:當 cephadm 模組處於活動狀態時,始終執行此類別的健康檢查。
- 叢集配置:這些健康檢查是可選的,主要關注叢集中主機的配置。
CEPHADM 操作
CEPHADM_PAUSED
ceph orch pause 這表明 cephadm 後臺工作已被暫停 。Cephadm 繼續執行被動監控活動(例如檢查主機和守護程式狀態),但不會進行任何更改(例如部署或刪除守護程式)。
通過執行以下命令恢復 cephadm 工作:
ceph orch resume
CEPHADM_STRAY_HOST
這表明一個或多個主機有 Ceph 守護程序正在執行,但沒有註冊為由cephadm管理的主機。這意味著這些服務目前不能由 cephadm 管理(例如,重新啟動、升級、包含在 ceph orch ps中)。
- 您可以通過執行以下命令來管理主機:
ceph orch host add *<hostname>*
筆記: 您可能需要先配置對遠端主機的 SSH 訪問許可權,然後才能使用。
-
有關主機名和域名的更多資訊,請參閱完全限定域名與裸主機名。
-
或者,您可以手動連線到主機並確保該主機上的服務被刪除或遷移到由cephadm管理的主機。
-
可以通過執行以下命令完全禁用此警告:
ceph config set mgr mgr/cephadm/warn_on_stray_hosts false
CEPHADM_STRAY_DAEMON
一個或多個 Ceph 守護程序正在執行,但不是由 cephadm管理。這可能是因為它們是使用不同的工具部署的,或者是因為它們是手動啟動的。這些服務目前無法由 cephadm 管理(例如,重新啟動、升級或包含在ceph orch ps中)。
-
如果守護程序是有狀態的(監視器或 OSD),它應該被 cephadm 採用;請參閱將現有叢集轉換為 cephadm。對於無狀態守護程式,通常最簡單的方法是使用 ceph orch apply 命令配置新守護程式,然後停止非託管守護程式。
-
如果雜散守護程序在不受 cephadm 管理的主機上執行,您可以通過執行以下命令來管理主機:
ceph orch host add *<hostname>*
筆記: 您可能需要先配置對遠端主機的 SSH 訪問許可權,然後才能使用。
-
有關主機名和域名的更多資訊,請參閱完全限定域名與裸主機名。
-
可以通過執行以下命令完全禁用此警告:
ceph config set mgr mgr/cephadm/warn_on_stray_daemons false
CEPHADM_HOST_CHECK_FAILED
一臺或多臺主機未能通過基本的 cephadm 主機檢查,這將驗證 (1) 主機可訪問且 cephadm 可以在那裡執行,以及 (2) 主機滿足基本先決條件,如工作容器執行時(podman 或 docker)和工作時間同步。如果此測試失敗,cephadm 將無法管理該主機上的服務。
您可以通過執行以下命令手動執行此檢查:
ceph cephadm check-host *<hostname>*
您可以通過執行以下命令從管理中刪除損壞的主機:
ceph orch host rm *<hostname>*
您可以通過執行以下命令禁用此執行狀況警告:
ceph config set mgr mgr/cephadm/warn_on_failed_host_check false
叢集配置檢查
Cephadm 定期掃描叢集中的每臺主機,以瞭解作業系統、磁碟、網絡卡等的狀態。然後可以分析這些事實以確保叢集中主機之間的一致性,以識別任何配置異常。
啟用叢集配置檢查
配置檢查是一項可選功能,可通過執行以下命令啟用:
ceph config set mgr mgr/cephadm/config_checks_enabled true
叢集配置檢查返回的狀態
每次主機掃描 (1m) 後都會觸發配置檢查。cephadm 日誌條目將顯示配置檢查的當前狀態和結果,如下所示:
禁用狀態(config_checks_enabled false):
ALL cephadm checks are disabled, use 'ceph config set mgr mgr/cephadm/config_checks_enabled true' to enable
啟用狀態(config_checks_enabled true):
CEPHADM 8/8 checks enabled and executed (0 bypassed, 0 disabled). No issues detected
管理配置檢查(子命令)
配置檢查本身通過幾個 cephadm 子命令進行管理。
要確定是否啟用了配置檢查,請執行以下命令:
ceph cephadm config-check status
此命令將配置檢查器的狀態返回為“啟用”或“禁用”。
要列出所有配置檢查及其當前狀態,請執行以下命令:
# ceph cephadm config-check ls
NAME HEALTHCHECK STATUS DESCRIPTION
kernel_security CEPHADM_CHECK_KERNEL_LSM enabled checks SELINUX/Apparmor profiles are consistent across cluster hosts
os_subscription CEPHADM_CHECK_SUBSCRIPTION enabled checks subscription states are consistent for all cluster hosts
public_network CEPHADM_CHECK_PUBLIC_MEMBERSHIP enabled check that all hosts have a NIC on the Ceph public_netork
osd_mtu_size CEPHADM_CHECK_MTU enabled check that OSD hosts share a common MTU setting
osd_linkspeed CEPHADM_CHECK_LINKSPEED enabled check that OSD hosts share a common linkspeed
network_missing CEPHADM_CHECK_NETWORK_MISSING enabled checks that the cluster/public networks defined exist on the Ceph hosts
ceph_release CEPHADM_CHECK_CEPH_RELEASE enabled check for Ceph version consistency - ceph daemons should be on the same release (unless upgrade is active)
kernel_version CEPHADM_CHECK_KERNEL_VERSION enabled checks that the MAJ.MIN of the kernel on Ceph hosts is consistent
通過執行以下形式的命令,可以使用每個配置檢查的名稱來啟用或禁用特定檢查:
ceph cephadm config-check disable <name>
例如:
ceph cephadm config-check disable kernel_security
CEPHADM_CHECK_KERNEL_LSM
叢集中的每個主機都應在相同的 Linux 安全模組 (LSM) 狀態下執行。例如,如果大多數主機都在強制模式SELINUX下執行 ,則任何未在此模式下執行的主機都會被標記為異常並引發健康檢查 (WARNING) 狀態。
CEPHADM_CHECK_SUBSCRIPTION
此檢查與供應商訂閱的狀態有關。此檢查僅針對使用 RHEL 的主機執行,但有助於確認所有主機都包含在活動訂閱中,從而確保補丁和更新可用。
CEPHADM_CHECK_PUBLIC_MEMBERSHIP
叢集的所有成員都應在至少一個公共網路子網中配置 NIC。不在公共網路上的主機將依賴路由,這可能會影響效能。
CEPHADM_CHECK_MTU
OSD 上 NIC 的 MTU 可能是保持效能穩定的關鍵因素。此檢查檢查執行 OSD 服務的主機,以確保 MTU 在叢集中的配置一致。這是通過建立大多數主機正在使用的 MTU 設定來確定的。任何異常都會導致 Ceph 執行狀況檢查。
CEPHADM_CHECK_LINKSPEED
此檢查類似於 MTU 檢查。Linkspeed 一致性是叢集效能一致的一個因素,就像 OSD 上 NIC 的 MTU 一樣。此檢查確定大多數 OSD 主機共享的連結速度,並且對設定為較低連結速度速率的任何主機執行健康檢查。
CEPHADM_CHECK_NETWORK_MISSING
public_network和cluster_network設定支援 IPv4 和 IPv6 的子網定義。如果在叢集中的任何主機上都找不到這些設定,則會進行健康檢查。
CEPHADM_CHECK_CEPH_RELEASE
在正常操作下,Ceph 叢集在同一個 ceph 版本下執行守護程序(即 Ceph 叢集在(例如)Octopus 下執行所有守護程序)。此檢查確定每個守護程式的活動版本,並將任何異常報告為執行狀況檢查。如果升級過程在叢集中處於活動狀態,則繞過此檢查。
CEPHADM_CHECK_KERNEL_VERSION
檢查作業系統核心版本 (maj.min) 以確保主機之間的一致性。大多數主機的核心版本被用作識別異常的基礎。
作者:Varden 出處:http://www.cnblogs.com/varden/ 本文內容如有雷同,請聯絡作者! 本文版權歸作者和部落格園共有,歡迎轉載,但未經作者同意必須保留此段宣告,且在文章頁面明顯位置給出原文連線,否則保留追究法律責任的權利。