1. 程式人生 > 其它 >CEPHADM 操作之健康檢查

CEPHADM 操作之健康檢查

cephadm 模組提供額外的健康檢查來補充叢集提供的預設健康檢查。這些額外的健康檢查分為兩類:

  • cephadm 操作:當 cephadm 模組處於活動狀態時,始終執行此類別的健康檢查。
  • 叢集配置:這些健康檢查是可選的,主要關注叢集中主機的配置。

CEPHADM 操作

CEPHADM_PAUSED

ceph orch pause 這表明 cephadm 後臺工作已被暫停 。Cephadm 繼續執行被動監控活動(例如檢查主機和守護程式狀態),但不會進行任何更改(例如部署或刪除守護程式)。

通過執行以下命令恢復 cephadm 工作:

ceph orch resume

CEPHADM_STRAY_HOST

這表明一個或多個主機有 Ceph 守護程序正在執行,但沒有註冊為由cephadm管理的主機。這意味著這些服務目前不能由 cephadm 管理(例如,重新啟動、升級、包含在 ceph orch ps中)。

  • 您可以通過執行以下命令來管理主機:
ceph orch host add *<hostname>*

筆記: 您可能需要先配置對遠端主機的 SSH 訪問許可權,然後才能使用。

  • 有關主機名和域名的更多資訊,請參閱完全限定域名與裸主機名。

  • 或者,您可以手動連線到主機並確保該主機上的服務被刪除或遷移到由cephadm管理的主機。

  • 可以通過執行以下命令完全禁用此警告:

ceph config set mgr mgr/cephadm/warn_on_stray_hosts false

CEPHADM_STRAY_DAEMON

一個或多個 Ceph 守護程序正在執行,但不是由 cephadm管理。這可能是因為它們是使用不同的工具部署的,或者是因為它們是手動啟動的。這些服務目前無法由 cephadm 管理(例如,重新啟動、升級或包含在ceph orch ps中)。

  • 如果守護程序是有狀態的(監視器或 OSD),它應該被 cephadm 採用;請參閱將現有叢集轉換為 cephadm。對於無狀態守護程式,通常最簡單的方法是使用 ceph orch apply 命令配置新守護程式,然後停止非託管守護程式。

  • 如果雜散守護程序在不受 cephadm 管理的主機上執行,​​您可以通過執行以下命令來管理主機:

ceph orch host add *<hostname>*

筆記: 您可能需要先配置對遠端主機的 SSH 訪問許可權,然後才能使用。

  • 有關主機名和域名的更多資訊,請參閱完全限定域名與裸主機名。

  • 可以通過執行以下命令完全禁用此警告:

ceph config set mgr mgr/cephadm/warn_on_stray_daemons false

CEPHADM_HOST_CHECK_FAILED

一臺或多臺主機未能通過基本的 cephadm 主機檢查,這將驗證 (1) 主機可訪問且 cephadm 可以在那裡執行,以及 (2) 主機滿足基本先決條件,如工作容器執行時(podman 或 docker)和工作時間同步。如果此測試失敗,cephadm 將無法管理該主機上的服務。

您可以通過執行以下命令手動執行此檢查:

ceph cephadm check-host *<hostname>*

您可以通過執行以下命令從管理中刪除損壞的主機:

ceph orch host rm *<hostname>*

您可以通過執行以下命令禁用此執行狀況警告:

ceph config set mgr mgr/cephadm/warn_on_failed_host_check false

叢集配置檢查

Cephadm 定期掃描叢集中的每臺主機,以瞭解作業系統、磁碟、網絡卡等的狀態。然後可以分析這些事實以確保叢集中主機之間的一致性,以識別任何配置異常。

啟用叢集配置檢查

配置檢查是一項可選功能,可通過執行以下命令啟用:

ceph config set mgr mgr/cephadm/config_checks_enabled true

叢集配置檢查返回的狀態

每次主機掃描 (1m) 後都會觸發配置檢查。cephadm 日誌條目將顯示配置檢查的當前狀態和結果,如下所示:

禁用狀態(config_checks_enabled false):

ALL cephadm checks are disabled, use 'ceph config set mgr mgr/cephadm/config_checks_enabled true' to enable

啟用狀態(config_checks_enabled true):

CEPHADM 8/8 checks enabled and executed (0 bypassed, 0 disabled). No issues detected

管理配置檢查(子命令)

配置檢查本身通過幾個 cephadm 子命令進行管理。

要確定是否啟用了配置檢查,請執行以下命令:

ceph cephadm config-check status

此命令將配置檢查器的狀態返回為“啟用”或“禁用”。

要列出所有配置檢查及其當前狀態,請執行以下命令:

# ceph cephadm config-check ls

  NAME             HEALTHCHECK                      STATUS   DESCRIPTION
kernel_security  CEPHADM_CHECK_KERNEL_LSM         enabled  checks SELINUX/Apparmor profiles are consistent across cluster hosts
os_subscription  CEPHADM_CHECK_SUBSCRIPTION       enabled  checks subscription states are consistent for all cluster hosts
public_network   CEPHADM_CHECK_PUBLIC_MEMBERSHIP  enabled  check that all hosts have a NIC on the Ceph public_netork
osd_mtu_size     CEPHADM_CHECK_MTU                enabled  check that OSD hosts share a common MTU setting
osd_linkspeed    CEPHADM_CHECK_LINKSPEED          enabled  check that OSD hosts share a common linkspeed
network_missing  CEPHADM_CHECK_NETWORK_MISSING    enabled  checks that the cluster/public networks defined exist on the Ceph hosts
ceph_release     CEPHADM_CHECK_CEPH_RELEASE       enabled  check for Ceph version consistency - ceph daemons should be on the same release (unless upgrade is active)
kernel_version   CEPHADM_CHECK_KERNEL_VERSION     enabled  checks that the MAJ.MIN of the kernel on Ceph hosts is consistent

通過執行以下形式的命令,可以使用每個配置檢查的名稱來啟用或禁用特定檢查:

ceph cephadm config-check disable <name>

例如:

ceph cephadm config-check disable kernel_security

CEPHADM_CHECK_KERNEL_LSM

叢集中的每個主機都應在相同的 Linux 安全模組 (LSM) 狀態下執行。例如,如果大多數主機都在強制模式SELINUX下執行 ,則任何未在此模式下執行的主機都會被標記為異常並引發健康檢查 (WARNING) 狀態。

CEPHADM_CHECK_SUBSCRIPTION

此檢查與供應商訂閱的狀態有關。此檢查僅針對使用 RHEL 的主機執行,但有助於確認所有主機都包含在活動訂閱中,從而確保補丁和更新可用。

CEPHADM_CHECK_PUBLIC_MEMBERSHIP

叢集的所有成員都應在至少一個公共網路子網中配置 NIC。不在公共網路上的主機將依賴路由,這可能會影響效能。

CEPHADM_CHECK_MTU

OSD 上 NIC 的 MTU 可能是保持效能穩定的關鍵因素。此檢查檢查執行 OSD 服務的主機,以確保 MTU 在叢集中的配置一致。這是通過建立大多數主機正在使用的 MTU 設定來確定的。任何異常都會導致 Ceph 執行狀況檢查。

CEPHADM_CHECK_LINKSPEED

此檢查類似於 MTU 檢查。Linkspeed 一致性是叢集效能一致的一個因素,就像 OSD 上 NIC 的 MTU 一樣。此檢查確定大多數 OSD 主機共享的連結速度,並且對設定為較低連結速度速率的任何主機執行健康檢查。

CEPHADM_CHECK_NETWORK_MISSING

public_network和cluster_network設定支援 IPv4 和 IPv6 的子網定義。如果在叢集中的任何主機上都找不到這些設定,則會進行健康檢查。

CEPHADM_CHECK_CEPH_RELEASE

在正常操作下,Ceph 叢集在同一個 ceph 版本下執行守護程序(即 Ceph 叢集在(例如)Octopus 下執行所有​​守護程序)。此檢查確定每個守護程式的活動版本,並將任何異常報告為執行狀況檢查。如果升級過程在叢集中處於活動狀態,則繞過此檢查。

CEPHADM_CHECK_KERNEL_VERSION

檢查作業系統核心版本 (maj.min) 以確保主機之間的一致性。大多數主機的核心版本被用作識別異常的基礎。

作者:Varden 出處:http://www.cnblogs.com/varden/ 本文內容如有雷同,請聯絡作者! 本文版權歸作者和部落格園共有,歡迎轉載,但未經作者同意必須保留此段宣告,且在文章頁面明顯位置給出原文連線,否則保留追究法律責任的權利。