一個ceph-osd異常DOWN掉的原因分析

阿新 • • 發佈：2019-01-30

今天早上，運維的兄弟報告說，ceph分散式儲存叢集同時有3個OSD異常DOWN掉。因為CEPH叢集是三份資料儲存的，所以對業務沒有什麼太大的影響，所以等有空再查根本原因。

同時報告了有一臺物理機當機了，做了重啟恢復的操作。

有空的時候對問題進行了分析，同事進行了預查，發現如下：

1、在osd down掉的一段時間，所有的CEPH節點的網路流量都高上去了。

2、3個OSD down掉的時候可以看到日誌是大概是說，本OSD斷言心跳斷掉了，所以由斷言觸發了關閉。

3、上面物理機當機的時時間與osd當機的時間基本上是同時。

由於物理機(KVM HOST)的問題比較嚴重，所以先查它的問題，檢視系統日誌發現是之前已經知道的一個原因導致的。這個原因是：由於這一批物理機部署的比較久，當時是安裝的centos7.0，kernel是3.10-123，由於我們使用了openvswitch，而這個版本的Kernel有一個openvswitch的Bug，在某些極端的狀況下，會出現Soft lockup的問題。由於升級kernel會影響客戶的VM，所以一直沒有升級。

再分析ceph osd down掉的問題

一開始懷疑是由於網路流量高導致的心跳不正常，最後發現在那個時間段，使用該儲存叢集的物理機的流量在那個時間段內都沒有流量異常，初步排除由於Guest OS導致的問題。

檢視監控流量圖，發現流量高的時間是在OSD down掉之後才發生的，所以更確定是因為ceph進行資料恢復導致的流量攀升，所以確定流量異常和OSD異常的關係是：OSD異常是因，流量異常是果。

再分析OSD異常的原因，首先發現monitor有以下日誌：

2015-09-11 05:50:50.941975 7fc7f0985700 1 [email protected](leader).osd e59081 prepare_failure osd.13 192.168.20.22:6806/23132 from osd.56 192.168.20.25:6828/4297 is reporting failure:1
2015-09-11 05:50:50.941995 7fc7f0985700 0 log_channel(cluster) log [DBG] : osd.13 192.168.20.22:6806/23132 reported failed by osd.56 192.168.20.25:6828/4297
2015-09-11 05:50:51.494959 7fc7f33be700 0 log_channel(cluster) log [INF] : pgmap v35579953: 2688 pgs: 2688 active+clean; 13309 GB data, 40498 GB used, 34722 GB / 75220 GB avail; 101082 B/s rd, 3726 kB/s wr, 883 op/s
2015-09-11 05:50:51.839815 7fc7f0985700 1

[email protected](leader).osd e59081 prepare_failure osd.13 192.168.20.22:6806/23132 from osd.12 192.168.20.22:6800/45218 is reporting failure:1
2015-09-11 05:50:51.839834 7fc7f0985700 0 log_channel(cluster) log [DBG] : osd.13 192.168.20.22:6806/23132 reported failed by osd.12 192.168.20.22:6800/45218
2015-09-11 05:50:52.551379 7fc7f33be700 0 log_channel(cluster) log [INF] : pgmap v35579954: 2688 pgs: 2688 active+clean; 13309 GB data, 40498 GB used, 34722 GB / 75220 GB avail; 159 kB/s rd, 4259 kB/s wr, 804 op/s
2015-09-11 05:50:52.822059 7fc7f0985700 1

[email protected](leader).osd e59081 prepare_failure osd.13 192.168.20.22:6806/23132 from osd.14 192.168.20.22:6820/4240 is reporting failure:1
2015-09-11 05:50:52.822077 7fc7f0985700 0 log_channel(cluster) log [DBG] : osd.13 192.168.20.22:6806/23132 reported failed by osd.14 192.168.20.22:6820/4240
2015-09-11 05:50:53.304056 7fc7f0985700 1 [email protected](leader).osd e59081 prepare_failure osd.13 192.168.20.22:6806/23132 from osd.97 192.168.20.29:6833/42329 is reporting failure:1
2015-09-11 05:50:53.304074 7fc7f0985700 0 log_channel(cluster) log [DBG] : osd.13 192.168.20.22:6806/23132 reported failed by osd.97 192.168.20.29:6833/42329
2015-09-11 05:50:53.304280 7fc7f0985700 1 [email protected](leader).osd e59081 we have enough reports/reporters to mark osd.13 down

大體意思就是說，有好幾個OSD都報告說osd.13DOWN掉了，既然大家都這麼說，那就認為它死了吧。

再看這個osd的日誌：

-3722> 2015-09-11 05:50:34.371402 7f91c3e0f700 1 -- 192.168.20.22:6809/23132 <== osd.45 192.168.20.24:0/45829 1146487 ==== osd_ping(ping e59081 stamp 2015-09-11 05:50:34.557436) v2 ==== 47+0+0 (3343728556 0 0) 0x148d0200 con 0xab37220
-3721> 2015-09-11 05:50:34.371436 7f91c260c700 1 -- 192.168.20.22:6808/23132 <== osd.45 192.168.20.24:0/45829 1146487 ==== osd_ping(ping e59081 stamp 2015-09-11 05:50:34.557436) v2 ==== 47+0+0 (3343728556 0 0) 0x6e2e800 con 0xab32c00
-3720> 2015-09-11 05:50:34.371459 7f91c3e0f700 1 -- 192.168.20.22:6809/23132 --> 192.168.20.24:0/45829 -- osd_ping(ping_reply e59081 stamp 2015-09-11 05:50:34.557436) v2 -- ?+0 0x127f1400 con 0xab37220
-3719> 2015-09-11 05:50:34.371547 7f91c260c700 1 -- 192.168.20.22:6808/23132 --> 192.168.20.24:0/45829 -- osd_ping(ping_reply e59081 stamp 2015-09-11 05:50:34.557436) v2 -- ?+0 0x1055e000 con 0xab32c00
-3718> 2015-09-11 05:50:34.518138 7f91c260c700 1 -- 192.168.20.22:6808/23132 <== osd.90 192.168.20.28:0/13937 1146080 ==== osd_ping(ping e59081 stamp 2015-09-11 05:50:34.918851) v2 ==== 47+0+0 (2786616502 0 0) 0x15bfb800 con 0xadb44c0
-3717> 2015-09-11 05:50:34.518181 7f91c260c700 1 -- 192.168.20.22:6808/23132 --> 192.168.20.28:0/13937 -- osd_ping(ping_reply e59081 stamp 2015-09-11 05:50:34.918851) v2 -- ?+0 0x6e2e800 con 0xadb44c0
-3716> 2015-09-11 05:50:34.518227 7f91c3e0f700 1 -- 192.168.20.22:6809/23132 <== osd.90 192.168.20.28:0/13937 1146080 ==== osd_ping(ping e59081 stamp 2015-09-11 05:50:34.918851) v2 ==== 47+0+0 (2786616502 0 0) 0xff8fe00 con 0x11ce1600
-3715> 2015-09-11 05:50:34.518307 7f91c3e0f700 1 -- 192.168.20.22:6809/23132 --> 192.168.20.28:0/13937 -- osd_ping(ping_reply e59081 stamp 2015-09-11 05:50:34.918851) v2 -- ?+0 0x148d0200 con 0x11ce1600
-3714> 2015-09-11 05:50:34.686020 7f91af0da700 1 -- 192.168.20.22:6807/23132 <== osd.73 192.168.20.27:6825/23657 1691650 ==== osd_repop(client.2449020.0:3342441 3.13e e056913e/rbd_data.255e726b8b4567.0000000000000e46/head//3 v 59081'19449146) v1 ==== 929+0+8971 (805582020 0 3664754197) 0xdfa3c00 con 0xb401760
-3713> 2015-09-11 05:50:34.686433 7f91af0da700 5 -- op tracker -- seq: 39473910, time: 2015-09-11 05:50:34.685145, event: header_read, op: osd_repop(client.2449020.0:3342441 3.13e e056913e/rbd_data.255e726b8b4567.0000000000000e46/head//3 v 59081'19449146)
-3712> 2015-09-11 05:50:34.686618 7f91af0da700 5 -- op tracker -- seq: 39473910, time: 2015-09-11 05:50:34.685147, event: throttled, op: osd_repop(client.2449020.0:3342441 3.13e e056913e/rbd_data.255e726b8b4567.0000000000000e46/head//3 v 59081'19449146)
-3711> 2015-09-11 05:50:34.686658 7f91af0da700 5 -- op tracker -- seq: 39473910, time: 2015-09-11 05:50:34.685897, event: all_read, op: osd_repop(client.2449020.0:3342441 3.13e e056913e/rbd_data.255e726b8b4567.0000000000000e46/head//3 v 59081'19449146)
-3710> 2015-09-11 05:50:34.686712 7f91af0da700 5 -- op tracker -- seq: 39473910, time: 0.000000, event: dispatched, op: osd_repop(client.2449020.0:3342441 3.13e e056913e/rbd_data.255e726b8b4567.0000000000000e46/head//3 v 59081'19449146)

結合最後死掉的日誌，分析就是這個OSD和其它的OSD都不太能傳送和接受心跳包了，問題是，為什麼？？？

經過一系列的分析，結果是無果，但是也看到了另外一個線索即：計算節點物理機的crash時間正好在這三個OSD出現故障之前。

最終，因為正好大膽地做了一個假設：rbd的客戶端(kvm)因為kernel出現了異常，所以無法完成分散式儲存的某些操作，進而導致相關物件所在的塊的OSD有了鎖之類的東西，進而導致這個OSD無法正常反饋心跳，進而導致了OSD被自己斷言死亡。

這是一個猜測，但是是一個非常合理的猜測。

有知道的同學，也請告知，回頭把這個問題報告到社群中問一下。

一個ceph-osd異常DOWN掉的原因分析

一個ceph-osd異常DOWN掉的原因分析

OpenStack中down掉的異常dhcp port 處理

Jupyter notebook 轉pdf時出現的一個錯誤（只出現前4頁）及原因分析

關於QT在開啟子視窗時程式崩潰的其中一個原因分析

Cron連線正常工作5次後異常原因分析

簡單利用Apache Logs Viewer工具分析錯誤日誌和頻繁掛掉原因

一個Java程序直接死掉的問題分析

在Activity的onCreate方法中顯示PopupWindow導致異常的原因分析及解決方案

STL string 析構異常原因分析

C# 外部元件發生異常原因分析 [分析]

ADSL上網速度慢經常掉線原因分析

www.beishuo.net 網站打開異常慢的原因

epoll驚群原因分析

公司網絡很慢很卡的原因分析與處理

修改hosts不立即生效原因分析

SQL Server 磁盤請求超時的833錯誤原因分析以及解決

記一次OGG數據寫入HBase的丟失數據原因分析

AppStore IPv6-only審核被拒原因分析及解決方案

SDK環境變量配置及adb不是內部或外部命令原因分析

C 語言的一個錯誤，沒找出原因

一個ceph-osd異常DOWN掉的原因分析

相關推薦