1. 程式人生 > >Azure雲主機啟動後未分配IP,無法遠程

Azure雲主機啟動後未分配IP,無法遠程

開機 vpd 解決 時間 ext 升級 strong 推廣 process

背景:

最近項目為推廣本地化部署環境,采用了Azure雲服務,在Azure上新建了三臺虛擬機,部署三節點的CDH集群。

但使用過Azure雲的朋友都知道,虛擬機開啟後是按時間計費的,一個小時幾百、上千的都有,貴呀。

所以為了節省成本,定制了一個策略,測試機在每天晚上8點關機,次日9點開機,實現方式是使用Azure SDK for python寫了一個腳本實現。


問題:

有一天上班後查看Azure上部署的CDH集群狀態,發現一臺主機未連接,無法ping通,無法ssh連接。

但在Azure portal界面中查看VM狀態為正常運行,那就奇怪了。因為是測試環境,我們選擇將有問題的節點進行了重啟(也可以選擇保留現場,向Azure技術支持反饋工單,但估計他們也需要重啟VM進行排查)。

重啟後VM正常啟動,VM可以ping通,SSH正常連接,於是向Azure發起工單請求排查。


原因:

經自查和通過Azure技術支持排查後,發現虛擬機在啟動時分配IP地址時出現錯誤:

技術分享圖片


解決方案:

問題已經找到,系虛擬機版本與Azure的某些服務不兼容造成,解決方法是對所有的虛擬機升級LIS版本。

技術分享圖片


--總結--

在有問題的VM重啟恢復正常後,我們首先會想到/var/log/message中查看日誌,這時可以與另外兩個正常的VM中的message日誌進行對比,來發現異常點。

找到異常點後,基本可以知道問題發生的原因以及如何解決問題。

雲服務帶給我們便利,同時也帶來一些新的問題,對於有些可以預料的問題,我們需要提前做好規劃,來避免雲服務出現問題給我們帶來更大的影響,讓我們有更大的自主權。也希望各家雲廠商能夠越來越好,提供更穩定、更優質的服務。


End:

由於筆者的水平有限,文中難免會出現一些錯誤或者不準確的地方,不妥之處懇請讀者批評指正。

我也會繼續分享我的一些工作經驗和心得,喜歡筆者的文章,右上角點一波關註,謝謝!


Azure雲主機啟動後未分配IP,無法遠程