1. 程式人生 > >Exchange服務器系統藍屏及脫域後解決辦法

Exchange服務器系統藍屏及脫域後解決辦法

服務器系統藍屏及脫域後解

在工作中有時會出現Exchange服務器在意外重啟後藍屏並且無法直接恢復的情況,通過災難恢復方式處理之後穩定運行一個月該服務器又出現脫域的現象。在此我總結處理問題的過程及思路,希望能對同行有所幫助。

環境:

操作系統:Windows Server 2008 R2 sp1

Exchange版本:Exchange2010sp3 CU8

架構:3臺CAS+4臺MBX

現象:CAS服務器中的一臺(用CAS2表示)系統在意外重啟後無法進入系統。測試同樣無法進入安全模式和最後一次正確配置。

解決過程:

  1. 確認在原有系統基礎上恢復不可行後決定使用重裝的方式進行還原。

根據微軟官方文檔
https://technet.microsoft.com/zh-cn/library/dd876880(v=exchg.141).aspx

提供的信息得知恢復操作需要滿足先決條件:

執行恢復操作的服務器必須運行與丟失服務器相同的操作系統;

執行恢復操作的服務器必須與丟失服務器擁有相同的性能特征和硬件配置;

可在安裝了客戶端訪問、集線器傳輸、郵箱或統一消息服務器角色的 Exchange 2010 服務器上運行。

客戶處的Exchange2010環境中沒有安裝邊緣服務器的角色,完全能滿足上述條件。另外能確定的時原有Exchange服務器上安裝程序的路徑為默認值,使得恢復過程變得更加便利,不需要指定自定義的安裝路徑。

  1. 具體操作辦法:首先在AD中重置CAS2的計算機賬號>在原有實體機上安裝Server 2008 R2 sp1系統並更新補丁至與其他兩臺CAS一致>修改計算機名為CAS2>安裝必須的組件後在新裝服務器上執行Setup /m:RecoverServer。

整個恢復過程還算順利,等用戶信息同步完成後測試新裝CAS2的OWA和outlook功能都能正常使用。最後將新加服務器加入NLB群集即可。如果環境中使用的是硬件負載設備,只需啟用對應IP策略即可。

本以為事情就這樣結束了,事實觀察使用兩周的情況都還不錯,沒有出現批量用戶報障。大約一個月後的周一,上班時大量用戶反饋outlook彈窗需要輸入密碼,並且在輸入密碼後也不能使用。馬上分別檢查三臺CAS的owa訪問是否正常,恰好是CAS2無法正常使用:可以彈出登錄界面,輸入密碼後無法進行進一步跳轉。使用郵箱管理員賬號亦無法登錄至該服務器,本地管理員可登陸。登陸後立即做了基礎診斷:

網絡配置正常,與DC和其他Exchange服務器之間網絡暢通;

系統資源正常:磁盤使用情況、CPU和內存在使用率都在正常範圍內;

切換其他域管理員賬號登錄提示無法建立信任關系。

為了進一步確認是脫域,我使用nltest測試了域安全通道信任關系:

nltest /server:servername /sc_query:domainname

系統提示Status = 1355 0x54b ERROR_NO_SUCH_DOMAIN

為了盡快恢復業務,沒有深究脫域的原因而是恢復信任關系。通常客戶端脫域之後最簡單的處理辦法時退域之後重新加域即可,比較簡單的判斷是否正常的手段是檢查網絡適配器是否連接到了域網絡,根據我的經驗脫域的計算機多顯示為公用網絡。

郵箱服務器不便采用退域重新加域的方式處理,防止在退域的時候AD數據庫會抹除部分Exchange服務器特有的信息,需要使用netdom工具來重建信任關系

在脫域的服務器上運行

netdom resetpwd /Server:dcname /ud:mailadminaccount /pd:password

有驚無險,重啟後郵箱恢復正常,不過整個處理的過程倒是循序漸進。後續檢查了系統日誌試圖確認服務器脫域的原因,未找到有相關信息。微軟論壇求助等多方資源求助無果後便沒再深究。

造成服務器脫域的因素時多方面的,諸如計算機重名、長時間關機未與域通信或者sid沖突等都有可能。

【總結】

兩次故障都能恢復有一個很大的條件時,當前客戶環境是3CAS提供服務,配置信息可以從正常服務器上同步過來。其中藍屏和脫域的恢復都需要的一個動作是重置計算機賬號,而不是直接刪除。這是比較關鍵的點,既能保留原有信息又防止因為計算機名沖突SID不一致導致無法正常入域的現象。

再者,命令處理的方式對於問題的診斷和恢復都更有針對性,對定位問題提供了更明確的方向。

Exchange服務器系統藍屏及脫域後解決辦法