解決資料中心網速變慢的八個檢查必備步驟
在資料中心執行過程中,不可避免會出現各種各樣的問題。若網路發生資訊不通、網頁不能瀏覽等連通性故障時,這類故障現象的故障點很容易檢查和定位,解決起來並不困難。但是網路如果是通的,而網速變慢。遇到這種“軟”故障,就比較令人頭痛,有的人往往就會束手無策。一旦遇到這類問題時,需要有一個定位 問題的基本思路,這樣就能幫助我們在日常維護中有條不紊地找到問題的真實原因。
第一:檢查裝置CPU佔用率
資料中心裡的裝置少則數百,多則上萬,不可能都去依依檢查CPU。需要先明確哪個業務慢,瞭解這個業務在資料中心裡需要經過哪些裝置,然後檢查這些裝置的CPU佔用率。當然如果有網管軟體,通過設定CPU閾值,可以監控所有裝置的 CPU佔用率,則可以很快發現CPU異常的裝置。一般如果裝置CPU佔用率在40%以下,則可以跳過這項,直接檢查第二步,如果在60%以上的話,建議您 最好看一下。一般是裝置受到了網路攻擊。有的時候網路攻擊不僅影響網速慢,甚至會中斷業務。網管可以監控可疑的埠,網路流量異常的這一段時間,通過網路流量變化會看到突起突落,明顯的人為痕跡。根據對以上可疑現象的分析,初步定位網路業務中斷事故是人為攻擊造成,採集了網路流量急劇上升時的異常流量,證明的確是有網路攻擊。針對網路攻擊也有進一步的排查方法,在此不一一詳述。
第二:日誌資訊和其它異常資訊
現在的電子裝置可維護性都比較好,執行出現異常時都會有一些資訊列印,以便提示 使用者裝置出了問題,便於使用者採取解決問題的措施。裝置日誌、異常記錄等對於診斷問題願意非常有用,一些比如埠DOWN、配置錯誤、硬體問題等簡單故障,通過打印出來的資訊就可以明確。對於廣播流量較多的資料中心,要注意裝置的埠流量是否有異常,是否可能出現了網路環路,網路環路是在資料中心經常發生的網路故障。主要是由於裝置故障、STP/RRPP等二層環路協議失效、人為錯誤配置所致。這類問題通過觀察埠的流量很好排除。因此,要檢查這些裝置的日誌和異常資訊記錄。
第三:利用PING來檢驗業務是否正常
PING是用來診斷網路故障最簡單明瞭的手段,現在網路上流行的Xping、Multiping、網管軟體等都是基本PING功能實現的,通過PING業務沿路的各個裝置就可以迅速判定故障裝置。一般PING的結果基本會顯示出哪個裝置可能存在網路問題。
第四:檢查埠雙工的狀態。伺服器的網絡卡、網路裝置埠、防火牆埠等裝置的工作方式可以為全雙工或半雙工
當伺服器、交換機的工作狀態不匹配,如伺服器、工作站網絡卡被設定為全雙狀態,而交換機等都工作在半雙工時,就會產生大量碰撞幀和一些FCS校驗錯誤幀,訪問 速度將變得非常慢。從伺服器上拷貝一個100Mb的檔案可能需要30分鐘,所以網速變慢也要檢查下裝置埠雙工是否存在不一致的問題。
第五:檢查網線、光纖、光模組這些互連器件的問題
網線的製作方式對網路傳輸速度的影響是非常大的,如果不按照 正規的標準制作網線,那麼來自網線自身的背景噪音以及內部串擾就會降低網路傳輸速度。還有光纖和光模組如果質量不佳,容易產品大量的錯包,影響網速。還要的光模組收發功率不穩定,導致傳輸的資料出現問題,這些故障都是容易影響網速慢的最常見的原因。在資料中心裡,幾乎天天都會有更換網線、光纖或光模組的工 作。這些都是易消耗的器件。
第六:埠UP/DOWN問題
如果出現了埠的UP/DOWN,自然會引起業務時斷時續,網速就慢。造成端口出現UP/DOWN的原因也可能是多方面的。比如:光纖架、跳線架有問題,鏈路質量不好;網線,光纖出了問題;裝置兩端配置速率雙工不一致等等都會造成端 口的UP/DOWN,一般的裝置端口出現了UP/DOWN都會有記錄,或者在網管上有記錄,這樣使用者就可以通過檢查記錄,迅速排除掉故障。
第七:對比測試
通過業務測試。比如玩傳奇遊戲卡,玩其它遊戲沒有問題,那一般是傳奇伺服器的問題。另外為何明確故障問題,還可以在上游裝置上的一個業務埠下FTP本地網路的一個大檔案,在本地裝置上的一個業務口下同時FTP同一網站的同一電影檔案,比較下載速度,立刻可以知道本地裝置有沒有問題。
第八:檢查是否應用伺服器是否有病毒
蠕蟲、紅色程式碼、藍色程式碼、尼姆達等病毒,可使計算機執行變慢,造成網路 堵塞。如蠕蟲病毒對網路速度的影響嚴重,危害性極大。這種病毒導致被感染的使用者只要一上網就不停地往外發郵件,成百上千的這種垃圾郵件有的排著隊往外發送,有的又成批成批地被退回來堆在伺服器上,造成伺服器繁忙或者資料中心網路擁塞,網速變慢。所以需要在資料中心內部署防火牆裝置,在伺服器上安裝防毒軟 件,並保持實時更新。週期性地檢查伺服器是否有中病毒的情況。
網速慢是一個比較複雜問題,隨著網路規模的不斷擴大和應用的複雜,網路安全問題越來越多,這類問題也越來越不好分析。對於出現網速變慢的故障時,可以採用以上的八個步驟去逐一排查,在絕大多數情況下,都可以解決問題。如果通過這些步驟仍找不出異常的地方,那就需要專業的技術人員深入分析了,可能需要 資深的網路專家或者裝置廠家的工程師進一步深入排查。總之,只要是問題總會露出一些蛛絲馬跡,我們這些資料中心的工程師不是在時刻準備著解決問題,就是在解決問題的路上。
(來源:51CTO)