網路故障和網路診斷工具(2.0)
網路故障管理系統
使用ping的方法只能針對小型網路,在一些大型網路中一般用網路故障管理軟體,一個網路的故障管理系統不但能反應網路平時執行時的故障狀況,更應該在發生重大網路故障時,快速準確地報告、定位和排除故障。
網路故障管理系統包括:
navis NFM故障管理系統
netcool故障管理軟體
navis NFM(network fault management)網路故障管理系統是朗訊科技網路執行系列軟體中最著名的產品。其功能強大,能夠提供實時故障檢測和相關處理,快速定位故障,關聯故障,並可提供多廠家、多技術和多業務區的集中管理。另外,“現成的方案”可以快速進行工程實施,並提供本地化的客戶和技術支援。
navis NFM核心功能包括:
告警資訊採集、瀏覽、過濾、分類等。
支援資訊壓縮,可根據資訊發生的次數、數值、時間和分組進行壓縮。
告警門限設定和級別升級(critical、major、minor、other、cleared)
自動的告警通知和告警處理功能(尋呼、傳送電子郵件、生成工單、網元重新啟動等)
多種顏色的故障資訊顯示和圖形化的網路地圖顯示。
支援開放的介面和API(ASCII、SNMPv1~v3、CORBA、X.25、TL1)
遠端登入到網元和網元管理系統
NFM可以根據使用者的級別,實現分權和分級管理。系統管理員可以為不同的使用者設定不同的許可權,只定義該使用者關心的網元的故障資訊的瀏覽、查詢、操作和遠端登入等功能。每個使用者用自己的賬戶登入系統後,只能看到許可權之內的資訊,以及執行被允許的各種操作。同時,NFM還備有使用者使用記錄,從而實現對人員使用情況的管理,加強對整個系統的安全保障。
NFM提供強大的告警抑制功能,可以對非告警類報告提供過濾;根據各種門限進行告警抑制;告警回恢復後,NFM可以自動清除原告警,並將其轉入已清除告警中;對告警進行域內、域間的相關性處理等,從而大幅度地減少告警的數量,並有效地減少分析故障根源所花費的時間。
使用者還可以將客戶資訊和服務相關資料整合到navis NFM資料庫,NFM可實時地顯示與故障相關的客戶和服務資料資訊,產生針對特定客戶和服務的故障報告,並在故障影響客戶之前對其進行評估。
資訊時代的來臨,使得計算機網路技術迅速普及和不斷髮展,作為資訊社會的基礎設施,無論各級行政機關、科研院所,還是部隊、學校、企事業單位都十分重視它的建設和使用。為了更好地發揮計算機網路的作用,更好的利用已有的網路資源,就必須做好網路故障修復工作。一般的網路故障修復對管理員來說當然簡單,但是專業的、深層次的網路故障只有經過專業訓練,並藉助專業軟體和工具才能診斷,並最終排除。
網路故障診斷
網路故障診斷是管好、用好網路,使網路發揮最大作用的重要技術工作。
網路故障診斷是從故障現象出發,以網路診斷工具為手段獲取診斷資訊,確定網路故障點,查詢問題的根源,排除故障,恢復網路的正常執行。
網路故障通常有以下幾種可能:
物理層中物理裝置相互連線失敗或者硬體和線路本身的問題
資料鏈路層的網路裝置的介面配置問題
網路層網路協議配置或操作錯誤
傳輸層的裝置效能或通訊擁塞問題
網路應用程式錯誤
診斷網路故障的過程應該沿著OSI七層模型從物理層開始向上進行。首先檢查物理層,然後檢查資料鏈路層,以此類推,確定故障點。
故障診斷步驟
故障診斷應該實現三方面的目的:
確定網路的故障點,排除故障,恢復網路的正常執行
發現網路中的故障點的原因,改善優化網路的效能
觀察網路的執行狀況,及時預測網路通訊質量
故障診斷的步驟如下:
(1)確定故障的具體現象,分析造成這種故障現象的原因。例如,主機不響應客戶請求服務。可能的故障原因是主機配置問題、介面卡故障或路由器配置命令丟失等。
(2)收集需要的用於幫助隔離可能故障原因的資訊。從網路管理系統、協議分析跟蹤、路由器診斷命令的輸出報告或軟體說明書中收集有用的資訊
(3)根據收集到的情況考慮可能的故障原因,排除某些故障原因。例如,根據某些資料可以排除硬體故障,把注意力放在軟體原因上。
(4)根據最後的可能故障原因,建立一個診斷計劃。開始僅用一個最可能的故障原因進行診斷活動,這樣可以容易恢復到故障的原始狀態。如果一次同時考慮多個故障原因,返回故障原始狀態就困難多了。
(5)執行診斷計劃,認真做好每一步的測試和觀察,每改變一個引數都要確認其結果。分析結果,確定問題是否解決,如果沒有解決,繼續下去,直到故障現象消失。
故障排除過程
在開始動手排除故障之前,在記事本上將故障現象認真仔細記錄下來,觀察和記錄時一定要注意細節,因為有時正是一些最小的細節使整個問題變得明朗化。
1.識別收集故障現象
作為管理員,在排除故障之前,必須確切地知道網路上到底出了什麼毛病。知道出了什麼問題並能夠及時識別,是成功排除故障最重要的步驟。為了與故障現象進行對比,必須知道系統在正常情況下是怎樣工作的,反之,是不好對問題和故障進行定位的。
識別收集故障現象時,應該向操作者詢問以下幾個問題:
(1)當被記錄的故障發生時,正在執行什麼程序(即操作者正在對計算機進行什麼操作)?
(2)這個程序以前執行過嗎?
(3)以前這個程序執行是否成功?
(4)這個程序最後一次成功執行是什麼時候?
(5)從那時起哪些發生了改變?
帶著這些疑問來了解並分析問題才能對症下藥來排除故障
2.對故障現象詳細描述
當處理由操作員報告的問題時,對故障現象的描述顯得尤為重要。如果僅憑他們的一面之詞,有時很難下結論,這時就需要網路管理員親自操作出錯的程式,並注意出錯資訊。例如,在使用web瀏覽時,無論輸入哪個網站都返回“該頁無法顯示”之類的資訊。使用ping命令時,無論ping哪個IP地址都顯示超時連線資訊等。諸如此類的出錯訊息會縮小問題範圍提供許多有價值的資訊。對此在排除故障前,可以按以下步驟執行:
(1)收集有關故障現象的資訊
(2)對問題和故障現象進行詳細的描述
(3)注意細節
(4)把所有的問題都記錄下來。
(5)不要匆忙下結論
3.對計算機裝置本身的執行狀況進行檢查
作為網路管理員,應對計算機裝置本身的執行狀況進行檢查:
(1)檢查作業系統的執行、網路協議、網路地址的設定、網路介面裝置驅動程式和裝置收發網路資料包的情況。
(2)檢查網路介面裝置與網路接入裝置的連線狀況
(3)檢查伺服器到網路介面裝置的連線狀況
(4)檢查網路連線裝置執行狀況
(5)檢查網路主幹裝置流量狀況
(6)檢查埠資料流量的大小,檢查重發包、錯包和丟包的比例,檢查裝置上資料包發生碰撞的比例,檢查流量情況的日誌檔案內容,注意擁塞控制的報警閥值設定
4.列舉可能導致錯誤的原因
作為網路管理員,則應考慮導致無法檢視資訊的原因可能有哪些,如網絡卡硬體故障、網路連線故障、網路裝置(hub)故障、TCP/IP協議設定不當等。這裡需要注意的是:不要著急下結論,可以根據出錯的可能性把這些原因按優先級別進行排序,一個個先後排除。
5.縮小搜尋範圍
對所有列出可能導致錯誤的原因逐一進行測試,而且不要根據一次測試,就斷定某一區域的網路是執行不正常或不正常。另外,也不要在自己認為已經確定了的第一個錯誤上停下來,應知道測試完為止。
除了測試外,網路管理員還要注意,千萬不要忘記去看一看網絡卡、hub、modem、路由器面板上的LED指示燈,通常情況下:
綠燈表示連線正常(modem需要幾個綠燈和紅燈都要亮);
紅燈表示連線故障
不亮表示無連線或線路不通
長亮表示廣播風暴
指示燈有規律地閃爍才是網路正常執行的標誌
同時不要忘記記錄所有觀察、測試的手段和結果
6.隔離錯誤
經過一番檢查後,基本上知道了故障的部位。對於計算機的錯誤,可以開始檢查:
該計算機網絡卡是否安裝好
TCP/IP協議是否安裝並設定正確
web瀏覽器的連線設定是否得當等一切與已知故障現象有關的內容。
處理完問題後,作為網路管理員,還必須搞清楚故障是如何發生的,是什麼原因導致了故障的發生,以後如何避免類似故障的發生,擬定相應的對策,採取必要的措施,制定嚴格的規章制度。
故障原因
雖然故障原因多種多樣,但總的來講不外乎就是硬體問題和軟體問題。說得在確切一些,這些問題就是網路連線性的問題、配置檔案選項問題和網路協議問題。
1.網路連線性
網路連線性是故障發生後首先應當考慮的問題。連通性的問題通常涉及網絡卡、跳線、資訊插座、網線、hub、交換機、modem等裝置和通訊介質。其中,任何一個裝置的損壞,都會導致網路連線的中斷。連通性通常可以採用軟體和硬體工具進行測試驗證。如某一臺計算機不能瀏覽web,網路管理員應當考慮以下情況:
網路連通嗎?
看得到網路上的芳鄰嗎?
可以收發電子郵件嗎?
ping得到網路內的計算機嗎?
只要其中一項回答為yes,那就可以斷定本機到hub的連通性沒有問題。再在那臺計算機上重複上述操作,只要有一項回答為yes,則肯定本機到“資料來源”的連通性沒有問題。當然,即使都回答no,也不能表明連通性肯定有問題,也有可能是其它問題,如計算機的網路協議的配置出現問題也會導致上述現象的發生。當然,還要看一看網絡卡和hub、交換機介面上的指示燈是否正常。
如果排除了由於計算機網路協議配置不當而導致故障的可能,接下來要做的事情就複雜了。檢視網絡卡和hub、交換機的指示燈是否正常,測量網線是否暢通。
2.配置檔案和選項
伺服器、計算機都有配置選項,配置檔案和配置選項設定不當,同樣會導致網路故障。如伺服器許可權的設定不當,會導致資源無法共享的故障;計算機網絡卡配置不當,會導致無法連線的故障。當網路內所有的服務都無法實現時,應當檢查hub、交換機。
3.使用診斷工具
ping無疑是網路中使用最頻繁的小工具,它主要用於確定網路的連通性問題。ping程式使用ICMP(網際訊息控制協議)來簡單地傳送一個網路資料包並請求應答,接收到請求的目的主機再次使用ICMP發回相同的資料,於是ping便可對每個包的傳送和接收時間進行報告,並報告無影響包的百分比。這在確定網路是否正確連線,以及網路連線的狀況(包丟失率)時十分有用。ping是Windows作業系統整合的TCP/IP應用程式之一,可以在“開始”--“執行”中直接執行。
ping 主機名
ping IP 地址
ping 本地計算機名(即執行操作的計算機)
如ping Lily 或 ping 本地IP地址;
如ping 172.0.0.1(任何一臺計算機都會將172.0.0.1視為自己的IP地址)
使用ping命令後常見的出錯資訊通常分為以下4種。
(1)unkonwn host(不知名主機)
這種出錯資訊的意思是,該遠端主機的名字不能被命名伺服器轉換成IP地址。故障原因可能是命名伺服器有故障,或者其名字不正確,或者網路管理員的系統與遠端主機之間的通訊線路故障。這種情況下螢幕將會提示:
C:\Windows>ping www.163.net
Unkonwn host www.163.net
C:\windows>
(2)network UNreachable(網路不能到達)
這是本地系統沒有到達遠端系統的路由,可檢查路由器的配置,如果沒有路由,可新增。
(3)no answer(無響應)
即遠端系統沒有響應。這種故障說明本地系統有一條中心主機的路由,但卻接收不到它發給該中心的任何分組報文。故障原因可能是中心主機沒有工作,本地或中心主機配置不正確,本地或中心的路由器沒有工作,通訊線路有故障或中心主機存在路由選擇問題。
(4)timed out(超時)
即臺站與中心的連線超時,資料包全丟。故障的原因可能是到路由器的連線問題或路由器不能通過,也可能是中心主機已經關機或宕機。此時,螢幕顯示:
C:\windows>ping 10.11.1.1
ping 10.11.1.1 with 32 bytes of data:
request timed out.
request timed out.
request timed out.
request timed out.
ping statistics for 10.11.1.1:
packets:sent=4,received=0,lost=4(100% lost),
approximate round trip in milli-seconds:
minimum=0ms,maximum=0ms,average=0ms
C:\windows
4.使用硬體工具網路測試儀
使用網路測試儀測試網線
網路故障的內容和故障排除的步驟
網路故障的內容有:
協議故障、連通性故障、DDOS攻擊、配置、裝置故障。
網路故障的排除是計算機專業人員面臨的最困難的任務之一。問題往往出現在工作過程中,或者在任務有限期要求的時候,要快速修復出現的問題,困難就會很大。
網路發生故障後,首先要診斷是協議故障、連通性故障、DDOS攻擊、還是配置、裝置故障。找到問題的來源,然後進行故障排除。
網路故障的排除過程大致可分為5個步驟。
(1)定義問題
這一步非常重要,卻經常被人們忽視。如果對整個問題沒有進行全面的瞭解,就有可能將大量的時間花在對症狀的研究上,而不是對問題的原因進行探討。這個階段所需的工具僅僅是紙、筆和良好的接受能力。聽取客戶或者網路使用者的意見是最好的資訊來源。記住,儘管您可能知道網路是如何工作的,並且可以發現故障的技術原因,但那些每天都在使用網路的人在問題出現之前或者之後都在網路上工作,並且可能會回想起導致故障的事件。通過從他們的意見中汲取資訊,可以從紛繁複雜的各種可能的故障原因中理出頭緒。列出故障發生之前的事件發生順序將有助於瞭解問題。您可以希望能建立一張表格系統地向用戶提出以下一些問題(具體問題將由具體的情況而定):
您是在何時注意到問題或者錯誤的?
計算機最近是否進行了移動?
最近是否在軟體或者硬體上有所更改?
工作進行了變化嗎?是否有某些東西砸在計算機上面?咖啡或者蘇打水是否曾經灑在鍵盤上?
問題發生的確切時間是什麼時候?是在啟動的過程中嗎?在午餐後?僅僅在星期一的商務活動中?在傳送電子郵件之後?
您可以使問題或者錯誤再現嗎?如果可以,怎樣產生錯誤?
問題或者錯誤的症狀怎樣?
描述計算機的任何變化(如噪聲、螢幕更改和磁碟工作狀況等)
使用者(甚至那些沒有技術背景的人)在收集資訊的過程中都可能非常有幫助,只要您有效地對他們提出一些問題。例如,你可以問他們當網路出現何種表現時讓他們感覺到出現了問題。使用者的觀察可能會構成解決網路問題的基礎。這些問題包括:
“網路真慢”
“我不能連線到伺服器”
“我曾經連線到伺服器上,但是後來又掉線了”
“我的一個應用程式不能執行”
“我不能列印”
當您繼續提出問題的時候,就可以逐步縮小範圍
(2)找出原因
這一步是隔離問題。首先排除明顯的問題,然後再排除複雜的、隱晦的問題,目標將重點縮小為一個或者兩個分類之內。
要確保您親眼見到故障。如果可能的話,讓某人為您演示一下發生錯誤的情況。如果這是一個操作人員引起的問題,那麼很重要的一點是觀察問題是如何發生的,以及問題造成的後果。
最難以隔離的問題是間斷性發生的問題,並且,它們似乎從來不在您在場的時候發生。解決這類問題的唯一辦法是重新建立產生問題的環境。有時,使用排除法是最好的方式。這個過程需要時間和耐心。使用者也應該對問題出現之前和期間的所做所為進行記錄。這可以有助於告知使用者在計算機出現問題的時候不要對它進行任何操作,並且及時通知您,這種方式可以保證現場不被破壞。
儘管收集的資訊為隔離問題提供了基礎,但管理員也應該參考記錄的基準資訊,並與當前的網路操作進行比較。在與建立基準條件相同的環境下重新進行測試,然後比較兩個結果。兩者之間的任何變化都可能指示出問題的原因。
資訊的收集包括對網路進行掃描,以及尋找問題的明顯原因。快速掃描包括對網路的歷史記錄進行查詢,以確定問題以前是否發生過,如果是的話,是否存在記錄在案的解決辦法。
(3)計劃修復
在縮小了研究的範圍之後,就可以開始下一過程:排除
根據目前已經掌握的情況制定一個隔離問題的方法。首先嚐試使用最顯而易見的或者最簡單的方法進行排除,然後再採用更復雜和麻煩的方法。必須對過程中的每個步驟都進行記錄,以及每個操作和該操作的結果。
在制定好計劃後,必須嚴格遵循計劃的步驟。隨意的行為可能會導致問題的出現。如果第一個計劃沒有成功(非常有可能),那麼,應在先前計劃的基礎上重新制定一個計劃。一定要對前一個計劃中所做的任何假設進行參考、重新檢查和重新評估。
在確定了問題後,或者對缺陷進行修復,或者替換有缺陷的部件。如果問題是與軟體有關的,那麼一定要對前後的變化進行記錄。
(4)證實結果
在進行修復之後,如果沒有證實結果如何,就不能下結論說已經成功地完成了任務。您應該確保問題不復存在了。請使用者對問題的解決進行測試和驗證。您也應該確保修復沒有帶來新的問題。不僅要證實您已經修復了問題,而且要確保您的操作沒有對網路的其它任何部分帶來負面影響。
(5)對輸出進行記錄
最後,對問題和修復進行記錄。記錄故障排除過程的收穫非常有益。沒有任何東西可以去掉您排除故障的經驗,並且,每個新問題都為您提供了一個豐富經驗的機會。在您的技術資料庫中保留了一個修復過程的備份。這樣,當問題(或類似問題)再次出現的時候就非常有用了。對排除故障的過程進行記錄是建立、保持和共享經驗的一種方式。
要記住,您所做的任何更改都可能會影響基準條件。您可能需要對網路的基準進行更新,以備未來出現問題時使用。
如果對網路統計數字和症狀進行初步瞭解之後,還不能提出一個明顯的問題,那麼排除故障的下一步就是把整個網路分為較小的部分,以幫助隔離出問題產生的地方。