糯米文學吧

位置:首頁 > IT認證 > H3C認證

h3c交換機典型故障歸類和排除方法

H3C認證2.79W

一台交換機設備無論性能多麼好,都會存在潛在的故障問題,就像人一樣,無論多麼健康,也總會出現有一些小毛病,能夠做到防範於未然當然是好事,但是對於這個作為網絡重臣的交換機來説,日夜“操勞”不斷,偶爾出現問題也是在所難免的,所以當故障出現了,就要正視故障,及時地解決問題。

h3c交換機典型故障歸類和排除方法

儘管交換機的故障多種多樣,但是問題的根源就如:“天下武功出少林”一樣,萬變不離其宗,殊途同歸,而且經常出現的也就這麼幾種,下面為大家歸納了幾類典型的故障及其解決方法,讀者也大可以觸類旁通,舉一反三,希望對交換機的日常故障處理工作有所幫助。

  1.電源故障

故障現象:開啟交換機後,交換機沒有正常運作,而且發現面板上的POWER指示燈並沒有亮,而且風扇也不轉動。

故障原因:這種故障通常是由於外部供電環境的不穩定,或者是電源線路老化,又或者是由於遭受雷擊等而導致電源損壞或者風扇停止,從而導致交換機不能正常工作。還有可能是由於電源緣故而導致交換機機內的其他部件壞的損壞。

解決方法:這類問題很容易發現也很容易解決,當發生這種故障時,首先檢查電源系統,看看供電插座有沒有電流,電壓是否正常。要是供電正常的話,那就要檢查電源線是否有所損壞,有沒有鬆動等,若電源線損壞的話就更換一條,鬆動了的話就重新插好。

如果問題還沒有解決,那問題就應該落在交換機的電源或者是機內的其他部件損壞了。預防方法也比較簡單,首先要做的就是保證外部供電環境的穩定,這可以通過引入獨立的電力線來提供獨立的電源,並添加穩壓器來避免瞬間高壓或低壓象。

可能的話,建議最好配置UPS系統(不間斷電源)。還有的就是採取必要的避雷措施,以防雷電對交換機造成的損害。

  2.電路板故障

故障現象:有一個電腦室經常出現一部分電腦不能訪問服務器的現象。一開始以為是網絡佈線不規範和網卡設置被學生修改了,所以機房管理員經常對網線進行測試和重新設置系統的網絡配置。但是經過反覆維修,這些電腦的網絡連接還是時好時壞,到最後,這一組的電腦全部都不能上網了,同時也發現連接這組電腦的交換機的所有連接指示燈都在不規則地亂閃。

故障原因:交換機一般是由主電路板和供電電路板組成,造成這種故障一般都是這兩個部分出現了問題。而造成電路板不能正常工作的主要因素有:電路板上的元器件受損或基板不良,硬件工注不合適和硬件更新後以及由於兼容問題而造成的電路板塊類型不合適等。

解決方法:首先確定究竟是主電路板還是供電電路板出現問題,先從電源部分開始檢查,用萬能表在去掉主電路板負載的情況下通電測量,看測量出的指標是否正常,若不正常,則換用一個AT電源,輸入電源到主電路板,交換機前面板的指示燈恢復正常的亮度和顏色,而所連接這台交換機的電腦正常互訪,就説明是供電電路板出現了問題。若以上操作無效的話,問題就應該是出現在主電路板上了。

  3.端口故障

故障現象:整個網絡的運作正常,但個別的機器不能正常通信。

故障原因:這是交換機故障中最常見的,如果光纖插頭或RJ-45端口髒了,可能導致端口污染而不能正常通信。還有,平常很多人都喜歡帶電插拔接頭,在理論上説似乎並沒有不妥,但實際上經常這樣的話就無意中增加了端口的故障發生率;在搬運時的不小心,也可能導致端口物理損壞;購買的水晶頭尺寸偏大,插入交換機時,也很容易破壞端口。此外,如果接在端口上的雙絞線有一段暴露在室外,萬一這根電纜被雷電擊中,就會導致所連交換機端口被擊壞。

解決方法:一般情況下,端口故障是個別的端口損壞,先檢查出現問題的計算機,在排除了端口所連計算機的故障後,可以通過更換所連端口,來判斷其是否端口問題,若更換端口後問題能解決的話,再進一步判斷是端口的何種緣故。關閉電源後,用酒精棉球清洗端口,如果端口確實被損壞,那就只能更換端口了。此外,無論是光纖端口還是雙絞線的RJ-45端口,在插拔接頭時一定要小心,建議插拔時最好不要帶電操作。

  4.模塊故障

故障現象:交換機是由很多模塊組成,如堆疊模塊、管理模塊(即控制模塊)、擴展模塊等,這些模塊都有不同的外部接口,若發生故障都比較容易發現,有些可以直接查看得出,有的可以通過模塊上的指示燈來辨別故障。

故障原因:交換機是的多種模塊,如果插拔模塊時不小心,或者是搬運交換機時模塊受到受到碰撞,都可能導致此類故障的發生。還可能是由於電源不穩定等情況造成的。

解決方法:這些模塊發生故障的機率很小,不過一旦出現問題,就會遭受巨大的經濟損失,所以在保持電源穩定的前提下,拔插模塊或搬運交換機時要加倍小心。在排除此類故障時,首先確保交換機及模塊的電源常供應,然後檢查各個模塊是否插在正確的位置上,最後檢查連接模塊的線纜是否正常。而解決此類故障的方法,就只能夠與相關供應商聯繫爭取更換了。

  5.背板故障:

故障現象:外部供電環境正常,但交換機的各個內部模塊都不能正常工作。

故障原因:因為交換機的各個模塊都是接插在背板上的,如果交換機在潮濕的環境下工作,電路板受潮發生短路,又或者是元器件因高温、雷擊等而受損,這些情況都會使電路板發生故障,而不能正常工作。

解決方法:如果外部電源正常供電,但交換機的各個內部模塊都不能正常工作,那就可能是背板壞了,這種故障的解決方法無他,只有一個,那就是更換背板,因為修復補不了的。為了有效防止這種故障的發生,最重要的是為交換機提供一個符合廠商所提供的標準指標的工作環境。

  6.配置不當:

故障現象:將某工作站連接到交換機上的幾個端口後,無法Ping通局域網內其它電腦,但桌面上“本地連接”圖標仍然顯示網絡連通。

故障原因:由於各種交換機配置都不一樣,管理員在配置交換機時會很容易出現配置錯誤。

解決方法:先檢查這些被Ping的電腦是否安裝有防火牆,三層交換機可以設置VLAN(虛擬局域網),不同VLAN內的工作站在沒設置路由的情況下無法Ping通,因此要修改VLAN的設置,使它們在一個VLAN中,或設置路由使VLAN之間可以通訊。這類故障有時很難發現,需要一定的經驗積累,在配置之前,最好先閲讀説明書。如果不能確保用户的配置有問題,請先恢復出廠默認配置,然後再一步一步地配置。

  7.系統數據錯誤

故障現象:交換機出現滿載、丟包、錯包等情況,甚至會造成系統全方位的故障,影響局域網的通信。

故障原因:這類故障的起因跟常見的Windows、Linux一樣,由於當時設計的原因,存在着一些漏洞,在一定的條件下,這些漏洞將會發生系統數據錯誤的故障。

解決方法:交換機系統提供了諸如Web、TFTP等方式來下載並更新系統,所以有關管理人員要多關注設備廠商的網站,如果推出新的系統或新的補丁,應當及時更新,以防止錯誤的發生。

  總結:

除了以上所列的幾點之外,連接電纜和配線架跳線的問題(如果這些連接電纜內的纜芯或跳線發生了短路、斷路或虛接,就會形成通信系統的故障)也時有發生,此外,局數據錯誤也會對整個交換局造成影響,而用户數據被錯誤設置,則會對某個用户產生影響,還有的就是交換機軟件方面的問題,譬如像程序BUG——軟件程序設計存在着缺陷……這些也是應當注意的問題。

總之,一台交換機設備的故障問題難以一一列舉,可行之道當是做好日常防護工作,做好相關的日誌記錄,併為交換機提供一個合適的工作環境,結合相關的經驗,把故障控制在最小的範圍內。

  交換機在網絡中的故障診斷

在一個交換網絡裏,您如何確定從哪裏開始動手查找問題?想深入“透視”一個交換網絡是非常困難的。首先,在2層交換的時候還是橋接轉發方式,但到了3層交換卻有了更高級的特性和轉發規則,例如VLAN。

到了4層交換,就更加複雜了,出現了更高級的轉發和負載均衡技術,故障診斷故障診斷和解決就需要更多的交換機配置知識。

在安裝完一台交換機後,每個交換機的半雙工端口就構成了一個衝突域。如果該端口連接了一個集線器,集線器下面連接若干站點,那麼衝突域會擴大。但隨着交換產品的價格下跌,現在大多數新建的網絡每個交換端口都只連接一個站點。因此,在半雙工連接情況下,衝突域僅針對一個單獨的電纜鏈路。

交換機通常是一個獨立廣播域的一部分,包括串連或者並連的任意數目的其他交換機。如果使用了OSI模型3層的功能,就可以創建多廣播域,廣播域的數目與VLAN數目相等。最極限的情況,如果交換機功能允許,每個端口可以配置為一個獨立的廣播域。可以把這種情況描述為路由到桌面。為每個端口創建一個獨立的廣播域後,故障診斷就會嚴格受限。但是如果我們把每個端口設置為一個單獨的廣播域,交換機在轉發流量的時候,每個端口都需要路由服務,這會佔用交換機CPU的有限資源。在網絡環境中,對每個單獨的端口進行路由請求和應答是非常困難的,我們應該避免這樣的配置。不幸的是,這種情況在實際情況中非常常見,網絡中經常發現服務器全部在一個子網或者廣播域中,所有的客户在另外的子網或者廣播域中。在這種情況下,所有的請求都必須路由。如果維護行為限制在一個單獨的服務器羣裏,那麼考慮把服務器放進單獨的VLAN裏。然後把使用這台服務器的用户放到同一個VLAN。這樣就可以使用2層交換的橋接方式來交換流量,只有很少的請求需要路由。如果服務器支撐多於一個用户區,可以在服務器上多裝一塊網卡來實現到用户的2層交換連接。

  對交換機進行故障診斷的5種技術

可以採取5種基本方式來透視交換機。每一種方法都不同,都有積極或者消極的一面。類似在網絡中遇到的其他問題一樣,沒有一個最好的答案。最合適的方案往往取決於您手中可以利用到的資源(什麼工具可以使用或者以前安裝過什麼工具),而且使用這些技術有可能造成服務中斷。

即使把這些方式組合起來,也不能監測到所連接的網絡,在交換的環境裏面,也不像集線器那樣方便監測。我們幾乎不可能看到通過一個交換機的全部流量。大多數的故障診斷會假設流量會在站點和所連接的服務器之間或經過故障診斷交換機uplink口通過。而實際上如果2台主機直接傳輸信息的話,就不會使用交換機的uplink口或者任何其他的端口來交換流量。除非你知道具體用到哪個端口,否則是監測不到的。

舉個例子,如圖1,一台服務器接入一台交換機。在反映有問題的用户中,一部分是直接與這台交換機相連,另外的一部分用户是由這台交換機的uplink口從其他路由器或者交換機連接上來的。故障報告是訪問服務器“慢”,這樣的故障報告對技術支持工程師來説基本上沒有任何價值。

  方法1:通過TELNET或者串行口接入服務器

高級的網絡技術支持工程師或其他知道交換機密碼的人在進行故障診斷時可以選擇通過TELENET或者交換機的串口登陸,來檢查交換機的配置.

交換機配置可以通過上面提到的2種方法查看,雖然問題不一定是配置引起的。不管問題是操作系統有BUG還是配置不完善,都不能從配置列表中輕易的查看出。配置信息在定位交換機是否像預期的那樣運行上比較有用,但針對故障診斷就不是了。為了驗證交換機的配置,往往需要使用多種的交換機故障診斷方法配合。

很多交換機都帶有實時的故障診斷工具,因為交換機生產廠家和型號的不同,這些故障解決工具的特徵也各不相同。但是要使用好這些工具,必須依靠一定的理論知識和實際經驗。

  方法2:連接到一個空閒端口

最簡單的故障診斷方法是在交換機的空閒端口接入一個監測工具,例如協議分析儀。

把監測工具接入交換機的一個空閒端口,不用中斷服務就可以查看所屬廣播域。該監測工具與廣播域裏的其他站點一樣有相同的權限。

不幸的是,交換機(做為一個多端口的橋接設備)幾乎不轉發流量到監測端口。因為橋接設備就是這樣設計的,流量直轉發到所屬的目的端口,不會去其他的端口。協議分析儀因此幾乎監測不到流量。

交換機在源端口和目的端口之間轉發流量。非常少的流量會轉到其他端口。站點和服務器之間可能每秒鐘會轉發幾千個幀,但是監測端口每分鐘只能看到幾個幀。

轉發到監測端口的流量幾乎全部都是廣播,包含一些零星的目的地址不明的幀。這些零星的幀是由於路由轉發表老化的結果,經常是目的端口不明的幀。一些經驗不夠的技術人員看到這麼高的廣播(接近100%),卻沒有注意到端口利用率很低,就誤判網絡出現了廣播風暴,其實不是。

這樣查看交換網絡幾乎沒有用,因為監測工具必須獲取流量。獲得的流量或者對廣播域的查詢對網絡搜索和發現其他類型問題是有很有幫助的,但對解決用户連接慢的問題並沒有多大的'幫助。

對大多數交換機來説,都有一個更好的選擇,可以把需要監測的端口流量備份到一個專門的空閒口。這種技術通常稱為端口鏡像。

大多數交換機廠家都提供備份或鏡像流量的功能,可以把監測工具接入交換機一個專門配置過的端口。老的交換機必須指定一個專門的監測口做為鏡像口,但現在大多數新的交換機可以指定任何一個端口做為鏡像口

雖然交換機廠家實現鏡像的方式各不相同,但是有一些基本相同的監測選項。值得注意的是,幾乎在所有的情況下,交換機在轉發流量到鏡像口的時候,同時把錯誤都過濾掉了。對於故障診斷來説,這意味着同時過濾掉了有用的信息。

此外,實際操作當中需要我們通過控制口(交換機的RS232端口),或者Telnet進程來配置鏡像。這意味着除了監測工具之外,我們通常還需要帶一台電腦或者終端來對交換機進行配置。

鏡像端口經常只是一個“監聽”端口,不過很多交換機廠家允許把該端口配置成全雙工的。配置了鏡像口,監測工具就可以查看報告連接慢的主機和服務器之間的實際流量的備份。鏡像口可以只監測交換機的任意一個端口,甚至可以是Uplink口,也可以同時監測交換機的多個端口。但是同時監測的端口很多的話,過高的流量就有可能會超過鏡像口的接收能力。

監測端口的輸出能力是一個很重要的問題。鏡像口可以收,也可以發。在配置的時候,經常關掉了鏡像口發的功能。但不管有沒有關掉鏡像口發的功能(不管鏡像口是全雙工或者不是),鏡像口的接收能力都是有限制的。如果被監測的全雙工端口的速率和鏡像口是一樣的話,交換機在轉發流量的時候很容易就會丟包,但是交換機不會通知您。

假設您在監測一個以100M全雙工速率連接到交換機的服務器的話,那麼服務器在全雙工工作的時候,服務器的收發速率都是100M,那麼總共就有了200M。然而交換機的100M鏡像口最多隻能接收100M的流量。所以任何交換機的端口(全雙工的)利用率超過50%的時候,鏡像口接收到的包就會有丟失。

如果把多個端口鏡像到一個端口,丟包的問題就會更加的嚴重。因為大多數交換機都工作在低容量,這個問題並不會被立刻注意到。大多數用户連接的平均利用率都很低。只是偶爾會有流量的突發。

如果選擇一個高速的鏡像口,就可以減少丟包的問題。例如把圖6中的100M鏡像口換成1000M,那麼就可以很容易的接收200M的監測流量。