H3C認證

當前位置 /首頁/IT認證/H3C認證/列表

h3c交換機典型故障歸類和排除方法

一臺交換機裝置無論效能多麼好,都會存在潛在的故障問題,就像人一樣,無論多麼健康,也總會出現有一些小毛病,能夠做到防範於未然當然是好事,但是對於這個作為網路重臣的交換機來說,日夜“操勞”不斷,偶爾出現問題也是在所難免的,所以當故障出現了,就要正視故障,及時地解決問題。

h3c交換機典型故障歸類和排除方法

儘管交換機的故障多種多樣,但是問題的根源就如:“天下武功出少林”一樣,萬變不離其宗,殊途同歸,而且經常出現的也就這麼幾種,下面為大家歸納了幾類典型的故障及其解決方法,讀者也大可以觸類旁通,舉一反三,希望對交換機的日常故障處理工作有所幫助。

  1.電源故障

故障現象:開啟交換機後,交換機沒有正常運作,而且發現面板上的POWER指示燈並沒有亮,而且風扇也不轉動。

故障原因:這種故障通常是由於外部供電環境的不穩定,或者是電源線路老化,又或者是由於遭受雷擊等而導致電源損壞或者風扇停止,從而導致交換機不能正常工作。還有可能是由於電源緣故而導致交換機機內的其他部件壞的損壞。

解決方法:這類問題很容易發現也很容易解決,當發生這種故障時,首先檢查電源系統,看看供電插座有沒有電流,電壓是否正常。要是供電正常的話,那就要檢查電源線是否有所損壞,有沒有鬆動等,若電源線損壞的話就更換一條,鬆動了的話就重新插好。

如果問題還沒有解決,那問題就應該落在交換機的電源或者是機內的其他部件損壞了。預防方法也比較簡單,首先要做的就是保證外部供電環境的穩定,這可以通過引入獨立的電力線來提供獨立的電源,並新增穩壓器來避免瞬間高壓或低壓象。

可能的話,建議最好配置UPS系統(不間斷電源)。還有的就是採取必要的避雷措施,以防雷電對交換機造成的損害。

  2.電路板故障

故障現象:有一個電腦室經常出現一部分電腦不能訪問伺服器的現象。一開始以為是網路佈線不規範和網絡卡設定被學生修改了,所以機房管理員經常對網線進行測試和重新設定系統的網路配置。但是經過反覆維修,這些電腦的網路連線還是時好時壞,到最後,這一組的電腦全部都不能上網了,同時也發現連線這組電腦的交換機的所有連線指示燈都在不規則地亂閃。

故障原因:交換機一般是由主電路板和供電電路板組成,造成這種故障一般都是這兩個部分出現了問題。而造成電路板不能正常工作的主要因素有:電路板上的元器件受損或基板不良,硬體工注不合適和硬體更新後以及由於相容問題而造成的電路板塊型別不合適等。

解決方法:首先確定究竟是主電路板還是供電電路板出現問題,先從電源部分開始檢查,用萬能表在去掉主電路板負載的情況下通電測量,看測量出的指標是否正常,若不正常,則換用一個AT電源,輸入電源到主電路板,交換機前面板的指示燈恢復正常的亮度和顏色,而所連線這臺交換機的電腦正常互訪,就說明是供電電路板出現了問題。若以上操作無效的話,問題就應該是出現在主電路板上了。

  3.埠故障

故障現象:整個網路的運作正常,但個別的機器不能正常通訊。

故障原因:這是交換機故障中最常見的,如果光纖插頭或RJ-45埠髒了,可能導致埠汙染而不能正常通訊。還有,平常很多人都喜歡帶電插拔接頭,在理論上說似乎並沒有不妥,但實際上經常這樣的話就無意中增加了埠的故障發生率;在搬運時的不小心,也可能導致埠物理損壞;購買的水晶頭尺寸偏大,插入交換機時,也很容易破壞埠。此外,如果接在埠上的雙絞線有一段暴露在室外,萬一這根電纜被雷電擊中,就會導致所連交換機埠被擊壞。

解決方法:一般情況下,埠故障是個別的埠損壞,先檢查出現問題的計算機,在排除了埠所連計算機的故障後,可以通過更換所連埠,來判斷其是否埠問題,若更換埠後問題能解決的話,再進一步判斷是埠的何種緣故。關閉電源後,用酒精棉球清洗埠,如果埠確實被損壞,那就只能更換埠了。此外,無論是光纖埠還是雙絞線的RJ-45埠,在插拔接頭時一定要小心,建議插拔時最好不要帶電操作。

  4.模組故障

故障現象:交換機是由很多模組組成,如堆疊模組、管理模組(即控制模組)、擴充套件模組等,這些模組都有不同的外部介面,若發生故障都比較容易發現,有些可以直接查看得出,有的可以通過模組上的指示燈來辨別故障。

故障原因:交換機是的多種模組,如果插拔模組時不小心,或者是搬運交換機時模組受到受到碰撞,都可能導致此類故障的發生。還可能是由於電源不穩定等情況造成的。

解決方法:這些模組發生故障的機率很小,不過一旦出現問題,就會遭受巨大的經濟損失,所以在保持電源穩定的前提下,拔插模組或搬運交換機時要加倍小心。在排除此類故障時,首先確保交換機及模組的電源常供應,然後檢查各個模組是否插在正確的位置上,最後檢查連線模組的線纜是否正常。而解決此類故障的方法,就只能夠與相關供應商聯絡爭取更換了。

  5.背板故障:

故障現象:外部供電環境正常,但交換機的各個內部模組都不能正常工作。

故障原因:因為交換機的各個模組都是接插在背板上的,如果交換機在潮溼的環境下工作,電路板受潮發生短路,又或者是元器件因高溫、雷擊等而受損,這些情況都會使電路板發生故障,而不能正常工作。

解決方法:如果外部電源正常供電,但交換機的各個內部模組都不能正常工作,那就可能是背板壞了,這種故障的解決方法無他,只有一個,那就是更換背板,因為修復補不了的。為了有效防止這種故障的發生,最重要的是為交換機提供一個符合廠商所提供的標準指標的工作環境。

  6.配置不當:

故障現象:將某工作站連線到交換機上的幾個埠後,無法Ping通區域網內其它電腦,但桌面上“本地連線”圖示仍然顯示網路連通。

故障原因:由於各種交換機配置都不一樣,管理員在配置交換機時會很容易出現配置錯誤。

解決方法:先檢查這些被Ping的電腦是否安裝有防火牆,三層交換機可以設定VLAN(虛擬區域網),不同VLAN內的工作站在沒設定路由的情況下無法Ping通,因此要修改VLAN的設定,使它們在一個VLAN中,或設定路由使VLAN之間可以通訊。這類故障有時很難發現,需要一定的經驗積累,在配置之前,最好先閱讀說明書。如果不能確保使用者的配置有問題,請先恢復出廠預設配置,然後再一步一步地配置。

  7.系統資料錯誤

故障現象:交換機出現滿載、丟包、錯包等情況,甚至會造成系統全方位的故障,影響區域網的通訊。

故障原因:這類故障的起因跟常見的Windows、Linux一樣,由於當時設計的原因,存在著一些漏洞,在一定的條件下,這些漏洞將會發生系統資料錯誤的故障。

解決方法:交換機系統提供了諸如Web、TFTP等方式來下載並更新系統,所以有關管理人員要多關注裝置廠商的網站,如果推出新的系統或新的補丁,應當及時更新,以防止錯誤的發生。

  總結:

除了以上所列的幾點之外,連線電纜和配線架跳線的問題(如果這些連線電纜內的纜芯或跳線發生了短路、斷路或虛接,就會形成通訊系統的故障)也時有發生,此外,局資料錯誤也會對整個交換局造成影響,而使用者資料被錯誤設定,則會對某個使用者產生影響,還有的就是交換機軟體方面的問題,譬如像程式BUG——軟體程式設計存在著缺陷……這些也是應當注意的問題。

總之,一臺交換機裝置的故障問題難以一一列舉,可行之道當是做好日常防護工作,做好相關的日誌記錄,併為交換機提供一個合適的工作環境,結合相關的經驗,把故障控制在最小的範圍內。

  交換機在網路中的故障診斷

在一個交換網路裡,您如何確定從哪裡開始動手查詢問題?想深入“透視”一個交換網路是非常困難的。首先,在2層交換的時候還是橋接轉發方式,但到了3層交換卻有了更高階的特性和轉發規則,例如VLAN。

到了4層交換,就更加複雜了,出現了更高階的轉發和負載均衡技術,故障診斷故障診斷和解決就需要更多的交換機配置知識。

在安裝完一臺交換機後,每個交換機的半雙工埠就構成了一個衝突域。如果該埠連線了一個集線器,集線器下面連線若干站點,那麼衝突域會擴大。但隨著交換產品的價格下跌,現在大多數新建的網路每個交換埠都只連線一個站點。因此,在半雙工連線情況下,衝突域僅針對一個單獨的電纜鏈路。

交換機通常是一個獨立廣播域的一部分,包括串連或者並連的任意數目的其他交換機。如果使用了OSI模型3層的功能,就可以建立多廣播域,廣播域的數目與VLAN數目相等。最極限的情況,如果交換機功能允許,每個埠可以配置為一個獨立的廣播域。可以把這種情況描述為路由到桌面。為每個埠建立一個獨立的廣播域後,故障診斷就會嚴格受限。但是如果我們把每個埠設定為一個單獨的廣播域,交換機在轉發流量的時候,每個埠都需要路由服務,這會佔用交換機CPU的有限資源。在網路環境中,對每個單獨的埠進行路由請求和應答是非常困難的,我們應該避免這樣的配置。不幸的是,這種情況在實際情況中非常常見,網路中經常發現伺服器全部在一個子網或者廣播域中,所有的客戶在另外的子網或者廣播域中。在這種情況下,所有的請求都必須路由。如果維護行為限制在一個單獨的伺服器群裡,那麼考慮把伺服器放進單獨的VLAN裡。然後把使用這臺伺服器的使用者放到同一個VLAN。這樣就可以使用2層交換的橋接方式來交換流量,只有很少的請求需要路由。如果伺服器支撐多於一個使用者區,可以在伺服器上多裝一塊網絡卡來實現到使用者的2層交換連線。

  對交換機進行故障診斷的5種技術

可以採取5種基本方式來透視交換機。每一種方法都不同,都有積極或者消極的一面。類似在網路中遇到的其他問題一樣,沒有一個最好的答案。最合適的方案往往取決於您手中可以利用到的資源(什麼工具可以使用或者以前安裝過什麼工具),而且使用這些技術有可能造成服務中斷。

即使把這些方式組合起來,也不能監測到所連線的網路,在交換的環境裡面,也不像集線器那樣方便監測。我們幾乎不可能看到通過一個交換機的全部流量。大多數的故障診斷會假設流量會在站點和所連線的伺服器之間或經過故障診斷交換機uplink口通過。而實際上如果2臺主機直接傳輸資訊的話,就不會使用交換機的uplink口或者任何其他的埠來交換流量。除非你知道具體用到哪個埠,否則是監測不到的。

舉個例子,如圖1,一臺伺服器接入一臺交換機。在反映有問題的使用者中,一部分是直接與這臺交換機相連,另外的一部分使用者是由這臺交換機的uplink口從其他路由器或者交換機連線上來的。故障報告是訪問伺服器“慢”,這樣的故障報告對技術支援工程師來說基本上沒有任何價值。

  方法1:通過TELNET或者序列口接入伺服器

高階的網路技術支援工程師或其他知道交換機密碼的人在進行故障診斷時可以選擇通過TELENET或者交換機的串列埠登陸,來檢查交換機的配置.

交換機配置可以通過上面提到的2種方法檢視,雖然問題不一定是配置引起的。不管問題是作業系統有BUG還是配置不完善,都不能從配置列表中輕易的查看出。配置資訊在定位交換機是否像預期的那樣執行上比較有用,但針對故障診斷就不是了。為了驗證交換機的配置,往往需要使用多種的交換機故障診斷方法配合。

很多交換機都帶有實時的故障診斷工具,因為交換機生產廠家和型號的不同,這些故障解決工具的特徵也各不相同。但是要使用好這些工具,必須依靠一定的理論知識和實際經驗。

  方法2:連線到一個空閒埠

最簡單的故障診斷方法是在交換機的空閒埠接入一個監測工具,例如協議分析儀。

把監測工具接入交換機的一個空閒埠,不用中斷服務就可以檢視所屬廣播域。該監測工具與廣播域裡的其他站點一樣有相同的許可權。

不幸的是,交換機(做為一個多埠的橋接裝置)幾乎不轉發流量到監測埠。因為橋接裝置就是這樣設計的,流量直轉發到所屬的目的埠,不會去其他的埠。協議分析儀因此幾乎監測不到流量。

交換機在源埠和目的埠之間轉發流量。非常少的流量會轉到其他埠。站點和伺服器之間可能每秒鐘會轉發幾千個幀,但是監測埠每分鐘只能看到幾個幀。

轉發到監測埠的流量幾乎全部都是廣播,包含一些零星的目的地址不明的幀。這些零星的幀是由於路由轉發表老化的結果,經常是目的埠不明的幀。一些經驗不夠的技術人員看到這麼高的廣播(接近100%),卻沒有注意到埠利用率很低,就誤判網路出現了廣播風暴,其實不是。

這樣檢視交換網路幾乎沒有用,因為監測工具必須獲取流量。獲得的流量或者對廣播域的查詢對網路搜尋和發現其他型別問題是有很有幫助的,但對解決使用者連線慢的問題並沒有多大的'幫助。

對大多數交換機來說,都有一個更好的選擇,可以把需要監測的埠流量備份到一個專門的空閒口。這種技術通常稱為埠映象。

大多數交換機廠家都提供備份或映象流量的功能,可以把監測工具接入交換機一個專門配置過的埠。老的交換機必須指定一個專門的監測口做為映象口,但現在大多數新的交換機可以指定任何一個埠做為映象口

雖然交換機廠家實現映象的方式各不相同,但是有一些基本相同的監測選項。值得注意的是,幾乎在所有的情況下,交換機在轉發流量到映象口的時候,同時把錯誤都過濾掉了。對於故障診斷來說,這意味著同時過濾掉了有用的資訊。

此外,實際操作當中需要我們通過控制口(交換機的RS232埠),或者Telnet程序來配置映象。這意味著除了監測工具之外,我們通常還需要帶一臺電腦或者終端來對交換機進行配置。

映象埠經常只是一個“監聽”埠,不過很多交換機廠家允許把該埠配置成全雙工的。配置了映象口,監測工具就可以檢視報告連線慢的主機和伺服器之間的實際流量的備份。映象口可以只監測交換機的任意一個埠,甚至可以是Uplink口,也可以同時監測交換機的多個埠。但是同時監測的埠很多的話,過高的流量就有可能會超過映象口的接收能力。

監測埠的輸出能力是一個很重要的問題。映象口可以收,也可以發。在配置的時候,經常關掉了映象口發的功能。但不管有沒有關掉映象口發的功能(不管映象口是全雙工或者不是),映象口的接收能力都是有限制的。如果被監測的全雙工埠的速率和映象口是一樣的話,交換機在轉發流量的時候很容易就會丟包,但是交換機不會通知您。

假設您在監測一個以100M全雙工速率連線到交換機的伺服器的話,那麼伺服器在全雙工工作的時候,伺服器的收發速率都是100M,那麼總共就有了200M。然而交換機的100M映象口最多隻能接收100M的流量。所以任何交換機的埠(全雙工的)利用率超過50%的時候,映象口接收到的包就會有丟失。

如果把多個埠映象到一個埠,丟包的問題就會更加的嚴重。因為大多數交換機都工作在低容量,這個問題並不會被立刻注意到。大多數使用者連線的平均利用率都很低。只是偶爾會有流量的突發。

如果選擇一個高速的映象口,就可以減少丟包的問題。例如把圖6中的100M映象口換成1000M,那麼就可以很容易的接收200M的監測流量。