糯米文學吧

位置:首頁 > 網絡 > 網絡診斷

網絡故障管理何去何從

網絡性能取決於連接用户到應用的網絡的類型和容量。本地用户可能通過以太網或無線網絡連接,遠程用户則通過各種WAN技術連接,包括公共互聯網或蜂窩網絡等。每種連接都需要專門的方法來維持所需的性能。任何這些位置(應用或網絡)的故障都可能降低客户滿意度。

網絡故障管理何去何從

  雲故障檢測

很多拓撲結構和設計(其中包括虛擬化服務器、多個虛擬局域網和覆蓋網絡)讓雲故障檢測和網絡故障管理變得更加複雜。一個租户的應用出現性能問題可能與影響另一個租户的問題並沒有什麼關聯,但它們可能來自同一來源。每個租户的應用可能在相同超載或配置錯誤的服務器上執行,或者兩個租户的覆蓋網絡通過相同超載或故障鏈接來路由。

海量的服務器、網絡組件和鏈接是故障的一大來源。現代硬件極為可靠,儘管每個組件有多年故障平均時間,但對於數千獨立的設備來説,依舊會有硬件故障發生。

配置錯誤是另一個問題來源,該問題可由網絡故障管理進行跟蹤。服務器和網絡設備不斷添加、升級或取代。大型雲計算通常包括來自不同供應商的組件,甚至來自同一供應商的相同組件也可能運行着不同的軟件版本。在這種環境中,任何變更都可能導致錯誤的出現,同時,對一個組件的改變還可能影響到其他組件。

簡單地檢測和報告錯誤已經不夠,每個錯誤可能導致幾十份錯誤報告。鏈路故障會在鏈路兩端的交換機生成硬件故障指示,並且每次鏈路故障和恢復時都會發出新報告。2層和3層網絡協議路由會改變,在備用路由流量水平接近最大數值時鏈路流量監控也會變化。同時,應用性能監控器會從通過該鏈路路由流量的每個應用報告問題。

  故障相關性及其在網絡中的作用

沒有哪個網絡管理員能夠整理完單一故障生成的海量報告,並快速發現其根本原因。對此,故障相關性軟件很重要,這是每個主流系統供應商網絡管理產品的重要組成部分。

故障相關性產品利用各種機制來發現問題,其中包括SNMP trap、TL1消息、應用日誌和SYSLOG條目。SNMP和特定產品輪詢監控器運行在服務器、交換機和鏈路。相關性工具還可監控設備問題、電源電壓和磁盤可用空間來預測未來的問題。

網絡故障管理軟件必須提供對網絡準確的且最新的視圖。該軟件必須保持更新(無論是通過手動或者通過網絡映射),以追蹤添加的、移除的或更新的組件。它必須維護每種組件的內部型號,介紹其配置和功能,幷包含網絡運營政策的描述。當添加應用時,還必須更新服務水平協議(SLA)等信息。

此外,故障相關性軟件必須與雲編排軟件來交互,追蹤正在運行的應用、它們在哪些服務器運行和VLAN以及與每個租户相關的覆蓋網絡。網絡故障管理軟件還必須不斷根據SLAN監控應用性能水平。

當出現問題時,相關性軟件會獲取所有接收到的故障指示,並利用有關的網絡拓撲以及在故障出現前數據如何移動的信息來確定根本原因,併為網絡管理人員提供簡要的報告。

  SDN網絡

雲計算與SDN技術管理的數據中心面臨着與依靠傳統技術的數據中心相同的潛在問題。它們都需要故障相關性軟件,但SDN架構需要將相關性軟件內置到網絡控制器或與其緊密連接。

這種差異的原因是Spanning Tree和Open Shortest Path First等傳統協議在網絡設備內部部署。它們在鏈路或端口問題阻止流量時根據需要重新路由流量。通過SDN,所有路由都由控制器來確定,故障相關性軟件必須告知控制器問題的類型,以便它能夠確定備用路由。

OpenFlow兼容的白盒交換機支持各種供應商的.操作系統,每個都有自己的檢測和故障報告方法。Big Switch和Pica8的操作系統都支持SNMP,但Big Switch的控制器和交換機操作系統利用OpenFlow消息來與設備進行通信。相關性軟件通過接口與控制器通信,從設備處接收消息,並輪詢其狀態。

  無線網絡和廣域網

Wi-Fi依靠一組專門的工具來診斷問題。Wi-Fi連接可受到很多問題的影響,例如信號干擾、牆壁或阻止信號的固態物體,以及安全漏洞。現在有各種故障排除產品,包括免費軟件和專業的軟件產品。還需要專門的硬件產品來診斷某些類型的問題。

在網絡服務提供商擁有和管理的WAN連接的情況下,關鍵參數是吞吐量和往返時間,這方面也有免費和專業產品可供選擇。

滿足最終用户性能要求需要應用性能的各方面都正常運行。在出現問題時,網絡故障管理和故障檢測產品必須能夠查明原因,使它們可快速被修復以及恢復正常運作。