Niezawodność infrastruktury sieciowej to podstawa działania każdego nowoczesnego przedsiębiorstwa. Sprzęt elektroniczny bywa zawodny, co może łatwo przełożyć się na straty finansowe firmy. Istnieją jednak mechanizmy, które pozwalają zminimalizować ryzyko niedostępności sieci w razie awarii urządzeń sieciowych.
Wysoka dostępność HA (High-Availability) w sieci to zapewnienie ciągłości działania usług, gdy zawiodą komponenty poszczególnych systemów. Systemy HA umożliwiają wykrycie problemów sprzętowo-programowych oraz zapewniają niezbędne mechanizmy automatycznego przywrócenia funkcjonalności. Wszystko odbywa się bez konieczności podejmowania interwencji administracyjnej. Zapewnienie wysokiej dostępności sieci komputerowej jest najczęściej realizowane w warstwie drugiej i trzeciej modelu OSI.
Redundancja w drugiej warstwie
W związku z redundancją warstwy drugiej, warto powiedzieć o agregacji portów fizycznych przełącznika oraz mechanizmach zapobiegania powstawaniu pętli w środowisku wielościeżkowym.
fot. Jak działa protokół VRRP.
Dzięki ostatnio zaprezentowanym specyfikacjom łączy Ethernet o przepustowości 40G oraz 100G, agregacja łączy będzie preferowaną metodą tworzenia wysoce wydajnych połączeń szkieletowych. Agregacja łączy - opisywana przez standard IEEE 802.3ad - scala wiele fizycznych portów w jeden port logiczny. W tej sytuacji nawet jeżeli jedno z łączy fizycznych ulegnie awarii, nie wpływa to na pracę danej ścieżki logicznej. Przepustowość nie zawsze będzie się skalowała wraz ze wzrostem liczby uczestniczących w agregacji portów. Zazwyczaj przeprowadzana będzie dystrybucja przepływów między portami, składającymi się na grupę łączy agregowanych. Typowo przełącznik sprawdza zawartość przepływów i wykorzystuje specyficzne algorytmy do przydzielenia dla każdego przepływu odpowiedniego członka LAG (Link Aggregation Group). Większość obecnie dostępnego sprzętu sieciowego pozwala rozproszyć fizyczne ścieżki, nawet między wiele kart liniowych w urządzeniach modularnych. Nawet gdy karta liniowa przełącznika ulegnie uszkodzeniu, użytkownicy nie powinni odczuć skutków awarii.
Jeżeli wykorzystujemy przełączniki sieciowe, oczywistą metodą redundancji będzie realizacja zapasowych połączeń między nimi. Okażą się one niezwykle pomocne, gdy łącze lub sprzęt zawiedzie, ponieważ całość ruchu będzie mogła zostać skierowana na alternatywne ścieżki. Przełączenie na ścieżkę zapasową będzie jednak trwało określony czas, w którym nie będzie odbywał się żaden ruch sieciowy. Przeważnie czas przełączenia alternatywnej ścieżki na poziomie kilku minut jest akceptowalny, bo wymiana i rekonfiguracja urządzenia i tak trwałaby zdecydowanie dłużej. W dobrze skonfigurowanej sieci użytkownicy nie powinni jednak zauważyć awarii.
Zapewnienie redundancji w sieciach Ethernet będzie typowo oznaczało wdrożenie mechanizmów STP (Spanning Tree Protocol). Mechanizmy te pracują w warstwie drugiej modelu OSI. Podstawową ich funkcją jest zapobieganie powstawaniu pętli, które tworzą redundantne łącza warstwy drugiej. Poprzez wymianę komunikatów BPDU między przełącznikami, mechanizm STP decyduje o ewentualnym blokowaniu lub odblokowaniu ruchu na danym porcie. Wadą mechanizmów STP jest powolna konwergencja, która jest ściśle uzależniona od konfiguracji parametrów czasowych. W przeciwieństwie do STP, mechanizm RSTP (Rapid STP) reaguje znacznie szybciej. Problemem obu mechanizmów są jednak niezbyt wydajne działania w przypadku pracy w dużej sieci. Wdrożenie mechanizmów STP/RSTP będzie wiązało się z koniecznością dostrojenia konfiguracji. Nawet w przypadku wykorzystania RSTP (802.1w), którego czas konwergencji jest stosunkowo niski, warto poeksperymentować z ustawieniami.
Co z protokołami trasowania?
Protokoły trasowania mogą oferować redundancję, ale tak jak w warstwie fizycznej i w tym przypadku trzeba odpowiednio konfigurować reakcję mechanizmów na awarię. Maksymalna liczba równoważnych łączy WAN, możliwych do wykorzystania jednocześnie, będzie zależna od zastosowanego sprzętu. Poszczególne ścieżki mogą charakteryzować się różnym kosztem (przykładowo różną przepustowością), więc z pewnością potrzebne będą inteligentne mechanizmy kierowania ruchem. Podstawą priorytetów trasowania będzie określenie jakości i przepustowości łączy oraz filtracja ruchu, połączona z kierowaniem odpowiednimi trasami.
Konfiguracja wielu połączeń do internetu, to niezbędny element niezawodnej sieci. Obecne wykorzystanie sieci w ramach zdalnych aplikacji czy wirtualnych sieci prywatnych wymaga wręcz wykorzystania redundancji połączeń do kilku operatorów telekomunikacyjnych. Protokół BGP może pomóc w zapewnieniu skalowalnej redundancji. Jeżeli dysponujemy łączami do kilku operatorów, BGP umożliwia wybór zawsze lepszej ścieżki dostępu do zasobów. Protokół ten wybiera ścieżkę na podstawie wielu parametrów, także ustalonych przez użytkownika. Gdy łącze do jednego lub więcej operatorów ulegnie uszkodzeniu, BGP automatycznie rozpozna usterkę i skieruje pakiety dostępną ścieżką. Ze względu na właściwości jego wykorzystania, inne protokoły dynamicznego trasowania (OSPF, RIP itp.) nie znajdują zastosowania w sieci rozległej. Mogą jednak stanowić znakomite uzupełnienie mechanizmów redundancji warstwy trzeciej wewnątrz sieci korporacyjnej. Warto nawiązać w tym miejscu do mechanizmów MESH, które podobnie realizują redundancję połączeń bezprzewodowych.
Redundancja warstwy trzeciej na styku z internetem to domena protokołu BGP. Wnętrze sieci dla tej samej warstwy zabezpieczamy przez wykorzystanie innych dynamicznych protokołów trasowania (OSPF, IGRP, RIP). Powstaje pytanie, czy jesteśmy w stanie zapewnić redundancję połączeń wirtualnych sieci prywatnych między oddziałami? Ze względu na specyfikę tych połączeń z pomocą przychodzi nam MPLS. Idealnym rozwiązaniem będzie wykupienie kompletnej usługi realizacji sieci MPLS od operatora telekomunikacyjnego. Rozwiązanie to będzie dość kosztowne, ale zapewnia znakomite rezultaty.