Start Apple Was uns der „Summer of Outages“ gezeigt hat und was wir dagegen...

Was uns der „Summer of Outages“ gezeigt hat und was wir dagegen tun können

7
0


Der Sommer 2019 war ein harter Tag für das Internet, da häufig und in schneller Folge systemische Ausfälle auftraten.

Einige dieser Ausfälle wurden durch interne Fehler verursacht, andere durch externe, aber es traten zwei vorrangige Ursachen auf: höhere Netzwerkkomplexität und die Häufigkeit und Geschwindigkeit von Codeänderungen. Insgesamt erinnern diese Ausfälle schmerzlich daran, wie zerbrechlich das Internet ist, insbesondere da Netzwerke und Dienste zunehmend miteinander verbunden und aufeinander angewiesen sind.

Die Hauptausfälle waren:

  • Am 2. Juni kam es bei Google zu Ausfällen, die das Unternehmen „hohe Netzüberlastung im Osten der USA“ . Mehrere seiner beliebtesten Dienste, darunter die Suche, Nest, YouTube und Gmail, sind zum Erliegen gekommen. Nicht lange danach, Google Kalender ist ausgefallen, was vielen Endverbrauchern scherzhaft einen Vorwand gibt, um einen freien Tag zu erklären.
  • Cloudflare ist am 24. Juni untergegangen aufgrund eines kleineren Netzwerklecks, das Domains betrifft, die auf dieses führende Content Delivery Network (CDN) angewiesen sind. Endbenutzer wurden von beliebten Diensten wie Discord, Google, Amazon und anderen ausgeschlossen.
  • Am 3. Juli, Google und Wolkenflare wurden beide von weiteren Ausfällen betroffen.
  • Ebenfalls am 3. Juli hatte Facebook Probleme beim Laden von Bildern, Videos und anderen Daten über wichtige Apps und Dienste, einschließlich Instagram, WhatsApp und Messenger. Facebook machte dafür „einen Fehler verantwortlich, der während einer routinemäßigen Wartung ausgelöst wurde“.
  • Apple trat dem Club einen Tag später bei, mit einem weit verbreiteten dreistündigen Cloud-Ausfall, der sich auf die App Store, Apple Music und Apple TV.
  • Schließlich erlebte Twitter am 11. Juli einen stundenlangen Ausfall des Webs und der mobilen App, der auf das zurückzuführen war, was das Unternehmen als „ein interner Systemwechsel“.

Sie können solche Ausfälle nicht verhindern, aber Sie können Ihr Unternehmen besser vor solch wilder Unvorhersehbarkeit schützen, indem Sie sich auf diese fünf Kategorien konzentrieren:

Achten Sie wachsam auf Ausfälle in möglichst vielen Regionen und aus so vielen Netzwerkperspektiven wie möglich: Ob Ihre verschiedenen Endbenutzersegmente auf eine Website oder einen Dienst zugreifen können oder nicht, hängt von einer langen Kette von leistungsbeeinflussenden Elementen ab, die zwischen ihnen und Ihrem Rechenzentrum stehen. Dazu gehören CDNs, die Cloud, regionale und lokale ISPs, Mobilfunknetze und mehr.

Da der erste Schritt bei der Vorbereitung/Reaktion auf einen Ausfall darin besteht, ihn proaktiv zu erkennen, ist dies fast unmöglich, wenn Sie nur die Verfügbarkeit auf nationaler oder begrenzter Ebene testen. Dasselbe gilt, wenn Sie nur von einer kleinen Anzahl von Netzwerk-Aussichtspunkten aus verfolgen, wie der Cloud oder einer Handvoll ISPs oder Mobilfunkanbietern. Ein so enger Ansatz wird Sie mit erheblichen blinden Flecken zurücklassen. Eine größere Reichweite informiert Sie im Voraus über mehr Ausfälle und bietet eine bessere Möglichkeit, Backup-Pläne zu erstellen, falls verfügbar, oder proaktiv mit betroffenen Endbenutzern zu kommunizieren und sie darüber zu informieren, dass Sie an dem Problem arbeiten.

Reduzieren Sie die durchschnittliche Zeit für die Erkennung und die durchschnittliche Zeit für die Reparatur: Während eine frühzeitige Erkennung und Benachrichtigung über einen Ausfall nützlich ist, hält der Goodwill der Endbenutzer nur eine gewisse Zeit an. Es reicht nicht aus, nur zu wissen, dass ein Vorfall passiert; Sie müssen auch herausfinden, was es verursacht, und zwar schnell. In einigen Fällen liegt das Problem in Ihrer eigenen Firewall, die Sie beheben können. In anderen Fällen liegt der Fehler außerhalb Ihrer direkten Kontrolle, wie ein Cloud-Dienst, ein CDN oder ein Netzbetreiber.

Selbst wenn Sie das Problem nicht direkt angehen können, ist dieses Wissen Macht – denn es bedeutet, dass Sie Ihre IT-Ops-Teams und Site Reliability Engineers (SREs) nicht in stundenlanges Warrooming schicken, was zu Alarmmüdigkeit führt , Burnout und Zeitverlust, wo sie sich proaktiv auf die langfristige Verbesserung der Verfügbarkeit konzentrieren können.

BGP-Route-Tracing aktivieren — Das Internet ist im Grunde eine Schaltung, die Datensignale und Pakete über verschiedene Netzwerkpfade weiterleitet. Mehrere Protokolle verwalten diesen Datenfluss, darunter das Border Gateway Protocol oder BGP. BGP regelt, wie Daten zwischen verschiedenen autonomen Netzwerkeinheiten übertragen werden. Das Internet ist darauf angewiesen, dass es funktioniert, aber es kann zu Fehlleitungen aufgrund von Entführungen, falschen Richtlinienkonfigurationen, Routenklappen und Peering-Problemen kommen. Dies kann dazu führen, dass Pakete versehentlich an das falsche Ziel gesendet werden oder ganz ablaufen.

Ein sichtbares Beispiel für ein beteiligtes BGP-Leak Google letzten November. In einem Fall von „Grand Theft Internet“ wurde der Datenverkehr von Google-Diensten aus einer Vielzahl von Ländern und Websites an IP-Adressen ausländischer ISPs wie TransTelekom Russia und China Telecom anstatt an Google-Server geleitet. Dies führte dazu, dass die Pakete an verschiedene unbeabsichtigte Ziele gesendet wurden, bevor sie beendet wurden oder ein schwarzes Loch bildeten.

Erste Berichte über den Vorfall deuteten darauf hin, dass es sich möglicherweise um einen böswilligen BGP-Hack gehandelt haben könnte, da die beteiligten Länder eine Vorgeschichte von Internetzensur haben. Später stellte sich jedoch heraus, dass fehlerhafte Weiterleitungen tatsächlich auf menschliches Versagen zurückzuführen waren. in diesem Fall Peering-Fehlkonfigurationen zwischen Google und MainOne, einem nigerianischen ISP, den Google gegründet hatte, um seine wachsende Präsenz in Nigeria besser zu unterstützen.

Da der Netzwerkausbau in rasantem Tempo voranschreitet, können solche BGP-Pannen häufiger auftreten. Auch wenn Sie möglicherweise nicht viel gegen einen Vorfall tun können, wenn er einen externen Anbieter betrifft, können Sie BGP-Lecks innerhalb Ihrer eigenen Anwendungsbereitstellungskette genauer verfolgen, um eine schnellere Identifizierung zu ermöglichen, bestimmte Ursachen auszuschließen und mit der Behebung fortzufahren.

Automatisieren Sie Tests frühzeitig und häufig: Es ist nie eine gute Idee, neuen Code direkt auf einem Produktionssystem auszuführen. Aber in der Eile, Code freizugeben, passiert dies oft und führt zu Problemen. Google führt täglich Zehntausende von neuen Codebereitstellungen für Tausende von Diensten durch, von denen sieben mehr als ein jeweils eine Milliarde Nutzer weltweit.

Es überrascht nicht – SREs, die über Expertise im IT-Betrieb verfügen und Codierung und die Verantwortung für die Aufrechterhaltung der Systemverfügbarkeit angesichts nahezu ständiger Softwareänderungen tragen – berichteten kürzlich, dass das Incident Management ein großer Teil ihrer Arbeit ist. Zum Zeitpunkt der Umfrage gab fast die Hälfte der Befragten an, an einem Dienst gearbeitet zu haben Vorfall in der letzten Woche.

Da sich das Tempo der Software-Rollouts in absehbarer Zeit nicht verlangsamen wird, müssen Unternehmen besser darin werden, Geschwindigkeit und Qualität in Einklang zu bringen. Eine verstärkte Automatisierung von funktionalen Softwaretests, die in den frühestmöglichen Phasen des Entwicklungszyklus durchgeführt werden, sind dabei ebenso entscheidend wie umfassende Regressionstests und Rollback-Funktionen.

Dritte messen und zur Rechenschaft ziehen: Drittanbieter, von in Ihre Site integrierten Softwarekomponenten bis hin zu externen Infrastrukturen wie Cloud und CDNs, können einen großen Einfluss auf die Verfügbarkeit Ihrer Site haben. Jede Organisation, die auf externe Dritte angewiesen ist, muss diese genau im Auge behalten, um ihre eigene Verfügbarkeit sicherzustellen.

Wenn es speziell um die Cloud geht, sollten Unternehmen vermeiden, alle ihre Eier (Daten und Apps) in einen Korb (einen einzigen Cloud-Dienstleister) zu legen. Die Implementierung einer Multi-Cloud-Strategie als eine Form von Backup und Schutz kann einen beträchtlichen Zeit- und Arbeitsaufwand erfordern, einschließlich des Vorabtests von Failover-Strategien und der Sicherstellung, dass Cloud-to-Cloud-Interaktionen (unterstützende Replikation) schnell und zuverlässig sind. Dies ist tatsächlich ein guter Anwendungsfall, bei dem die Überwachung von den einzelnen Aussichtspunkten verschiedener Wolken aus angebracht ist. Wie oben erwähnt, sollte die reine Cloud-Überwachung jedoch niemals verwendet werden, um die tatsächlichen Endbenutzererfahrungen umfassend zu messen.

Abschluss: Die jüngste Flut von Ausfällen hat die Tatsache verstärkt, dass das Internet einem Kartenhaus sehr ähnlich ist und es praktisch unmöglich ist, größere Ausfälle und ihre kaskadierenden Auswirkungen zu vermeiden. Mit zunehmender Vernetzung des Internets steigt die Wahrscheinlichkeit, dass sich ungeplante Ausfallzeiten auf Ihr Unternehmen auswirken. Glücklicherweise gibt es Schritte, die Unternehmen unternehmen können, um diese Ereignisse besser zu antizipieren und darauf zu reagieren. Es mag schwer zu hören sein, aber die Planung für das Scheitern ist eine Notwendigkeit. Wenn es Google, Facebook und Apple passieren kann, kann es – und wird es unweigerlich – Ihnen passieren.

Bildnachweis: Pfaddoc / Shutterstock

Mehdi Daoudi ist Mitbegründer und CEO von Fangpunkt, ein führendes Unternehmen für Digital Experience Intelligence. Sein Team verfügt über Erfahrung in Design, Aufbau, Betrieb, Skalierung und Überwachung von hochtransaktionalen Internetdiensten, die von Tausenden von Unternehmen genutzt werden und die Erfahrung von Millionen von Benutzern beeinflussen. Vor Catchpoint verbrachte Mehdi mehr als 10 Jahre bei DoubleClick und Google, wo er für die Qualität der Dienste, den Kauf, den Aufbau, die Bereitstellung und die Verwendung von Überwachungslösungen verantwortlich war, um eine Infrastruktur im Auge zu behalten, die täglich Milliarden von Transaktionen lieferte.



Vorheriger ArtikelCisco führt neue Cloud-native Sicherheitsplattform ein
Nächster ArtikelDie besten Windows 10-Apps dieser Woche

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein