Stromausfälle in Spanien und Portugal: Servicekontinuität durch die Cato SASE Cloud Platform

Einführung
Am Montag, dem 28. April 2025, kam es in weiten Teilen Spaniens und Portugals zu Stromausfällen. Die genaue Ursache wird noch untersucht. Diese Störungen wirkten sich auf die regionale Infrastruktur aus, welche die Konnektivität, die Cloud-Dienste und den Betrieb vor Ort unterstützt.
Dieser Bericht gibt einen technischen Überblick über das Netzwerkverhalten, das wir innerhalb der Cato SASE Cloud in Echtzeit beobachtet haben, über die von uns durchgeführten Überwachungsaktivitäten und über die zur Aufrechterhaltung der Servicekontinuität während des Ereignisses ergriffenen Maßnahmen zur Systemstabilität.
Echtzeitbeobachtungen während des Ausfalls
Während des Vorfalls stellten wir einen sofortigen Einbruch der Cato ZTNA-Benutzerverbindungen aus den betroffenen Gebieten fest. Gleichzeitig gingen das Gesamtvolumen des Switch-Datenverkehrs und die Anzahl der Pakete pro Sekunde (PPS) an unserem Madrider PoP stark zurück, was den allgemeinen Verlust der Endbenutzer-Konnektivität in der Region widerspiegelt.
Trotz dieser Trends blieben alle Points of Presence (PoPs) in Europa, einschließlich Madrid, während des gesamten Ereignisses vollständig betriebsbereit. Die Statusbestätigung finden Sie in Echtzeit unter Cato Networks Service Status.
PoP-Status Madrid
- Der Madrider PoP versorgt weiterhin aktive Sitzungen aus Spanien und Portugal.
- Wir vermuten, dass Kunden, die eine lokale Stromversorgung nutzen (Stromgeneratoren, USV-Systeme), die Verbindung ununterbrochen aufrechterhalten.
- Wir haben die Überwachung aktiver Verbindungen beibehalten und wie in Abbildung 1 ersichtlich, bestehen während des Ausfalls weiterhin aktive Verbindungen über den PoP in Madrid. Dies kann sich jedoch ändern, da immer mehr Benutzer aufgrund des Stromausfalls keine Möglichkeit haben, sich mit ihren Laptops oder Rechnern zu verbinden. Die weiterhin mit Strom versorgten Dienste und Server halten die Verbindung über unsere Plattform aufrecht, wobei der Datenverkehr bei Bedarf automatisch zu anderen PoPs umgeleitet werden kann.

Abbildung 1: Rückgang der aktiven ZTNA-Benutzerverbindungen über den Madrid PoP während des Ausfalls
- Wir haben die Standorte und die Cloud-Konnektivität, wie in Abbildung 2 dargestellt, überwacht und überprüft, wobei ein kleiner Prozentsatz der Tunnel- und Socket-Verbindungen weiterhin betriebsbereit sind. Wir nehmen an, dass in vielen Fällen die Konnektivität durch den Stromausfall an den Standorten und die Erschöpfung der Backup-Systeme beeinträchtigt wurde. Unsere Überwachungssysteme – darunter CPU-Leistungsmetriken, PoP-Kommunikationsaktivität, Tunnelstabilität, Netzwerkanalysen (z. B. Metriken zu Paketverlusten) und Socket-UI-Verbindungsstatus – verzeichneten Änderungen unmittelbar nach Eintreten des Ereignisses und erlaubten es uns, das Verhalten der Standorte und den Zustand des Netzwerks in den betroffenen Regionen mit hoher Granularität zu korrelieren.

Abbildung 2: Ausfall von Standorten und Cloud-Tunneln infolge eines lokalen Stromausfalls
Analyse des Datenverkehrs während des Ereignisses
Direkt nach dem Stromausfall beobachteten wir einen messbaren Rückgang des Verkehrsvolumens von Leuten, die mit dem PoP in Madrid verbunden waren.
Abbildung 3 gibt einen Überblick über das Gesamtvolumen der Switch-Verkehrs und die Pakete pro Sekunde (PPS) – beide Messgrößen zeigen einen deutlichen Einbruch, der dem Rückgang der aktiven Benutzersitzungen entspricht.

Abbildung 3: Switch-Datenverkehr und PPS sinken nach dem Ausfall
- Wenn ein PoP unerreichbar oder beeinträchtigt wird, verlassen wir uns auf folgende Mechanismen:
- Automatische Ausfallsicherung: Sockets und Tunnel migrieren ohne manuelles Eingreifen zu alternativen PoPs.
- Dynamische Umleitung des Datenverkehrs: Der Verkehr wird über verfügbare PoPs im globalen Backbone umgeleitet.
- Standortverlagerung: Standorte werden mit dem nächstbesten PoP (z. B. Marseille oder Frankfurt) verbunden, um die Leistung beizubehalten.
- Dezentralisierte Fehlerisolierung: Lokale Ausfälle werden eingegrenzt, ohne das gesamte Netzwerk zu beeinträchtigen.
Proaktive Überwachungssysteme
Wir haben die CPU- und Speicherauslastung, den Zustand der PoP-zu-PoP-Kommunikation, die Tunnelstabilität, den Paketverlust, die Erkennung von Anomalien sowie die Socket-UI-Konnektivität überwacht und überprüft.
Dies ermöglichte die Identifizierung der Auswirkungen sowie die Bestätigung der Stabilität der Infrastruktur. Die Überwachung wird fortgesetzt.
Auswirkungen auf externe und abhängige Systeme
Für Organisationen, die außerhalb Spaniens und Portugals operieren, aber auf Dienste innerhalb der Region angewiesen sind, kann es je nach ihrer Resilienzstrategie unterschiedliche Ergebnisse geben:
- Wenn diese Dienste über eine Notstromversorgung betriebsbereit bleiben, gewährleistet unsere SASE Cloud Platform einen kontinuierlichen Zugang über Madrid oder Notfall-PoPs.
- Sollten die Dienste nicht zugänglich sein, profitieren Unternehmen mit Failover-Strategien für andere Regionen von einer reibungslosen Umleitung des Datenverkehrs über alternative PoPs und ohne manuelle Neukonfiguration.
Kontinuierliche Überwachung und vollständige Transparenz
Sobald das regionale Stromproblem erkannt wurde, erfasste unsere Überwachung netzwerkweite Tendenzen in Echtzeit. Diese Transparenz ermöglichte sofortige operative Entscheidungen und eine vollständige Lageerkennung während des gesamten Ereignisses.
Wir werden unsere Systeme auch weiterhin aktiv überwachen, einschließlich der Beobachtung neuer Trends im Bereich der Cybersicherheit, um einen weltweit unterbrechungsfreien Service zu gewährleisten. Unsere Teams analysieren die Telemetriedaten und passen die Maßnahmen bei Bedarf an, um die Konnektivität des Unternehmens selbst bei weitreichenden regionalen Störungen aufrechtzuerhalten.