スペインとポルトガルの停電:Cato SASE Cloud Platformによるリアルタイム監視とサービス継続性

はじめに
2025年4月28日月曜日、スペインとポルトガルの広い範囲において、大規模な停電が発生しました。正確な根本的原因はまだ調査中です。これにより起こった混乱は、接続、クラウドサービス、現場業務をサポートする地域インフラに影響を与えました。
本レポートでは、Cato SASE Cloud全体でリアルタイムに監視されたネットワークの挙動、当社が実施した監視対応、およびこの障害発生中のサービス継続性を維持するために講じられたシステムの耐障害対策について、技術的な概要を提供します。
停電中のリアルタイム監視
事件発生直後から、影響を受けた地域からの Cato ZTNA ユーザー接続が低下したことが検出されました。同時に、マドリード PoP 内のスイッチ トラフィックの総量と 1 秒あたりのパケット数 (PPS) が急激に減少。これは同地域におけるエンドユーザー接続の広範な喪失を反映しています。
こうした傾向にもかかわらず、マドリードを含むヨーロッパのすべての拠点 (PoP) は、障害発生期間中でもフル稼働を続けました。ステータスの確認はCato Networks Service Statusでリアルタイムに確認できます。
マドリードPoPのステータス
- マドリードPoPは、スペインとポルトガルからのアクティブなセッションを提供し続けています。
- ローカルの電源対策(発電機や無停電電源装置〈UPS〉など)を使用しているクライアントについては、接続が中断されることなく維持されていると想定します。
- アクティブな接続の監視を継続したところ、図1に示すように、障害発生中もマドリードPoPを経由した接続が引き続き存在していました。しかし、より多くのユーザーが電力を喪失し、ノートパソコンやワークステーションでの接続ができなくなるにつれて、この状況は変化する可能性があります。電源が確保されているサービスやサーバーは、引き続き当プラットフォームを通じて接続を維持しており、トラフィックは必要に応じて他の PoP に自動的に再ルーティングされます。
図1:停電発生中における、マドリードPoPを通じたアクティブなZTNAユーザー接続の減少
- 図2が示すように、サイトとクラウドの接続を監視および確認したところ、ごく一部のトンネルとソケット接続は引き続き動作しています。多くの場合、サイトの電源が失われ、バックアップ システムが使い果たされたために接続性が低下したと推測されます。CPUパフォーマンスメトリクスやPoP通信の可用性、トンネルの安定性、パケット損失メトリクスなどのネットワーク分析、ソケットUI接続ステータスなど、当社の分散モニタリングシステムは、障害の発生に合わせて即座に変化を記録し、影響を受けた地域全体のサイト動作とネットワークの健全性を高い粒度で相関させることができました。
図2:地域的な停電によりサイトやクラウドトンネルがダウン
障害発生中のトラフィック行動分析
障害発生後、マドリード PoP に接続しているピアからのトラフィック量が著しく減少したことが確認されました。
図3は、スイッチの総トラフィックピア数とパケット毎秒(PPS)を示しています。両方の指標は、アクティブユーザーセッションの減少と一致して、著しい減少を示しています。
図3:障害発生後のスイッチトラフィックとPPSドロップ
- 障害発生後のスイッチングトラフィックとPPSドロップPoPが到達不能または劣化状態になった場合、以下のメカニズムに依存します:
- 自動フェイルオーバー:ソケットとトンネルは、手動による介入なしに代替 PoP に移行します。
- 動的なトラフィックの再ルーティング:トラフィックは、グローバル バックボーン上の利用可能な PoP を通じてリダイレクトされます。
- サイトの移転:サイトは、パフォーマンスを維持するために、次にパフォーマンスが最も優れた PoP (マルセイユやフランクフルトなど) に再接続します。
- 分散障害分離:局所的な障害は、ネットワーク全体に影響を及ぼすことなく封じ込められます。
プロアクティブ監視システム
CPUとメモリの使用率、PoP間通信の健全性、トンネルの安定性、パケット損失、異常検出、およびソケットUIの接続性を監視し、確認しました。
これにより、影響の特定とインフラの安定性の確認が可能となりました。監視は継続中です。
外部システムおよび依存システムへの影響
スペインとポルトガル以外の地域で事業を展開する組織であっても、当該地域内に所在するサービスに依存している場合、そのレジリエンス戦略により異なる結果が生じる可能性があります:
- これらのサービスがバックアップ電源により継続して稼働する場合、当社のSASE cloud platformはマドリードまたは代替PoP経由で継続的なアクセスを保証します。
- サービスが利用できない場合、他の地域へのフェイルオーバー戦略を採用している組織は、手動での再構成を必要とせずに、代替のPoP経由でシームレスなトラフィックの迂回が可能となります。
継続的な監視と完全な可視性
地域的な電力問題が検出されると、当社の監視インフラはネットワーク全体の動向をリアルタイムで捕捉しました。この可視性により、障害全体を通じて即時の運用判断と完全な状況認識が実現しました。
当社は、グローバルなサービスの中断を防止するため、システムを継続的に監視し、新たなサイバーセキュリティの動向を追跡しています。当社のチームは、地域的に広範囲にわたる混乱が生じている場合でも、企業の接続性を維持するためにテレメトリを分析し、必要に応じて対応策を調整するなど、引き続き全力で取り組んでいます。