소개
일본의 골든위크는 전 지역에서 가장 손꼽아 기다리는 연휴철이지만, IT 및 네트워크 운영팀에게는 악명 높은 극한의 스트레스 테스트입니다. 기업들의 완전한 셧다운 이후 업무가 재개되면서, 수백만 명의 직장인이 현지시간 기준 오전 9시에 동시다발적으로 로그인하여 극심하고 급속한 트래픽 급증을 일으킵니다.
Cato Networks는 매년 이 시기를 대비했습니다. 하지만 이번에는 단순히 ‘버텨내는’ 수준을 넘어, 피크 타임에 트래픽이 두 배 이상 급증하는 상황에서도 모든 사용자에게 완벽한 서비스를 제공하겠다는 목표를 세웠습니다.
우리는 ‘혹독한 훈련이 실전의 여유를 만든다’는 원칙을 따릅니다. 즉, Cato Networks는 실제 운영 환경에서 직면할 상황보다 훨씬 더 혹독한 조건을 상정하고 인프라를 준비합니다. 또한 우리는 스스로에게 가장 엄격한 비평가가 되어 끊임없는 스트레스 테스트와 가정 조건에 대한 재검증을 실시합니다. 이를 통해 실제 상황에서 문제가 발생했을 때 단순한 대비를 넘어선 상태를 갖추도록 합니다. 우리는 자신이 있습니다.
이 글에서는 Cato Networks가 글로벌 네트워크 역사상 가장 까다로운 실제 시나리오 중 하나를 철저하게 준비하고 관리한 방법에 관한 엔지니어링 및 운영 과정의 비하인드 스토리를 공유합니다.
골든위크 기간의 트래픽 급증에 대해 알아보기
연휴 이후 업무 복귀가 여러 시간대와 주에 걸쳐 점진적으로 이뤄지는 미국과 달리, 일본의 업무 복귀는 시간 및 지리 면에서 매우 높은 밀집도를 보입니다. 엄청난 수의 근로자들이 주요 대도시에서 일제히 업무를 재개하며, 특히 도쿄와 오사카 등 최인접 지역 PoP(상호 접속 위치)에 급격한 수요를 발생시킵니다.
우리는 업무 재개 후 첫 30분 이내에 트래픽 양이 평상시 피크 시간대보다 2.5배 이상 급증할 수 있음을 확인했습니다. 이러한 트래픽 급증은 단순히 사용자 로그인만의 문제가 아니라 기기 전반의 동기화 작업, 소프트웨어 업데이트, 협업 플랫폼 갱신 등이 연관됩니다. 실제 트래픽 급증 기간 동안 분석한 결과, Microsoft OneDrive, Windows Update, Office 365, Adobe, SharePoint, Microsoft Exchange와 같은 애플리케이션이 전체 트래픽의 약 70%를 차지하는 것으로 나타났습니다.
이러한 역동성은 대역폭과 처리량은 물론, 암호화 처리에서 실시간 라우팅 결정에 이르기까지 아키텍처 전 계층을 시험대에 올립니다.
당면 과제
올해 골든위크 이후 상당한 트래픽 급증을 예상했으며, 이러한 예측은 정확했습니다. Cato Networks는 동시 접속 사용자의 급증과 더불어 SaaS 애플리케이션 업데이트가 주된 요인이 되어 대역폭 사용량이 크게 늘어나는 상황을 경험했습니다. 이러한 수요는 당사의 환경 전반에 걸쳐 광범위하게 발생했습니다. 지점 사용자들은 재인증 과정을 거쳐 Windows 업데이트를 다운로드하고 파일 동기화를 진행했으며, 모바일과 원격 사용자들은 VPN 터널을 통해 재연결했습니다. 클라우드 워크로드가 다시 활성화되어 SaaS 플랫폼과의 동기화를 진행했으며, 성능을 유지하기 위해 실시간 트래픽에 대한 우선순위를 적극적으로 지정하고 셰이핑하며 재라우팅하는 작업이 필요했습니다. 당사의 아키텍처는 확장성은 물론 극한 상황에서도 정확성을 제공해야 했습니다.
최대 부하 처리와 복원력을 위해 구축된 Cato의 아키텍처
Cato는 이러한 극한 상황을 고려하며 클라우드 네이티브 멀티 코어 아키텍처를 고도의 관측 기능 및 자동화된 보안 체계를 결합한 플랫폼을 설계했습니다.
트래픽 급증 환경의 사이트를 위한 멀티 코어 및 격리 기술
급증하는 수요를 충족하기 위해 다음과 같은 여러 주요 아키텍처 기능을 활용했습니다.
- 여러 CPU에 부하를 분산시키는 멀티 코어 아키텍처를 통해 최대 10Gbps 대역폭의 소켓 사이트를 지원할 수 있습니다.
- 리소스 예약은 극심한 부하 환경에서도 높은 대역폭의 사이트에 일관된 성능을 제공합니다.
- 고유한 오프로드 아키텍처는 대규모 암호화 및 암호 해독 작업을 독립적으로 관리함으로써 CPU 리소스 사용을 최적화하고 전체 대역폭 효율을 향상시킵니다.
핵심부에서의 DTLS 최적화 및 종료
당사 PoP에서 종료되는 모든 암호화 터널은 효율적이고 안전하며 대용량 트래픽 암호 해독이 필요한 DTLS을 활용합니다. Cato의 인프라는 오프로드된 하드웨어 가속 암호화 모듈과 동적 서비스 코어 할당을 활용하여 대용량 트래픽 처리에 최적화된 환경을 구축했습니다.
트래픽 급증 상황에서의 복원력 대비
연휴 이후 복귀에 따른 트래픽 급증과 무관하게 합법적인 트래픽과 병행하여 DDoS 공격 시도 및 로그인 무차별 대입 공격 패턴을 계속해서 모니터링합니다. 지역 기반 데이터로 훈련된 인라인 탐지 엔진은 악성 트래픽을 실시간으로 필터링할 수 있습니다.
또한 최근 도쿄에 네 번째 고용량 라우터를 배치했으며, 해당 지역의 모든 PoP 위치에 트래픽 부하를 성공적으로 분산하여 최대 수요 상황에서 이중화와 성능을 모두 강화했습니다.
급증 기간 동안 복원력을 유지하기 위한 당사의 모니터링 기능에는 다음과 같은 활동이 포함되었습니다.
- 언제든지 최종 사용자 경험에 영향을 미치지 않으면서 대량 트래픽 공격을 탐지하고 완화할 수 있었습니다.
- DPDK 누락률과 포트 활용도를 모니터링하여 NIC와 패킷 프로세서가 예상 임계값 내에서 작동하도록 했습니다.
- 라우터 동기화 이상 현상을 트래픽 패턴과 연관시켜 작은 결함이 사용자에게 영향을 미치는 문제로 발전되기 전에 이를 선제적으로 감지했습니다.
이를 통해 확장성뿐만 아니라 합법적 수요와 잠재적 위협 상황 모두에 대처할 수 있는 복원력을 확보할 수 있었습니다.
일본 맞춤형 인프라 준비
연휴 이후 첫 번째 패킷이 네트워크에 도달하기 부터 이러한 트래픽 부하 시나리오에 대응하기 위해 일본에 특화된 인프라를 준비해 왔습니다. Cato가 실시한 작업은 다음과 같습니다.
PoP 확장 및 이중화
일본에 새로운 PoP를 추가하고 기존 인프라를 업그레이드하여 지리적 분산도와 복원력을 높였으며, 여기에는 다음과 같은 활동이 포함되었습니다.
- 라우터 하드웨어를 업그레이드하여 물리적 트래픽 리량을 대폭 향상시키고, 포트 집적도 및 인터페이스 용량을 늘렸습니다. 이를 통해 개별 라우터의 동시 트래픽 처리량을 대폭 늘려 일본 PoP에서 예상되는 수요 급증에 대응할 수 있었습니다.
- PoP 내부의 데이터 경로를 확장하여 고객 대면 서비스와 핵심 처리 구성 요소를 연결하여 부하 상황에서 증가하는 동서간 트래픽을 지원했습니다.
- 패킷 검사, 터널링, 암호화 등 컴퓨터 집약적 기능을 확장하기 위해 CPU 코어를 확충했습니다.
모니터링 기능 활용
모니터링 능력을 활용하여 스트레스 지점과 압박지점을 식별하여 문제를 예방하고 여러 계층에 걸쳐 성능을 미세 조정할 수 있었습니다. 그 예시는 다음과 같습니다.
- 각 PoP에서 라우터 트래픽, VPN 터널 수, 터널 처리량을 실시간으로 모니터링했습니다.
- 구성 요소 전반에 걸쳐 포트 활용도, 계층별 패킷 손실, 동기화 장애를 명확하게 파악했습니다.
- 일본 PoP별 맞춤형 대시보드를 통해 업무 재개 첫 한 시간 동안 시스템 건강과 성능을 모두 추적했습니다.
이를 통해 엔지니어들은 사용자 경험에 영향을 미치지 않도록 시스템의 모든 요소를 정확하게 파악할 수 있었습니다.
그림 1은 도쿄 PoP의 라우터 트래픽 총량이 4월 29일(단일 휴일)부터 5월 7일(골든위크 이후 첫 근무일)까지 대역폭 기준으로 두 배 증가했음을 보여줍니다. 그림 2(UTC로 표시)는 일본 PoP 중 한 곳에서 정확히 오전 9시 JST(UTC 기준 자정)에 발생한 라우터 트래픽 급증을 조명합니다. 그림 3은 오전 9시에 VPN 터널 수의 상응하는 급증을 표시하고, 그림 4는 같은 시간에 DTLS 및 IPSec 연결을 모두 포함한 VPN 터널 처리량의 증가를 설명합니다. 그림 5와 6은 ZTNA 사용자 연결 및 트래픽 처리량이 평소보다 두 배 이상으로 급증했음을 보여줍니다.
그림 1: 도쿄 PoP – 4월 29일(단일 휴일)에서 5월 7일(골든위크 이후 첫 근무일)까지 라우터 트래픽 총량의 대역폭이 두 배로 증가
그림 2: 도쿄 PoP – 라우터 트래픽 총량
그림 3: 도쿄 PoP – 총 VPN 터널 수(DTLS 및 IPSec 연결 포함)
그림 4: VPN 터널( DTLS 및 IPSec 연결 포함) 시간별 트래픽 처리량
그림 5: 일본 내 ZTNA 사용자 연결 총계
그림 6: 일본 전체 ZTNA 사용자 처리량
연휴 이후 트래픽 급증 기간 중 애플리케이션 사용 심층 분석
그림 7은 대역폭 사용량 측면에서 가장 중요한 애플리케이션을 보여줍니다. 골든위크 연휴 이후 일본 PoP 전역에서 Windows Update, Microsoft Office365, Adobe가 네트워크 트래픽을 가장 많이 발생시키는 것으로 나타났으며, 이는 시스템 업데이트와 업무 재개가 동시에 일어난 상황을 반영합니다. OneDrive, SharePoint, Outlook, Microsoft General 서비스도 유의미한 사용량을 보였으며, 이는 Microsoft 생태계 내에서 지속적인 협업과 커뮤니케이션이 이루어지고 있음을 시사합니다. 이러한 분포는 연휴 이후 활동에서 Microsoft 서비스가 차지하는 압도적 위치를 부각시키고, 대규모 클라우드 기반 협업을 안정적으로 지원할 인프라의 필요성을 강조합니다.
그림 7: 일본 PoP 전역의 주요 애플리케이션 사용 현황
운영 실행
기반이 구축되었고 이제 검증의 순간이 다가왔습니다. NOC 팀은 전체 인력을 동원하여 대기 상태를 유지했고, 특히 트래픽 폭증이 예상되었던 JST 오전 9시~10시에 집중했습니다.
자동 + 수동 관측 기능
Cato는 자동 이상 탐지 기능과 수동 엔지니어링 감독 기능을 결합했으며, 주요 기능은 다음과 같습니다.
- 고객 구성에서 부하 지점에 대한 주간 분석(예: 불필요한 홉을 유발하는 잘못 구성된 송신 IP)을 통해 정책을 사전에 조정할 수 있었습니다.
- 사이트별 서비스 코어에 대한 실시간 모니터링을 통해 CPU 코어가 한계점에 도달하지 않도록 했습니다.
- 내부 PoP 경로와 인터넷 제공업체와의 외부 피어 연결을 모니터링했으며, 자동화 도구를 사용하여 모든 이상 징후에 대응할 수 있도록 대비했습니다.
성과: 최대 수요 상황에서 최적의 경험 제공
결과: 기록적인 부하 환경에서도 당사는 인프라 전반에 걸쳐 강력하고 일관된 성능을 구현했습니다. 주요 성과는 다음과 같습니다.
- 최대 VPN 터널 수와 트래픽 처리량이 전년 대비 2배 이상 증가했지만 대기 시간이 급증 없이 처리했습니다.
- 라우터 트래픽 처리량이 사상 최고치를 기록했지만 패킷 손실률은 미비한 정도에 머물렀습니다.
선제적 확장, 체계적인 운영, 복원력을 위해 설계된 아키텍처를 통해 우리는 고객이 필요로 하는 바를 정확하게 제공했습니다. 트래픽 처리량이나 복잡성에 관계없이 작동하는 네트워크를 구현했습니다.