클라우드 ·
아마존 웹서비스 대규모 장애로 전 세계 인터넷 마비...스냅챗·포트나이트 등 주요 서비스 중단
아마존 웹서비스가 10월 20일 대규모 장애를 겪으며 전 세계 수천 개 앱과 웹사이트가 동시 마비됐다.
[한국정보기술신문] 아마존 웹서비스가 현지시각 10월 20일 대규모 장애를 일으키며 전 세계 인터넷 서비스에 심각한 영향을 미쳤다. 이번 장애로 스냅챗, 포트나이트, 로블록스 등 주요 앱과 게임은 물론 금융기관, 항공사까지 동시다발적인 서비스 중단 사태를 겪었다.
아마존에 따르면 이날 오전 3시 11분부터 미 동부 표준시 기준 버지니아주 북부에 위치한 US-EAST-1 데이터센터에서 오류율과 지연 시간이 급증하기 시작했다. 문제의 원인은 DynamoDB 서비스의 DNS 해석 오류였다. DNS는 인터넷의 전화번호부 역할을 하는 시스템으로, 웹 주소를 IP 주소로 변환하는 핵심 기능을 담당한다.
장애는 오전 4시 26분 DynamoDB 엔드포인트 문제로 진단됐으며, 오전 5시 1분 구체적인 문제가 식별됐다. 아마존은 오전 5시 22분 수정 조치를 배포했지만, 완전한 복구까지는 7시간 이상이 소요됐다.
광범위한 피해 규모
장애 추적 사이트 다운디텍터에 따르면 오전 7시 50분경 최고 5만 건 이상의 장애 신고가 접수됐다. 총 113개의 AWS 서비스가 영향을 받았으며, 이를 기반으로 운영되는 수천 개 기업의 서비스가 중단됐다.
스냅챗은 전 세계 일일 활성 사용자 4억 6900만 명이 서비스를 이용하지 못했다. 게임 플랫폼 포트나이트와 로블록스 이용자들은 로그인이 불가능했으며, 포켓몬 고 플레이어들도 접속 장애를 겪었다.
금융 부문에서는 로빈후드, 벤모, 코인베이스 등 투자 및 결제 플랫폼이 타격을 받았다. 영국의 로이즈와 핼리팩스 은행도 서비스가 중단됐다. 유나이티드 항공과 델타 항공은 앱과 웹사이트 접속 장애로 일부 항공편이 지연됐다.
아마존 자체 서비스도 예외가 아니었다. 링 초인종, 알렉사 스피커, 킨들 전자책 다운로드 등이 작동하지 않았다. 뉴욕타임스, 월스트리트저널, AP통신 등 주요 언론사도 영향을 받았다.
클라우드 의존도 재조명
버지니아대학교 클라우드 컴퓨팅 전문가 창 루 교수는 AWS가 기업들에게 데이터 저장 및 관리를 위한 클라우드 컴퓨팅 자원을 임대하는 역할을 한다고 설명했다. DynamoDB 소프트웨어 업데이트 과정에서 발생한 오류가 연쇄적인 서비스 장애를 일으킨 것이다.
시너지 리서치 그룹에 따르면 AWS는 전 세계 클라우드 컴퓨팅 시장의 약 30퍼센트를 점유하고 있다. 아마존은 버지니아주에만 500억 달러 이상을 투자해 미국 최대 규모의 데이터센터 클러스터를 운영 중이다.
스코프 마켓의 조슈아 마호니 수석 시장 애널리스트는 클라우드 장애가 드문 일은 아니지만, 더 많은 기업들이 매일 이러한 서비스에 의존하면서 그 영향이 더욱 두드러지고 있다고 지적했다.
복구 및 향후 과제
아마존은 오후 12시 28분 대부분의 고객과 서비스가 상당한 복구를 보이고 있다고 발표했다. 오후 2시경에는 다운디텍터의 신고 건수가 5000건 미만으로 감소했으며, 오후 1시 30분에는 2000건 미만으로 떨어졌다.
그러나 이번 장애는 현대 인터넷 인프라의 취약성을 드러냈다. 한 전문가는 이날 장애로 인한 경제적 영향이 수천억 달러에 달할 수 있다고 추정했다.
업계에서는 단일 클라우드 제공업체에 대한 과도한 의존도를 줄이고, 더욱 다각화되고 회복력 있는 클라우드 전략의 필요성에 대한 논의가 활발해지고 있다. 2024년 크라우드스트라이크 장애 사례처럼 작은 문제가 전 세계적인 파급 효과를 일으키는 상황에 대한 우려도 커지고 있다.
한국정보기술신문 방송통신분과 문상호 기자 news@kitpa.org