클라우드 ·
AWS 대규모 장애, 인력 유출이 초래한 참사...DNS 문제로 미국 동부 리전 먹통
10월 20일 AWS US-EAST-1 리전에서 대규모 장애 발생, 은행·게임·소셜미디어 등 주요 서비스 중단
[한국정보기술신문] 아마존웹서비스(AWS)가 10월 20일 미국 동부 지역(US-EAST-1)에서 대규모 장애를 겪으면서, 이번 사태가 최근 수년간 진행된 아마존의 대규모 인력 감축과 인재 유출의 결과라는 분석이 제기됐다.
AWS는 태평양 표준시 기준 10월 20일 오전 12시 11분부터 US-EAST-1 리전의 여러 서비스에서 오류율 증가와 지연 현상을 조사하기 시작했다고 밝혔다. 약 1시간 후인 오전 1시 26분에는 해당 리전의 DynamoDB 엔드포인트 요청에서 심각한 오류율을 확인했으며, 오전 2시 1분에 엔지니어들이 DynamoDB API 엔드포인트의 DNS 해석 문제를 근본 원因로 파악했다.
DynamoDB는 다른 AWS 서비스들이 의존하는 핵심 서비스로, 이번 장애로 인해 은행, 게임, 소셜미디어, 정부 서비스, 아마존닷컴 쇼핑 등 인터넷의 상당 부분이 작동을 멈췄다.
75분간 원인 파악 못해
문제가 발생한 후 엔지니어들이 단일 서비스 엔드포인트로 문제를 좁히기까지 75분이 걸렸다는 점이 논란이 되고 있다. 이 기간 동안 AWS 상태 페이지를 방문한 사용자들은 모든 것이 정상이라는 기본 응답만을 확인할 수 있었다.
AWS는 이전에도 느린 장애 알림 시간을 개선 영역으로 여러 차례 지적한 바 있어, 이번 사태는 더욱 비판받고 있다.
인재 유출이 핵심 원인
2023년 말 AWS를 떠난 저스틴 개리슨은 당시 AWS에서 대규모 이벤트(LSE)가 증가했으며 2024년에 심각한 장애가 발생할 것이라고 예측한 바 있다. 그의 예측은 2025년에 현실이 됐다.
데이터에 따르면 2022년부터 2024년까지 아마존에서 27,000명 이상이 해고됐으며, 이는 2025년까지 이어지고 있다. 내부 문서에 따르면 아마존은 모든 고용 수준에서 69%에서 81%의 유감스러운 이직률을 겪고 있는 것으로 알려졌다. 이는 회사가 떠나지 않기를 바랐던 인력이 퇴사했다는 의미다.
제도적 지식의 상실
시스템 관리자들 사이에서는 "항상 DNS 문제"라는 말이 있을 정도로 많은 장애가 DNS와 관련이 있다. 하지만 AWS 규모에서 이를 75분이나 파악하지 못했다는 것은 시스템 구축 초기부터 참여한 선임 엔지니어들이 회사를 떠나면서 수십 년간 쌓인 제도적 지식도 함께 사라졌음을 시사한다.
새로 고용된 똑똑한 인력들은 DNS가 기술적으로 어떻게 작동하는지 설명할 수 있지만, DNS 문제가 발생했을 때 과거 장애에 관여했던 구석의 무관해 보이는 시스템을 확인해야 한다는 경험적 지식은 가지고 있지 않다.
비용 절감의 대가
아마존의 절약(Frugality) 리더십 원칙은 한때 적은 자원으로 더 많은 일을 한다는 의미였지만, 이제는 거의 아무것도 없이 모든 것을 하려는 시도로 변질됐다는 비판이 나온다. AWS의 운영 강점은 중복되고 경험 많은 인력을 기반으로 구축됐는데, 뼈까지 깎아내면 기본적인 것들이 무너지기 시작한다는 것이다.
전문가들은 이번이 고립된 사건으로 끝나지 않을 것이며, 인력이 공동화된 상황에서 모든 장애가 더 발생하기 쉬워졌다고 경고한다. 다음 장애는 이미 준비되고 있으며, 어느 인력 부족 팀이 어떤 예외 상황을 먼저 마주칠지의 문제일 뿐이라는 것이다.
한국정보기술신문 클라우드분과 이준호 기자 news@kitpa.org