AWS 대규모 장애, 인력 유출이 초래한 참사...DNS 문제로 미국 동부 리전 먹통

발행: 2025년 10월 22일

10월 20일 AWS US-EAST-1 리전에서 대규모 장애 발생, 은행·게임·소셜미디어 등 주요 서비스 중단

[한국정보기술신문] 아마존웹서비스(AWS)가 10월 20일 미국 동부 지역(US-EAST-1)에서 대규모 장애를 겪으면서, 이번 사태가 최근 수년간 진행된 아마존의 대규모 인력 감축과 인재 유출의 결과라는 분석이 제기됐다.

AWS는 태평양 표준시 기준 10월 20일 오전 12시 11분부터 US-EAST-1 리전의 여러 서비스에서 오류율 증가와 지연 현상을 조사하기 시작했다고 밝혔다. 약 1시간 후인 오전 1시 26분에는 해당 리전의 DynamoDB 엔드포인트 요청에서 심각한 오류율을 확인했으며, 오전 2시 1분에 엔지니어들이 DynamoDB API 엔드포인트의 DNS 해석 문제를 근본 원因로 파악했다.

DynamoDB는 다른 AWS 서비스들이 의존하는 핵심 서비스로, 이번 장애로 인해 은행, 게임, 소셜미디어, 정부 서비스, 아마존닷컴 쇼핑 등 인터넷의 상당 부분이 작동을 멈췄다.

75분간 원인 파악 못해

문제가 발생한 후 엔지니어들이 단일 서비스 엔드포인트로 문제를 좁히기까지 75분이 걸렸다는 점이 논란이 되고 있다. 이 기간 동안 AWS 상태 페이지를 방문한 사용자들은 모든 것이 정상이라는 기본 응답만을 확인할 수 있었다.

AWS는 이전에도 느린 장애 알림 시간을 개선 영역으로 여러 차례 지적한 바 있어, 이번 사태는 더욱 비판받고 있다.

인재 유출이 핵심 원인

2023년 말 AWS를 떠난 저스틴 개리슨은 당시 AWS에서 대규모 이벤트(LSE)가 증가했으며 2024년에 심각한 장애가 발생할 것이라고 예측한 바 있다. 그의 예측은 2025년에 현실이 됐다.

데이터에 따르면 2022년부터 2024년까지 아마존에서 27,000명 이상이 해고됐으며, 이는 2025년까지 이어지고 있다. 내부 문서에 따르면 아마존은 모든 고용 수준에서 69%에서 81%의 유감스러운 이직률을 겪고 있는 것으로 알려졌다. 이는 회사가 떠나지 않기를 바랐던 인력이 퇴사했다는 의미다.

제도적 지식의 상실

시스템 관리자들 사이에서는 "항상 DNS 문제"라는 말이 있을 정도로 많은 장애가 DNS와 관련이 있다. 하지만 AWS 규모에서 이를 75분이나 파악하지 못했다는 것은 시스템 구축 초기부터 참여한 선임 엔지니어들이 회사를 떠나면서 수십 년간 쌓인 제도적 지식도 함께 사라졌음을 시사한다.

새로 고용된 똑똑한 인력들은 DNS가 기술적으로 어떻게 작동하는지 설명할 수 있지만, DNS 문제가 발생했을 때 과거 장애에 관여했던 구석의 무관해 보이는 시스템을 확인해야 한다는 경험적 지식은 가지고 있지 않다.

비용 절감의 대가

아마존의 절약(Frugality) 리더십 원칙은 한때 적은 자원으로 더 많은 일을 한다는 의미였지만, 이제는 거의 아무것도 없이 모든 것을 하려는 시도로 변질됐다는 비판이 나온다. AWS의 운영 강점은 중복되고 경험 많은 인력을 기반으로 구축됐는데, 뼈까지 깎아내면 기본적인 것들이 무너지기 시작한다는 것이다.

전문가들은 이번이 고립된 사건으로 끝나지 않을 것이며, 인력이 공동화된 상황에서 모든 장애가 더 발생하기 쉬워졌다고 경고한다. 다음 장애는 이미 준비되고 있으며, 어느 인력 부족 팀이 어떤 예외 상황을 먼저 마주칠지의 문제일 뿐이라는 것이다.

한국정보기술신문 클라우드분과 이준호 기자 news@kitpa.org

AWS 대규모 장애, 인력 유출이 초래한 참사...DNS 문제로 미국 동부 리전 먹통

75분간 원인 파악 못해

인재 유출이 핵심 원인

제도적 지식의 상실

비용 절감의 대가

함께 읽으면 좋은 기사

구글 "AI로 자연재해 미리 알린다"...홍수·산불·지진 예측 한자리에...현지시간 6월 23일 'AI for the Planet' 행사서 10년간 위기 대응 성과 공개, 150여 개국 20억 명에 홍수 예보

엔비디아, 특화 AI '에이전트 툴킷' 공개...모델·도구·런타임 한데 묶었다...기업이 직접 다듬어 쓰는 오픈·모듈형 기반으로 안전·저비용 'AI 동료' 구축 겨냥, 생명과학·의료·보안 등 산업별 적용 확산

한국산업인력공단, OECD서 'AI 기반 직무능력표준 혁신' 사례 공유...GPT 활용한 'NCS 체크메이트'로 표준 형식 자동 점검...23일 OECD 국제 웨비나 패널 참여, 직업교육훈련에 AI 활용한 10개국 사례로 소개

보안 연구자 발소르다 "취약점 신고는 더 이상 특별하지 않다"...AI가 흔든 보안 제보의 위상...LLM이 누구나 비슷한 취약점을 찾아내며 '귀한 통찰·기밀 유지'라는 전제가 무너져, 분류·신속 패치·예방이 새 과제로

마이크로소프트, 타입스크립트 7.0 RC 공개...컴파일러 'Go'로 다시 짜 속도 10배 끌어올렸다

구글, 제미나이 통합 인터페이스 '인터랙션 API' 정식 출시...모델·에이전트 한 창구로 다룬다...자율 작업 수행 '관리형 에이전트'·백그라운드 실행 추가, 지난해 12월 베타 거쳐 기본 개발 도구로

교육부·평가원, 2025년 국가수준 학업성취도 평가 결과 6월 24일 발표...전반적 성취수준·학교생활은 지난해와 비슷, '중3 수학' 1수준 학생 비율은 전년보다 늘어

삼성전자, 업계 최고 성능 'UFS 5.0' 메모리 개발...온디바이스 AI 최적의 솔루션 제시...10.8GB/s 데이터 전송 대역폭으로 차세대 스마트폰 등 모바일 기기에 탑재 예정, AI 모델·데이터 빠르게 RAM에 전달

문체부, '케이-게임' IP 키운다...1,200억 원 게임 펀드 결성...넥슨 588억 원 참여, 문화계정 역대 최대 규모로 초기 개발부터 국제 지식재산 성장까지 뒷받침

엔비디아, 과학 연구 가속 AI 소프트웨어 공개...우주 관측 데이터 처리 최대 1만4900배 빨라져...현지시간 6월 22일 ISC 콘퍼런스서 '쿠다-X' 신규 라이브러리·서비스 발표, 화학·신소재부터 암흑물질 탐색까지 적용

울트라리틱스, 차세대 실시간 영상 AI 'YOLO26' 공개...탐지·분할·자세추정 한 모델로...현지시간 6월 2일 논문 사전공개, 후처리 'NMS' 없애고 학습 비용 줄여 COCO서 정확도·속도 동시 향상

SK하이닉스, 'AI 메모리의 미래' 5가지 제시...HBM 넘어 D램·낸드까지 '풀 스택' 강조...연산보다 데이터 이동·저장 효율이 AI 경쟁력 좌우, 학습서 추론으로 넓어지는 수요에 종합 대응 선언