오늘, 아마존의 인재 유출이 결국 AWS를 무너뜨렸다

— 최고의 엔지니어들이 로그아웃하면, 클라우드는 DNS가 뭔지도 잊는다

글: 코리 퀸(Corey Quinn), The Register 특별 기고
2025년 10월 20일 (월) 19:55 UTC

“언제나 DNS 문제다(It’s always DNS)”

이건 오래된 시스템 관리자들의 농담이지만, 이유가 있다. 상당수의 대형 장애의 근본 원인은 결국 DNS 때문이다.
그리고 오늘, AWS가 여전히 마비된 클라우드를 복구하는 동안에도, 범인은 다시 한 번 DNS임이 분명해졌다.
당연히, 이 사실을 우리나 당신이 아는 만큼 AWS도 모를 리 없다.

그러나 한 가지 조용한 의심이 떠오른다 —
“이런 사태를 여러 번 겪어본 AWS의 베테랑 엔지니어들은 다 어디로 간 걸까?”
답은 명확하다. 그들은 이미 회사를 떠났고, AWS 시스템이 어떻게 대규모로 작동하는지를 담은 수십 년의 노하우를 함께 가져갔다.

무슨 일이 일어났나?

AWS는 10월 20일 새벽 12시 11분(태평양 표준시), 미국 동부(US-EAST-1) 리전의 여러 서비스에서 에러율 증가와 지연을 조사하기 시작했다고 밝혔다.
약 한 시간 뒤인 1시 26분, AWS는 “해당 리전의 DynamoDB 엔드포인트 요청에서 심각한 오류율”을 확인했다.
그리고 2시 1분, 엔지니어들은 DynamoDB API의 DNS 해석 문제가 근본 원인일 가능성을 찾았다.
이 문제는 다른 서비스들로 도미노처럼 전파됐다.
DynamoDB는 수많은 AWS 서비스들이 의존하는 ‘기반 서비스(foundation service)’이기 때문이다.

결과적으로, 인터넷의 상당 부분이 멈췄다 —
은행, 게임, SNS, 정부 서비스, 심지어 Amazon.com에서 불필요한 물건을 사는 것조차 불가능했다.

AWS는 전통적으로 장애 발생 시 단계별로 세부 내용을 공개한다.
이를 보면, 문제가 발생한 후 원인을 단일 서비스 엔드포인트로 좁히기까지 75분이 걸렸다는 사실을 알 수 있다.
솔직히, 이건 다소 뼈아프다.
AWS가 불투명해서가 아니라, 정말로 75분 동안 무슨 일이 일어나고 있는지 몰랐던 것으로 보인다.

그 75분 동안, 사용자들이 AWS 상태 페이지를 확인하면 “모든 시스템이 정상입니다!”라는 기본 메시지가 떴다.
AWS는 예전에도 “장애 공지 속도 개선”을 과제로 꼽은 적이 여러 번 있었다.
하지만 이번에도 그 약속은 지켜지지 않았다.

예언은 현실이 되었다

AWS는 인프라에 관해서라면 세계 최고 수준이다.
그들의 38개 리전 중 단 하나가 다운되어도 전 세계 뉴스가 될 정도다.
규모가 워낙 크다 보니, 어떤 문제도 단순하지 않다.
이건 “누군가 실수한 단순한 이슈”가 아니라, 복잡한 시스템적 실패다.

그러나 더 걱정스러운 건, AWS가 하루 종일 이 문제를 붙잡고도 제대로 해결하지 못하고 있는 모습이다.
여기서 나는 2023년 말의 한 사건이 떠올랐다.

당시 저스틴 개리슨(Justin Garrison)이라는 AWS 베테랑이 회사를 떠나며 쓴소리를 남겼다.
그는 “AWS의 대규모 장애(Large Scale Events, LSE)가 증가하고 있다”며 2024년에 큰 장애가 터질 것이라고 예언했다.
그리고 실제로, 그의 말은 현실이 되고 있다.
이와 동시에, AWS의 시니어 엔지니어 이탈은 멈추지 않았다.
결국 이런 대규모 장애에 그 영향이 드러난 셈이다.

DNS의 구조를 이론적으로 완벽히 설명할 수 있는 똑똑한 사람은 많이 채용할 수 있다.
하지만, “DNS가 이상할 때는 구석의 엉뚱한 시스템을 확인해야 한다”는 과거의 경험적 지식을 가진 사람은
돈으로 채용할 수 없다.

그런 ‘부서 내 전승 지식(tribal knowledge)’이 사라지면, 결국 예전의 실수를 다시 반복한다.
이번 장애는 그 결과물이다.