오늘, 아마존의 인재 유출이 결국 AWS를 무너뜨렸다
— 최고의 엔지니어들이 로그아웃하면, 클라우드는 DNS가 뭔지도 잊는다
글: 코리 퀸(Corey Quinn), The Register 특별 기고
2025년 10월 20일 (월) 19:55 UTC
“언제나 DNS 문제다(It’s always DNS)”
이건 오래된 시스템 관리자들의 농담이지만, 이유가 있다. 상당수의 대형 장애의 근본 원인은 결국 DNS 때문이다.
그리고 오늘, AWS가 여전히 마비된 클라우드를 복구하는 동안에도, 범인은 다시 한 번 DNS임이 분명해졌다.
당연히, 이 사실을 우리나 당신이 아는 만큼 AWS도 모를 리 없다.
그러나 한 가지 조용한 의심이 떠오른다 —
“이런 사태를 여러 번 겪어본 AWS의 베테랑 엔지니어들은 다 어디로 간 걸까?”
답은 명확하다. 그들은 이미 회사를 떠났고, AWS 시스템이 어떻게 대규모로 작동하는지를 담은 수십 년의 노하우를 함께 가져갔다.
무슨 일이 일어났나?
AWS는 10월 20일 새벽 12시 11분(태평양 표준시), 미국 동부(US-EAST-1) 리전의 여러 서비스에서 에러율 증가와 지연을 조사하기 시작했다고 밝혔다.
약 한 시간 뒤인 1시 26분, AWS는 “해당 리전의 DynamoDB 엔드포인트 요청에서 심각한 오류율”을 확인했다.
그리고 2시 1분, 엔지니어들은 DynamoDB API의 DNS 해석 문제가 근본 원인일 가능성을 찾았다.
이 문제는 다른 서비스들로 도미노처럼 전파됐다.
DynamoDB는 수많은 AWS 서비스들이 의존하는 ‘기반 서비스(foundation service)’이기 때문이다.
결과적으로, 인터넷의 상당 부분이 멈췄다 —
은행, 게임, SNS, 정부 서비스, 심지어 Amazon.com에서 불필요한 물건을 사는 것조차 불가능했다.
AWS는 전통적으로 장애 발생 시 단계별로 세부 내용을 공개한다.
이를 보면, 문제가 발생한 후 원인을 단일 서비스 엔드포인트로 좁히기까지 75분이 걸렸다는 사실을 알 수 있다.
솔직히, 이건 다소 뼈아프다.
AWS가 불투명해서가 아니라, 정말로 75분 동안 무슨 일이 일어나고 있는지 몰랐던 것으로 보인다.
그 75분 동안, 사용자들이 AWS 상태 페이지를 확인하면 “모든 시스템이 정상입니다!”라는 기본 메시지가 떴다.
AWS는 예전에도 “장애 공지 속도 개선”을 과제로 꼽은 적이 여러 번 있었다.
하지만 이번에도 그 약속은 지켜지지 않았다.
예언은 현실이 되었다
AWS는 인프라에 관해서라면 세계 최고 수준이다.
그들의 38개 리전 중 단 하나가 다운되어도 전 세계 뉴스가 될 정도다.
규모가 워낙 크다 보니, 어떤 문제도 단순하지 않다.
이건 “누군가 실수한 단순한 이슈”가 아니라, 복잡한 시스템적 실패다.
그러나 더 걱정스러운 건, AWS가 하루 종일 이 문제를 붙잡고도 제대로 해결하지 못하고 있는 모습이다.
여기서 나는 2023년 말의 한 사건이 떠올랐다.
당시 저스틴 개리슨(Justin Garrison)이라는 AWS 베테랑이 회사를 떠나며 쓴소리를 남겼다.
그는 “AWS의 대규모 장애(Large Scale Events, LSE)가 증가하고 있다”며 2024년에 큰 장애가 터질 것이라고 예언했다.
그리고 실제로, 그의 말은 현실이 되고 있다.
이와 동시에, AWS의 시니어 엔지니어 이탈은 멈추지 않았다.
결국 이런 대규모 장애에 그 영향이 드러난 셈이다.
DNS의 구조를 이론적으로 완벽히 설명할 수 있는 똑똑한 사람은 많이 채용할 수 있다.
하지만, “DNS가 이상할 때는 구석의 엉뚱한 시스템을 확인해야 한다”는 과거의 경험적 지식을 가진 사람은
돈으로 채용할 수 없다.
그런 ‘부서 내 전승 지식(tribal knowledge)’이 사라지면, 결국 예전의 실수를 다시 반복한다.
이번 장애는 그 결과물이다.
인재 유출의 증거
이 기사는 단순한 블로그가 아니라, 저널리즘 매체 The Register의 공식 칼럼이다.
따라서 AWS 홍보팀이 “AWS에는 인재 유출이 없다”고 반박하리란 걸 이미 알고 있다.
그래서 미리 데이터로 말한다.
2022~2025년 사이 아마존 전체에서 27,000명 이상이 감원됨.
(AWS와 모회사 아마존의 구분은 불투명함)‘유감 이직률(regretted attrition)’이 69~81%로 보고됨.
→ 즉, “떠나면 아쉬운 핵심 인력들이 실제로 떠났다.”복귀 근무(Return to Office) 정책의 강압적 시행에 대해 내부 불만 폭증.
초기 AWS 시스템을 만든 엔지니어들에게 이제 다른 기회는 넘쳐난다.
그들이 더 이상 회사에 남을 이유가 없다.
결론: 기술이 낡은 게 아니라, 사람이 새롭다
이건 AWS의 기술이 오래돼서 생긴 문제가 아니다.
그 기술을 유지하던 사람들이 사라졌기 때문이다.
새로 들어온, 더 적고 더 저렴한 인력들은
이전 세대가 쌓아온 “장애 감지와 복구”의 감각적 노하우를 갖고 있지 않다.
예전의 아마존은 “절약(Frugality)”을 ‘적은 자원으로 더 많이 해내는 것’으로 이해했다.
이제는 ‘거의 없는 자원으로 모든 걸 하라’로 바뀌었다.
이런 상황에선 기본적인 것부터 부서진다.
시장은 이번 한 번은 용서할 것이다.
그러나 패턴은 반복될 것이다.
AWS는 이번 사태를 “고립된 단일 사건(isolated incident)”이라 할 것이다.
하지만 핵심 인력층이 텅 비어버린 조직에선,
모든 사건이 점점 더 ‘가능한 일’이 되어간다.
다음 장애는 이미 준비되고 있다.
어떤 부족한 팀이, 어떤 예외 케이스에 먼저 걸려 넘어질지
이제는 시간 문제일 뿐이다.
위 내용은 아래 기사를 ai로 번역하였습니다.
https://www.theregister.com/2025/10/20/aws_outage_amazon_brain_drain_corey_quinn/
아마존이 상태가 썩 좋지는 않은가 보네요.
역시 노하우(암묵지) 라는 건 무시 못하는 것 같습니다.