AWS: AI 도구가 문제가 아니라 사용자 실수에요

13시간 AWS 장애, 자사 AI 도구가 원인
회사는 “사용자 실수” 탓이라며, 에이전트 도구가 끼어든 건 “우연”이었다고 주장함.
최근 13시간 동안 이어진 Amazon Web Services(AWS) 장애가 Amazon의 자체 AI 도구 때문에 났다는 보도가 나옴. Financial Times에 따르면, 12월에 엔지니어들이 Kiro라는 AI 코딩 도구를 써서 일부 변경을 적용한 뒤 문제가 발생했고, 사정을 아는 4명이 그렇게 말했다고 함.
Kiro는 에이전트형 도구라서, 사용자를 대신해 알아서 작업을 진행할 수 있음. 이번 건에서는 봇이 “환경을 지우고 다시 만들어야 한다”고 판단한 것으로 전해짐. 이게 주로 중국 지역에 영향을 준 장시간 장애로 이어졌다는 주장임.
Amazon은 “AI 도구가 관련된 건 그냥 우연”이고 “똑같은 문제는 어떤 개발 도구를 쓰든, 사람이 수동으로 하든 생길 수 있다”고 말함. 회사는 원인을 “AI 실수”가 아니라 “사용자 실수”로 돌림. 기본 설정에선 Kiro가 “뭐든 실행하기 전에 승인 요청을 한다”고 하면서도, 12월 사건 당시 해당 직원이 “생각보다 훨씬 넓은 권한을 갖고 있었다 — AI가 제멋대로 한 문제가 아니라 접근 권한 설정 문제”였다고 설명함.
여러 Amazon 직원들이 Financial Times에 말하길, 최근 몇 달 사이 회사 AI 도구가 서비스 장애 한가운데에 있었던 게 “최소 두 번째”라고 함. 한 AWS 고위 직원은 “장애 규모는 작았지만 충분히 예상 가능한 일이었다”고 말함.
Amazon은 7월에 Kiro를 내놓은 뒤 직원들에게 사용을 강하게 밀어붙여 왔다고 함. 경영진은 주간 사용률 목표를 80%로 잡고 도입률을 빡세게 추적해왔음. Amazon은 이 에이전트 도구 접근권도 월 구독 형태로 판매 중임.
이런 최근 사례들은 10월에 있었던 더 큰 사건 뒤에 이어진 것임. 당시 15시간 AWS 장애로 Alexa, Snapchat, Fortnite, Venmo 같은 서비스들이 영향을 받았고, 회사는 그 원인을 자사 자동화 소프트웨어의 버그라고 설명했음.
다만 Amazon은 특정 제품이나 서비스가 잠깐 안 됐던 걸 ‘장애(outage)’라고 부르는 건 동의하지 않는다고 함. Financial Times 보도에 반박하면서, 회사는 자사 뉴스 블로그에도 올린 아래 성명을 공유했음.
우리는 어제 Financial Times 보도에 있는 잘못된 내용을 바로잡고자 함. 그들이 말한 짧은 서비스 끊김은 사용자 실수였고(구체적으로는 접근 권한 설정을 잘못함), 기사에서 주장하듯 AI 때문은 아님.
이번 건은 지난해 12월에 있었던 아주 제한적인 사건임. 전 세계 39개 Geographic Regions 중 한 곳에서 단일 서비스인 AWS Cost Explorer(고객이 AWS 비용/사용량을 시각화하고 이해하고 관리하도록 돕는 서비스)만 잠깐 영향 받았음. compute, storage, database, AI 기술 등 우리가 운영하는 다른 수백 개 서비스에는 영향 없었음. 원인은 role 설정을 잘못한 거였고, 이건 어떤 개발 도구(AI 기반이든 아니든)로 작업하든 사람이 직접 하든 똑같이 생길 수 있는 문제임. 이 중단과 관련해서 고객 문의도 없었음. 우리는 재발 방지 장치를 여러 개 추가했음. 사건 영향이 커서가 아니라(영향은 크지 않았음), 운영 경험에서 배우고 보안과 복원력을 더 높이려는 목적임. 추가 조치로 프로덕션 접근은 동료 검토를 의무화하는 것도 포함됨. 접근 권한 설정 실수로 인한 운영 사고는 AI 여부와 상관없이 어떤 개발 도구에서도 생길 수 있고, 우리는 이런 경험에서 배우는 게 중요하다고 봄. Financial Times가 두 번째 사건이 AWS에 영향을 줬다고 주장한 건 완전히 사실 아님.
Amazon은 20년 넘게 Correction of Error(COE) 프로세스로 높은 운영 수준을 유지해왔음. 고객 영향이 있었는지와 상관없이 모든 사건을 함께 리뷰해서, 잠재적 영향이 더 커지기 전에 문제를 잡고 고친다는 뜻임.
