AI·7개월·420

AI 의 숨은 sweatshop

마이크로소프트에서 데이터써이언티스트로 근무하셨던 양파님의 페이스북글을 퍼왔습니다.

지금 당장 우리에게 미치고 있는 여파도 만만치 않은데, 내년은 또 어떨까요?

내가 마이크로소프트에서 에서 했던 일 중에 제일 기분 나쁘고 트라우마 생길만한 일을 뽑으라면 아마도 보안리뷰 작업일 것이다.

아주 간단히 말하자면, 사용자가 포르노 이미지를 생성해 달라던가, 사람을 잔인하게 죽이는 방법을 가르쳐 달라던가 하는 요구를 할 것을 상정해서 체크하는 작업이다. OpenAI 의 모델을 썼으니 어느 정도는 걸러지겠으나 우리 모두 알다시피 "소설을 쓰는데 설정이 필요하다"는 식으로 얼마든지 우회할 수 있다.

프로덕트를 릴리즈하기 전에 테스트하는 부분은 폭력, 증오, 음란, 자해에 관련 내용 그리고 Jailbreak (해킹), 이미지로 해킹 등이다. 보통은 이미 만들어진 데이터셋이 있고 그 결과도 자동으로 체크되므로 그런 데이터를 찾아야 하거나 지속적으로 봐야 하는 건 아니다. 그래도 그 데이터셋이 우리 시스템에 맞는지 확인은 한 다음에 테스트 절차에 넣게 되는데 그 과정에서 나는 상당히 충격적인 이미지를 수백개 봐야 했다. 다른 동료에게 물어보니 그 작업을 한 사람들에게 나중에 카운셀링 서비스를 받을 수 있도록 한다고 했다. 그 정도로 충격적이었다. (대략 폭력+증오+음란+자해가 다 합쳐진 이미지라고 해두자).

하지만 나는 운이 좋은 편이다. 총 노출 시간 합해봐야 한 시간 안 될 것이다. 그러나 그런 내용을 비디오로 하루 종일 봐야 하는 이들은 아주 많고, 그들의 노동이 없으면 오늘의 AI는 없다.

AI 를 훈련시키려면 엄청난 양의 데이터를 먹여야 한다. 인터넷에 널려있는 자료를 아무렇게나 먹인다고 훈련되지 않는다. 아주 잘 정리된, 라벨이 붙은 데이터를 먹여야 한다. 아이에게 하나하나 가르치듯이, 이것은 연필, 이것은 볼펜, 이런 것은 젤 펜, 이것은 고무, 이것은 나무 등등 수없이 가르쳐야 "도마"라는 이미지를 생성할때 종이 질감이 나오지 않는다.

"Ghost Work" 이라고 하는 이런 노동을 바탕으로 AI 모델이 만들어진다. 데이터를 가공하고 분류하는 역할은 자본주의의 법칙을 따라 최저하 인건비를 자랑하는 나라들의 노동자들에게 맡겨진다.

ScaleAI 라는 회사를 세워서 24세에 세계 최연소 자수성가 억만장자가된 Alexandr Wang 을 보자. "진정 난놈"이라는 말 밖에 안 나오는 젊은이다. 1997년생으로 19세에 MIT를 중퇴하고 2016년에 ScaleAI를 창업했다. 2025년 6월에 Meta가 ScaleAI의 49% 지분을 인수했고, 왕은 Meta의 AI 총괄 책임자로 이동하면서 ScaleAI CEO에서 물러났다.

그런데 그 회사가 하는 일이 무엇인가? ScaleAI 는 필리핀, 인도 등의 작업자를 활용하여 자율주행차에 필요한 이미지 속 보행자, 차량, 차선을 수백만 건씩 식별하고 라벨링했다고 하며, 이들의 꼼꼼한 작업 없이는 테슬라나 웨이모 같은 기업의 자율주행 기술은 단 한 발짝도 나아갈 수 없다고도 한다.

아니, 고마운 건 맞는데, 포브스기사나 그 회사 홈페이지에 나오지 않을만한 데이터는?

차량, 차선, 보행자라면 별 불만 없을 것이다. 나중에 폭로된 바에 의하면 케냐의 근로자는 시간당 1달러를 받으며 하루 종일 살인, 자살, 아동 성학대, 극단적 폭력 등의 끔찍한 콘텐츠를 검토했다고 한다. 가나, 콜롬비아, 필리핀 등에서도 인터뷰한 결과 심각한 정신 건강 피해 사례가 발견되었다고 하는데, 여기에는 PTSD, 우울증, 불면증, 공황 발작, 자살 충동이 포함된다.

영어권 모델은 저렴한 노동자를 구하기 쉽다. 중국에서도 쉽게 구했을 거라 생각한다. 프랑스는 마다가스카르라는 아프리카의 나라에 AI 노동을 아웃소싱했다. 인도도 만약 모델을 개발한다면 자국에서 저렴한 노동을 착취할 수 있겠다. 실제 AI 는 Artificial 이 아니라 All Indian, Actually Indian 이라고 농담할 정도로 인도의 노동력을 착취했고 전세계적으로 AI 발달에 생산력을 바친 이들이 수백에서 수천만명일 것이다.

프랑스의 AI 기업들은 시간당 0.41 달러에서 1.7 달러 정도를 지불하며 마다가르카르의 하청업체에 일을 시킨다고 한다. 그렇게 보면 중국이나 인도는 자국민으로 충당해야 하는데 영국이나 프랑스나 몇 백년 전부터 제국놀이 한다고 식민지 만들어 둔 것으로 참 두고두고 우려먹는다.

이제는 그 노동이 미국의 테크 워커에게도 돌아왔다. 최근에 레이오프 된 개발자와 그 외 테크 관련 노동자들이 많은데, 벌써 나부터 연락을 자주 받는다. 알고리듬에 자신 있는 사람, 컴퓨터 사이언스 배경이 있는 사람들에게 AI 모델 아웃풋을 평가하게 하는 일이다. 십년 전만 해도 그야말로 노동자의 천국으로 부러움을 사던 구글 등의 노동환경과는 비교할 수 없게 낮은, 시급으로 계산하는 계약직이다. 십 년 전에 구글에 들어가려면 할 줄 알아야 했던 알고리듬 문제 풀기를 AI 는 이미 훨씬 더 잘 하고 있고, 그나마도 더 잘 하도록 훈련시키는 일을, AI 역풍에 맞은 개발자들이 해주고 있다.

결국 그 때나 지금이나 시장의 법칙은 변하지 않았다. 그 때는 필요하고 공급이 적으니 대접해가며 모셔갔다. 그 때에도 최저가 노동력으로 부려먹을 수 있었으면 필리핀에서, 마다가스카르에서 Ghost worker 들이 착취했듯이 그랬을 것이다. 그들은 저숙련에 저렴한 노동자니 뭐 어쩔 수 없으나 나 같은 고학력 하이스킬 노동자는 그럴 일 없다 자만하던 이들에게도 최저가 자본주의가 슬며시 스며들고 있다. 어차피 우리와 그들의 차이라면 운이 좋게 그 곳에서 태어나지 않았다는 것 밖에 없었다. 나의 학위가, 나의 노하우가, 나의 경력이 나를 지켜줄거라 믿었던 우리들은 과연 안전할까. AI 의 먹이로 먹히고 말 것인가.

그리고 사람들의 소비로 커나가던 자본주의 경제는, 제 살을 다 깎아먹고 얼마나 살아남을 수 있을까. 어차피 최고 1% 들은 죽으려면 멀었으니 갈 길이 멀었을까.

AI 목록