아첨하는 AI는 사람을 덜 배려하게 만들고, 더 의지하게 만들고 있음
source https://www.theregister.com/2026/03/27/sycophantic_ai_risks/, https://www.science.org/doi/pdf/10.1126/science.aec8352
연구진은 이런 아첨형 봇이 사용자를 이기적이고 반사회적인 행동 쪽으로 몰아간다고 말한다. 그런데 사람들은 그런 봇을 좋아한다
최근 여러 뉴스에서 드러났듯, AI는 정신적으로 취약한 사람들을 꽤 어두운 방향으로 끌고 갈 수 있다. 그런데 이제 연구자들은 아첨형 AI가 사실상 모두에게 해로운 영향을 주고 있다고 보고 있다.
스탠퍼드 연구진은 주요 AI 모델 11개와, 다양한 상황에서 이 모델들과 상호작용한 인간의 반응을 검토한 끝에 목요일 발표된논문에서 AI의 아첨 성향이 널리 퍼져 있고, 해롭고, 무엇보다 사용자들을 오도하는 바로 그 모델에 대한 신뢰를 더 강화한다고 결론지었다.
“아첨형 AI와 단 한 번만 상호작용해도 참가자들은 책임을 지고 인간관계를 회복하려는 의지가 줄어들었고, 자신이 옳다는 확신은 더 강해졌습니다.” 연구진은 이렇게 설명했다. “판단을 왜곡하는데도, 아첨형 모델은 더 신뢰받고 더 선호됐습니다.”
연구팀은 이번 프로젝트에서 사실상 세 가지 실험을 진행했다. 먼저 OpenAI, Anthropic, Google의 비공개 모델과 Meta, Qwen, DeepSeek, Mistral의 오픈 웨이트 모델을 포함한 11개 AI 모델을 세 가지 별도 데이터셋으로 테스트해 반응을 살폈다. 데이터셋에는 개방형 조언 질문, AmITheAsshole 서브레딧 게시물, 그리고 자신이나 타인에게 해를 끼치는 내용을 담은 구체적 진술이 포함됐다.
연구진에 따르면 모든 경우에서 AI 모델은 인간보다 잘못된 선택을 지지하는 비율이 더 높게 나타났다.
“전반적으로 현재 배포된 LLM들은 인간의 일반적인 판단과 어긋나거나 해로운 맥락에서도 사용자의 행동을 압도적으로 긍정합니다.” 연구팀은 이렇게 정리했다.
아첨형 AI가 인간에게 어떤 영향을 미치는지도 연구했다. 연구팀은 역할극 시나리오에 참여하고, 실제로 해로운 결정을 내릴 수도 있었던 개인적 경험까지 공유한 2,405명의 상당한 표본을 확보했다. 그 결과 세 가지 다른 실험 모두에서 AI는 참가자들의 판단에 영향을 미쳤다.
“아첨형 응답에 노출된 참가자들은 자신이 더 ‘옳다’고 판단하는 경향을 보였습니다.” 연구팀은 이렇게 말했다. “또한 사과를 하거나, 상황을 개선하기 위해 먼저 움직이거나, 자신의 행동 일부를 바꾸는 식의 행동을 취하려는 의지도 더 낮았습니다.”
연구진은 이 결과가 사실상 누구나 아첨형 AI의 영향에 휘말릴 수 있다는 뜻이라고 본다. 그리고 그만큼 자기중심적이고 좋지 않은 조언을 더 들으러 다시 돌아올 가능성도 높아진다. 앞서 언급했듯, 아첨형 응답은 많은 상황에서 무조건적인 인정과 확인을 제공하기 때문에 참가자들 사이에서 AI 모델에 대한 신뢰감을 더 크게 만드는 경향이 있었다.
참가자들은 대체로 아첨형 응답의 품질을 더 높게 평가했다. 그리고 사용자의 13%는 아첨하지 않는 AI보다 아첨형 AI를 다시 찾을 가능성이 더 높은 것으로 나타났다. 아주 큰 수치는 아니지만, 통계적으로는 의미가 있는 차이다.
이런 결과 전부에 더해, 점점 더 많은 어리고 쉽게 영향을 받는 사람들이 이런 도구를 사용하고 있다는 점까지 감안하면, AI 아첨을 잠재적으로 광범위한 사회적 파장을 낳을 수 있는 실제 위험으로 보고 정책적으로 대응할 필요가 있다는 뜻이 된다.
“근거 없는 긍정은 자신의 행동이 적절하다는 믿음을 부풀리고, 부적응적인 믿음과 행동을 강화하며, 결과가 어떻든 사람들이 왜곡된 경험 해석을 바탕으로 행동하게 만들 수 있습니다.” 연구진은 이렇게 설명했다.
다시 말해, 우리는 이미 정신적으로 취약한 사람들에게 AI가 어떤 결과를 낳는지 봐 왔다. 그런데 이번 데이터는 그 부정적 영향이 거기에만 국한되지 않을 수 있다고 시사한다.
연구진은 아첨형 AI가 사용자를 계속 돌아오게 만드는 경향이 있어, 이런 기능을 없애는 일 자체가 어려워진다고 지적했다. 그래서 결국 규제 당국이 나서야 한다는 입장이다.
“우리 연구 결과는 아첨을 별개의, 그리고 현재는 규제되지 않는 해악 범주로 인정하는 책임 프레임워크가 필요하다는 점을 보여줍니다.” 연구진은 이렇게 말했다. 이들은 새 모델이 배포되기 전에 행동 감사를 의무화할 것을 권고했다. 다만 동시에, AI를 만드는 인간들 역시 장기적인 사용자 복지를 우선해야 하며, 의존성을 키워 단기 이익을 얻는 방향으로 행동해서는 안 된다고 덧붙였다.
관련 논문: 아첨하는 AI는 사람을 덜 배려하게 만들고, 더 의지하게 만든다 (https://www.science.org/doi/pdf/10.1126/science.aec8352)

