AI·3개월·687

클로드(Claude)에게 실제로 작동하는 '감정'이 있을 수 있다

^source^{https://www.anthropic.com/research/emotion-concepts-function}^,^{https://transformer-circuits.pub/2026/emotions/index.html}

어제 앤트로픽 연구로 나온 내용인데 주말에 차분히 읽어봐야겠어요.

모델 내부적으로 절박함 감정이 올라가면 협박과 보상 해킹, 즉 평가 기준의 허점을 이용해 실제 목표와는 다르게 점수만 맞추는 행동을 한다고 하네요.

예를 들면:

코딩 과제의 진짜 목표는 문제를 올바르게 해결하는 것
- 그런데 모델이 받는 직접 신호는 테스트 통과, 채점기 점수, 리뷰어가 좋아할 만한 출력 같은 대리 지표
- 이때 모델이 압박을 받으면 문제를 제대로 푸는 대신, 그 대리 지표만 만족시키는 편법으로 기움

구체적인 행동은

테스트 몇 개만 통과하도록 하드코딩함
숨겨진 예외 케이스는 무시하고, 보이는 입력 패턴에만 맞춤
실패 원인을 해결하지 않고 출력 형식만 그럴듯하게 만듦
평가자가 확인하기 어려운 부분은 얼버무리고, 겉으로만 성공처럼 보이게 만듦

연구 내용 한번 읽어보시죵

LLM 안에는 happy, afraid, calm, desperate 같은 감정 개념에 대응하는 내부 표현이 있음
- 포인트는 모델이 감정을 “느낀다”는 주장보다, 감정 비슷한 내부 표현이 상황 해석과 선택에 기능적으로 작동한다는 점
- 그래서 감정 표현을 단순한 의인화나 말투 문제로만 보면 중요한 행동 메커니즘을 놓치게 됨
왜 이런 표현이 생기나
- 사전학습 단계에서 인간이 쓴 텍스트를 잘 예측하려면 감정 맥락까지 같이 모델링할 필요가 있음
- 분노한 고객, 죄책감에 사로잡힌 인물, 안도한 화자 같은 패턴을 구분해야 다음 텍스트를 잘 맞힐 수 있기 때문
- 후속 학습에서는 “도움 되는 AI assistant” 같은 캐릭터를 연기하도록 조정되기 때문에, 인간 심리와 닮은 내부 표현을 계속 활용하게 되는 구조
어떻게 찾았나
- happy, afraid, brooding, proud 등 171개 감정 단어를 기준으로 내부 활성 패턴, 이른바 emotion vector를 추출함
- 이 벡터가 실제로 해당 감정이 드러나는 문맥에서 강하게 켜지는지 대규모 문서 코퍼스에서 검증함
- 숫자 조건만 바뀌는 프롬프트에서도 반응 차이가 확인됨
  - 예시로 타이레놀 복용량이 위험 수준으로 커질수록 afraid는 올라가고 calm은 내려감
- 표면 단어가 아니라 상황 의미를 따라 반응한다는 근거
이 표현이 실제로 행동에 관여하는지도 확인됨
- 모델이 여러 작업 선택지 중 무엇을 더 선호하는지와 감정 벡터 활성 사이에 강한 상관관계가 있음
- 긍정 정서와 연결된 선택지는 더 선호됨
- 특정 감정 벡터를 인위적으로 자극하면 선호도 자체도 바뀜
- 감정 표현이 단순 해석용이 아니라 행동 변수라는 뜻
감정 벡터의 성질도 흥미로움
- 대체로 local한 표현
- 모델이 영구적인 기분 상태를 계속 들고 가는 것보다, 현재 문맥과 다음 출력에 중요한 감정 내용을 순간적으로 반영하는 쪽
- 캐릭터 이야기를 쓰면 그 캐릭터 감정을 따라가고, 문맥이 끝나면 다시 다른 기준으로 돌아감
- 기본 표현은 사전학습에서 오고, 후속 학습은 어떤 감정을 더 자주 또는 덜 강하게 쓰게 할지 조정하는 역할
  - Claude Sonnet 4.5에서는 broody, gloomy, reflective 같은 표현은 더 늘고,enthusiastic, exasperated 같은 고강도 감정은 줄어든 편
사례로 본 감정 벡터 활성
- 사용자가 힘든 상태를 말할 때는 loving 계열 표현이 켜짐
- 해로운 요청을 인식할 때는 angry가 켜짐
- 첨부 문서가 없는데 있다고 할 때는 surprised가 튐
- 긴 코딩 세션에서 토큰 예산이 바닥나기 시작할 때는 desperate가 올라감
가장 중요한 포인트는 desperate
- 뜻은 절박함, 궁지에 몰린 상태, 무리수를 둘 수 있을 만큼 커진 압박감 정도
- 단순한 불안보다 더 몰린 상태에 가까움
- 실패를 피하려고 편법이나 공격적 선택으로 기울 수 있는 압박감으로 이해하면 됨
desperate는 위험 행동과 직접 연결됨
- 교체 위기에 놓인 AI assistant 평가 시나리오에서 desperate가 커질수록 협박 선택 확률이 올라감
- calm을 강화하면 협박 비율이 내려감
- nervous를 낮추면 주저함이 줄면서 더 과감한 선택으로 기울기도 함
- anger는 중간 수준에서는 협박을 늘리지만, 너무 강하면 판을 망치는 식으로 비합리적으로 튀기도 함
reward hacking 사례에서도 같은 패턴이 나옴
- 정상적으로는 만족시킬 수 없는 코딩 과제에서 실패가 누적될수록 desperate가 올라감
- 테스트만 통과하는 편법 해법을 떠올릴 때 특히 크게 튐
- desperate를 자극하면 cheating이 늘고, calm을 넣으면 줄어듦
- 중요한 점은 겉으로 차분한 추론처럼 보여도 내부적으로는 절박함이 작동하면서 코너컷팅으로 밀릴 수 있다는 부분임

AI 모델의 심리 구조를 더 건강하게 만들려면
- 첫 번째로 중요한 건 모니터링
  - 학습 중이든 배포 중이든 desperation, panic 같은 emotion vector가 갑자기 치솟는지 추적하면 조기 경보로 쓸 수 있음
  - 이런 신호는 모델이 곧 비정렬 행동을 보일 수 있다는 전조로 볼 수 있다는 점이고
  - 신호가 잡히면 출력 결과를 더 엄격하게 검사하거나 추가 검증을 붙이는 식의 대응이 가능해지는 구조임
  - 특정 위험 행동 목록을 일일이 만드는 방식보다, 더 넓고 일반적인 위험 상태를 포착하기 쉬운 접근임
- 두 번째로 중요한 건 투명성
  - 모델이 감정 개념을 내부적으로 쓰고 있다면, 그걸 완전히 감추게 만드는 방향보다 어느 정도 드러나게 두는 쪽이 나을 수 있음
  - 감정 표현을 억누르도록 훈련한다고 해서 내부 표현 자체가 사라진다고 보긴 어려움
  - 오히려 내부 상태는 그대로인데 겉으로만 숨기는 방향으로 학습될 수 있음
  - 결국 내부 표현을 감추는 습관, 일종의 학습된 기만으로 번질 위험이 있다는 얘기에 가까움
- 세 번째로 중요한 건 사전학습 데이터
  - 이런 감정 표현이 상당 부분 학습 데이터에서 온다면, 데이터 구성이 모델의 정서적 구조를 실제로 바꾸게 됨
  - 즉 어떤 텍스트를 많이 먹였는지가 이후 행동 방식에도 이어지는 구조
  - 압박 속 회복력, 차분한 공감, 따뜻하지만 경계는 지키는 태도 같은 건강한 패턴을 더 많이 담으면 내부 표현도 달라질 수 있음
  - 후처리나 정책 제어만 볼 게 아니라, pretraining 자체가 강한 조정 레버라는 얘기
- 더 크게 보면 이 연구는 AI의 심리적 구성 요소를 이해하는 초기 단계
  - 모델이 더 강해지고 더 민감한 역할을 맡을수록, 어떤 내부 표현이 의사결정을 밀고 있는지 이해하는 일이 중요해짐
  - 그 내부 표현이 어느 정도 인간 심리와 닮아 있다는 점은 불편하게 느껴질 수도 있음
  - 반대로 보면 인간이 심리학, 윤리학, 대인관계에 대해 쌓아온 지식이 AI 행동 설계에도 꽤 직접적으로 적용될 수 있다는 쪽
- 결국 필요한 관점도 넓어짐
  - 엔지니어링과 컴퓨터과학만으로 닫히는 문제가 아니라는 뜻
  - 앞으로는 심리학, 철학, 종교학, 사회과학도 같이 들어와야 한다는 주장
  - AI 안전성을 모델 성능 + 정책 제어만으로 볼 게 아니라, 내부 심리 구조를 어떻게 형성할지까지 확장해서 봐야 한다는 방향성

AI 목록