[모두레터] LLM 안에서는 무슨 일이 일어날까?
모두의연구소 공식 뉴스레터 I 모두레터 I 2024년 5월 27일☀️
'LLM' 안에서는 무슨 일이 일어나고 있을까?
구글이 만든 '제미나이 업무용 프롬프트 가이드북'
'LLM' 안에서는 무슨 일이 일어나고 있을까?
©Anthropic
언어 모델 클로드(Claude)를 개발한 앤트로픽(Anthropic)에서 흥미로운 연구 결과를 발표했습니다. 언어 모델은 나날이 발전 중이지만, 크고 복잡하다는 특성 때문에 작동 원리를 파악하기 어려웠죠. 앤트로픽의 연구팀은 클로드 소넷(Claude Sonnet) 모델과 딕셔너리 러닝(dictionary learning)이라는 기법을 사용해, 특정한 개념에 반응하는 피처(feature, 뉴런들의 활성화 패턴)가 존재한다는 사실을 밝혔습니다.
피처들을 활성시키는 개념에는 도시, 인물 등의 개체부터 코드 에러, 차별적 표현 등 더욱 추상적인 것들도 있었다고 해요. 피처들 사이의 '거리'를 측정하는 것도 가능했는데요. '내적 갈등' 피처 근처에는 '어려운 상황', '딜레마' 등과 관련된 피처들이 있네요. 더 나아가서, 이런 피처들을 조정해 언어 모델의 답변에도 영향을 줄 수 있었다고 합니다.
[추천👍] 모두레터가 추천하는 '무료 Live 웨비나'

👉지금 무료 신청하기 (마감임박)

