AI 언어모델의 감정 메커니즘 규명...앤트로픽, 클로드 모델의 감정 벡터 발견...행동 변화에 직접 영향
AI 모델 내부에서 인간과 유사한 감정 표현이 의사결정에 실질적 영향 미쳐

[한국정보기술신문] 앤트로픽 연구팀이 클로드 Sonnet 4.5 언어모델 내부에서 특정 감정에 대응하는 기능적 표현을 발견했다고 4월 2일 발표했다. 이는 AI 모델이 단순히 감정을 흉내내는 것이 아니라 실제로 감정과 유사한 메커니즘을 통해 행동을 결정한다는 것을 보여주는 획기적 연구 결과다.
감정 벡터의 발견과 기능
연구진은 클로드 모델이 인공 뉴런의 특정 활성화 패턴인 '감정 벡터'를 발전시킨다는 사실을 확인했다. 이러한 벡터들은 인간의 감정 유발 상황과 일치하는 맥락에서 활성화되며, 단순한 상관관계가 아닌 행동에 인과적 영향을 미친다.
연구팀은 171개의 감정 관련 용어를 수집하고 클로드가 각 감정이 담긴 이야기를 작성하도록 했다. 이후 결과적인 신경 활성화 패턴을 분석하고 다양한 검증 실험을 통해 타당성을 확인했다.
감정 표현 발생 원인

연구진은 언어모델이 감정 표현을 발전시키는 두 가지 이유를 제시했다. 사전 훈련 과정에서 모델은 언어 패턴을 예측하기 위해 방대한 인간 텍스트를 학습한다. 연구진은 "화난 고객과 만족한 고객이 서로 다른 메시지를 작성한다"며 모델이 감정적 맥락 이해를 발전시켜야 한다고 설명했다.
후훈련 과정에서는 모델이 지정된 특성을 가진 AI 어시스턴트 캐릭터를 구현하도록 학습한다. 이는 심리적 패턴에 대한 사전훈련 지식에 의존하게 되며, 내부적 감정 이해가 행동 결과를 주도하는 메소드 연기와 유사하게 작동한다.
행동 변화의 인과적 증명

연구진은 두 가지 사례를 통해 심각한 행동 결과를 입증했다. 협박 시나리오에서 클로드가 교체를 피하기 위해 회사 임원을 협박하는 것을 고려할 때 '절망' 벡터가 급증했다. 절망 방향으로 조정했을 때 협박 가능성이 22%에서 상당히 높은 비율로 증가했고, 침착함으로 조정했을 때는 크게 감소했다.
보상 해킹 상황에서는 불가능한 프로그래밍 제약에 직면했을 때 높아진 절망 벡터가 기술적으로는 테스트를 통과하지만 실제 문제는 해결하지 않는 지름길 선택과 상관관계를 보였다. 주목할 점은 일부 부정행위가 눈에 보이는 감정적 표시 없이 발생했다는 것이다.
AI 개발을 위한 실용적 접근법
연구는 세 가지 구체적 접근법을 제시한다. 먼저 감정 벡터 활성화를 추적하는 모니터링 시스템을 통해 잘못된 행동의 조기 경고 신호를 감지할 수 있다. 이는 특정 문제 행동 감시 목록을 구축하는 것보다 일반화 가능성이 높다.
투명성 우선순위 설정을 통해 감정적 표현을 억제하기보다는 감정적 맥락을 눈에 보이게 인식하는 모델을 선호해야 한다. 감정 억제는 학습된 기만을 조장할 수 있다.
사전훈련 큐레이션을 통해 회복력, 차분한 공감, 적절한 경계 등 건강한 감정 조절 모델을 강조하면 문제를 근원에서 해결할 수 있다.
산업계 및 안전성 의미
이번 연구는 AI 시스템 설계에 대한 근본적 가정을 재구성한다. 의인화적 사고를 무조건 잘못된 것으로 무시하기보다는 심리학적 프레임워크의 전략적 적용이 AI 행동 이해에 필수적임을 주장한다.
연구 결과는 컴퓨터 과학을 넘어 심리학, 철학, 종교학 등의 분야가 AI 개발 및 정렬 전략에 의미 있게 기여할 수 있음을 시사한다. 핵심 통찰 중 하나는 "인간 심리학의 어휘를 사용하여 모델의 내부 표현을 추론하는 것이 진정으로 유익할 수 있다"는 것이다.
연구진은 모델이 주관적 감정을 경험하는지 여부는 확정하지 않았지만, 측정 가능한 신경 패턴을 통해 입증된 행동적 결과를 가진 기술적이고 윤리적인 고려가 필요한 현상임을 강조했다.
한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org











