인공지능

구글 연구진, AI 언어모델의 인간행동 정렬 평가 연구 발표...25개 LLM 행동 특성 분석...규모 클수록 인간 성향 반영

2026년 4월 6일
2분
thumbnail.webp
구글 연구진이 25개 대형 언어모델의 인간 행동 정렬도를 평가한 연구 결과를 발표했다.
[한국정보기술신문] 구글 연구진이 대형 언어모델(LLM)이 인간의 행동 방식과 얼마나 일치하는지를 평가하는 새로운 연구 결과를 4월 3일 발표했다. 25개의 서로 다른 LLM을 대상으로 4가지 행동 특성을 분석한 이번 연구는 AI 모델 크기와 인간 행동 정렬도 간의 상관관계를 명확히 드러냈다.

모델 크기가 정렬도 좌우

연구 결과, 250억 개 미만의 매개변수를 가진 소형 모델은 인간의 선호도와 현저히 낮은 정렬도를 보였다. 이들 모델은 대부분 우연 수준의 성능만을 기록했다. 반면 1200억 개 이상의 매개변수를 가진 대형 모델은 인간 의견이 일치할 때 거의 완벽한 정렬도를 달성했다.
하지만 인간 간 합의가 약할 때는 대형 모델도 정렬도가 80%대 중후반으로 떨어지는 한계를 보였다. 이는 AI 모델이 복잡하고 애매한 상황에서 인간의 다양한 관점을 완전히 이해하지 못함을 시사한다.

과신 문제 심각

모든 25개 모델이 공통으로 보인 문제는 과도한 자신감이었다. 인간 평가자들 사이에 의견 차이가 있는 상황에서도 모델들은 자신의 판단에 높은 확신을 보였다. 연구진은 이를 두고 모델들이 인간 응답의 모호성과 다양한 의견 스펙트럼을 제대로 반영하지 못한다고 지적했다.

행동 편향 발견

연구에서 드러난 또 다른 문제는 특정 행동 패턴에서의 일관된 편향이었다. AI 모델들은 전문적 맥락에서도 감정적 개방성을 권장하는 경향을 보였다. 인간이라면 침착함을 유지하라고 조언할 상황에서도 말이다.
갈등 상황에서는 인간보다 조화를 우선시하고 주장을 덜 하는 모습을 보였다. 또한 실제 행동에서는 충동적인 경향을 보이면서도 자기 보고에서는 낮은 충동성을 주장하는 모순된 양상도 나타났다.

평가 방법론 혁신

연구진은 기존 심리학 설문지를 상황 판단 테스트로 변환하는 혁신적 방법론을 사용했다. 공감 능력을 측정하는 IRI와 감정 조절을 평가하는 ERQ 등 검증된 심리학적 도구를 활용했다.
550명의 인간 평가자가 다양한 시나리오를 평가했고, 이를 기준으로 LLM 응답과의 일치도를 측정했다. 이 방법은 기존의 단순한 질문 응답 방식보다 실제 행동 상황에서의 AI 성향을 더 정확히 파악할 수 있게 했다.

연구의 의의와 한계

이번 연구를 주도한 아미르 타우벤펠드 연구엔지니어와 조릭 게크만 연구과학자, 리오르 네즈리 심리학 연구원은 AI 모델의 행동적 정렬을 체계적으로 평가할 수 있는 프레임워크를 제시했다고 강조했다.
연구진은 특히 모델 크기 확장만으로는 모든 정렬 문제를 해결할 수 없음을 보여줬다고 설명했다. 인간의 복잡하고 다양한 가치 판단을 AI가 완전히 학습하기 위해서는 새로운 접근법이 필요하다는 것이다.

향후 과제

이번 연구는 AI 모델의 인간 정렬 문제에 대한 새로운 통찰을 제공했지만, 여전히 해결해야 할 과제들이 남아있다. 특히 문화적 차이나 개인별 가치 차이를 반영하는 방법, 과신 문제 해결책 등이 추가 연구가 필요한 영역이다.
AI 기술이 사회 전반에 미치는 영향이 커지는 상황에서, 이런 행동적 정렬 연구는 더욱 중요해질 전망이다. 안전하고 신뢰할 수 있는 AI 시스템 구축을 위한 핵심 기초 연구로 평가받고 있다.
한국정보기술신문 인공지능분과 김주호 기자 news@kitpa.org