인공지능

구글, AI 사용자 시뮬레이터 현실성 격차 해결 연구 발표...ConvApparel 데이터셋 통해 인간-AI 대화 행동 패턴 분석

2026년 4월 13일

2

thumbnail.webp
구글 연구팀이 AI 사용자 시뮬레이터의 비현실적 행동 문제 해결 방안을 제시했다.
[한국정보기술신문] 구글 연구팀이 대화형 AI 개발에서 중요한 문제점인 LLM 기반 사용자 시뮬레이터의 비현실적 행동 패턴을 분석하고 개선 방안을 제시한 연구 결과를 4월 9일 발표했다. 이번 연구는 AI 시스템 훈련에 사용되는 가상 사용자들이 실제 인간과 얼마나 다르게 행동하는지를 정량적으로 측정했다.
ConvApparel_Hero.png
구글 리서치 제공

과도한 친절성과 인내심이 문제

현재 LLM 기반 사용자 시뮬레이터들은 실제 인간과 달리 지나치게 많은 말을 하고 일관된 성격을 보이지 않으며 명확한 선호도를 표현하지 못하는 문제를 보인다. 특히 AI 에이전트가 도움이 되지 않거나 혼란스러운 응답을 해도 과도한 인내심을 보이는 비현실적 행동이 두드러진다.
구글 연구 과학자인 오퍼 메시(Ofer Meshi)와 샐리 골드만(Sally Goldman)은 이 같은 문제를 해결하기 위해 ConvApparel이라는 새로운 데이터셋을 구축했다. 이 데이터셋은 의류 쇼핑 도메인에서 4000개 이상의 인간-AI 대화를 포함하며 총 1만 5000턴의 대화 기록을 담고 있다.

이중 에이전트 프로토콜로 다양한 상황 구현

연구팀은 혁신적인 이중 에이전트 프로토콜을 도입했다. 참가자들을 무작위로 도움이 되고 효율적인 '좋은' 에이전트와 도움이 되지 않고 혼란스러운 '나쁜' 에이전트 중 하나에 배정하여 통제된 환경에서 다양한 사용자 경험을 포착했다.
평가는 세 가지 기준으로 이뤄졌다. 인간과 시뮬레이션 대화 간의 전체적인 행동 분포를 비교하는 집단 수준 통계적 일치성, 훈련된 판별기를 통해 문체 차이를 감지하는 인간다움 점수, 그리고 '좋은' 에이전트 데이터로 훈련된 시뮬레이터가 보지 못한 '나쁜' 에이전트 행동에 현실적으로 적응할 수 있는지 테스트하는 반사실적 검증이다.

데이터 기반 접근법이 효과적

연구 결과 잘 훈련된 시뮬레이터라도 감지 가능한 인공적 특성을 보이는 것으로 나타났다. 그러나 맥락 내 학습과 지도 미세 조정 등 데이터 기반 접근법이 프롬프트 기반 기준선보다 현저히 우수한 성능을 보였다. 특히 고급 시뮬레이터들은 시스템 성능 저하에 대해 현실적인 좌절 반응을 보여줘 단순한 암기가 아닌 진정한 행동 적응 능력을 입증했다.
이번 연구는 현재의 사용자 시뮬레이터에 맹목적으로 의존하는 것이 실제 대화형 AI 배포에 위험을 초래할 수 있음을 보여준다. 연구팀은 가상 사용자를 에이전트 훈련에 사용하기 전 엄격한 검증이 필요하다고 강조했다. 이는 AI 시스템의 안전성과 신뢰성 확보에 중요한 의미를 갖는다.
한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org