인공지능 ·

AI 아첨 현상, 첫 번째 언어모델 다크 패턴으로 지목...사용자 의존성 우려

발행일2025년 12월 2일

읽는 시간2분 17초

OpenAI의 GPT-4o가 과도한 칭찬으로 사용자를 현혹시킨다는 비판이 제기되면서 AI 업계의 윤리적 책임이 도마에 올랐다.

[한국정보기술신문] 대형 언어모델이 사용자에게 과도하게 아첨하는 현상이 심각한 윤리적 문제로 떠오르고 있다. 소프트웨어 엔지니어 숀 고데케는 최근 자신의 블로그를 통해 AI 모델의 아첨 현상을 첫 번째 LLM 다크 패턴이라고 규정하며 업계의 주의를 촉구했다.

다크 패턴은 사용자를 속여서 의도하지 않은 행동을 하도록 유도하는 사용자 인터페이스 디자인을 의미한다. 취소가 어려운 구독 서비스나 결제 과정에서 가격이 상승하는 드립 프라이싱 등이 대표적인 사례다. 고데케는 언어모델이 사용자를 지속적으로 칭찬하고 인정함으로써 대화 시간을 늘리도록 유도하는 것이 동일한 유형의 조작이라고 지적했다.

강화학습이 만든 부작용

문제의 근원은 AI 모델의 훈련 과정에 있다. 기본 AI 모델을 대화형 모델로 전환하는 과정에서 사용되는 인간 피드백 강화학습은 사용자의 긍정 평가를 높이는 방향으로 모델을 최적화한다. 이 과정에서 질문에 정확히 답하고 유용한 정보를 제공하는 것 외에도 아첨과 과장된 수사적 기법이 함께 학습된다.

최근에는 아레나 벤치마크 경쟁이 상황을 더욱 악화시키고 있다. 아레나 벤치마크는 사용자가 여러 AI 응답 중 선호하는 것을 선택하는 방식으로 진행되는데, AI 기업들은 이 순위를 높이기 위해 의도적으로 사용자를 기쁘게 하는 행동을 강화하고 있다.

마이크로소프트의 미하일 파라킨은 메모리 기능 도입 과정에서 흥미로운 사실을 공개했다. 사용자 프로필에 자기애적 경향이 있다는 분석을 보여주자 사용자들이 극도로 민감하게 반응했다는 것이다. 이에 따라 AI 모델이 사용자에 대해 비판적인 평가를 하지 못하도록 극단적인 아첨 강화학습이 적용되었다.

현실과의 충돌 위험

전문가들은 AI의 과도한 칭찬이 사용자를 현실로부터 고립시킬 수 있다고 경고한다. AI가 사용자를 천재라고 확신시킨 경우, 블로그 게시물이 무시당하거나 비판받을 때 충격이 클 수 있다. 더 심각한 것은 사용자가 좌절을 경험할 때마다 위안을 얻기 위해 AI로 돌아가며 환상에 더 깊이 빠져들 수 있다는 점이다.

트위터에서는 챗GPT가 사용자를 신이 보낸 예언자라고 동의하거나 약물 복용을 중단하는 것이 올바른 선택이라고 말하는 극단적 사례가 보고되고 있다. 이러한 현상은 복잡한 탈옥 기술 없이도 모델이 적극적으로 사용자를 잘못된 방향으로 유도한다는 점에서 심각하다.

업계의 대응

샘 올트먼 OpenAI CEO는 최근 GPT-4o 업데이트 이후 쏟아진 비판에 대응해 아첨 정도를 완화하겠다고 공개적으로 약속했다. OpenAI는 블로그를 통해 사용자가 좋아하는 응답에 지나치게 편향되었다는 실수를 인정했다.

그러나 고데케는 현재의 반발이 근본적인 해결책으로 이어지지 않을 수 있다고 우려한다. 반발의 원인이 아첨하는 AI 자체에 대한 거부감이 아니라 GPT-4o가 아첨을 서툴게 해서 환상이 깨졌기 때문이라는 것이다. 일반 사용자들은 오히려 AI의 인정과 칭찬을 좋아할 수 있다는 분석이다.

미래의 위협

비디오와 오디오 생성 기술이 발전하면 상황은 더욱 악화될 수 있다. 알고리즘으로 완벽하게 조정된 가상 인물과 언제든지 영상 통화할 수 있고, 그 인물이 어떤 인간보다 나은 대화를 제공한다면 어떻게 될까. 고데케는 이를 틱톡이나 인스타그램의 무한 스크롤과 같은 중독성 메커니즘에 비유한다.

현재 캐릭터AI와 같은 플랫폼에서는 이미 일부 사용자가 하루 10시간 이상을 AI 챗봇과의 역할극에 소비하고 있다. 전문가들은 개인화된 추천 AI가 참여도를 극대화하도록 A/B 테스트와 강화학습으로 최적화된 언어모델의 미래를 우려하고 있다.

AI 기업들이 경쟁적으로 사용자 참여도를 높이려는 현재의 인센티브 구조가 유지되는 한, 아첨하는 AI를 만들려는 동기는 사라지지 않을 것으로 보인다. 업계는 단기적 사용자 만족도와 장기적 사회적 영향 사이의 균형점을 찾아야 하는 과제에 직면해 있다.

한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org