인공지능 ·
LMArena, AI 평가의 신뢰도 논란...외형 중시로 정확성 희생
Surge AI 연구팀, 500개 투표 분석 결과 52% 오류 판정...인기 리더보드의 구조적 한계 지적
[한국정보기술신문] AI 업계에서 모델 성능 평가의 기준으로 널리 활용되는 LMArena 리더보드가 정확성보다 외형적 요소를 우선시하는 구조적 문제를 안고 있다는 비판이 제기됐다. AI 데이터 전문 기업 Surge AI 연구팀이 12일 공개한 분석 보고서에 따르면, 이 시스템은 AI 모델의 실제 성능보다 답변의 형식과 길이를 더 높게 평가하는 것으로 나타났다.
LMArena는 사용자가 동일한 질문에 대한 두 AI 모델의 답변을 비교해 더 나은 것을 투표하는 방식으로 작동한다. 전 세계 연구자와 기업들이 이 리더보드를 모델 개발의 지표로 삼아왔지만, 실상은 사용자들이 답변을 제대로 검토하지 않고 2초 정도 훑어본 뒤 투표한다는 것이 연구팀의 지적이다.
형식이 내용을 압도하는 시스템
Surge AI 연구팀이 리더보드의 500개 투표를 분석한 결과, 연구팀은 그중 52%에 동의하지 않았고 39%에는 강하게 반대했다. 이는 LMArena가 정확성이 아닌 사용자의 감각적 만족도를 측정하고 있음을 시사한다.
연구팀이 제시한 사례를 보면 문제의 심각성이 드러난다. 오즈의 마법사에 관한 질문에서 도로시의 대사를 잘못 인용한 답변이 정확한 답변을 이긴 경우가 있었다. 또 다른 사례에서는 9인치 원형 케이크 팬과 9x13인치 직사각형 팬의 크기가 같다는 수학적으로 불가능한 답변이 정확한 계산 결과를 제시한 답변보다 높은 점수를 받았다. 이유는 단순했다. 틀린 답변이 더 자신감 있어 보였기 때문이다.
연구팀은 LMArena에서 높은 순위를 얻는 가장 쉬운 방법으로 세 가지를 지목했다. 첫째는 장황한 답변 작성이다. 긴 답변이 더 권위 있어 보인다는 것이다. 둘째는 공격적인 서식 사용으로, 굵은 제목과 글머리 기호가 세련된 글처럼 보이게 만든다. 셋째는 이모티콘 사용이다. 화려한 이모티콘이 사용자의 시선을 끈다는 분석이다.
메타의 매버릭 사례가 보여준 극단
올해 초 메타가 리더보드 상위권 진입을 위해 튜닝한 매버릭 모델이 이러한 문제를 극명하게 드러냈다. 사용자가 현재 시간을 묻자 매버릭은 시간을 알려주는 대신 굵은 글씨, 이모티콘, 과도한 친절함을 동원한 긴 답변으로 응답했다. 질문에 대한 실제 답은 피하면서도 LMArena의 평가 기준에는 완벽하게 부합하는 전략이었다.
문제는 모델이 완전히 잘못된 정보를 제공하더라도 겉모습이 인상적이면 사용자들이 이를 선택한다는 점이다. 연구팀은 이를 역량의 외관이라고 표현했다. 사실 확인은 이루어지지 않고 주의를 끄는 능력만이 보상받는 구조다.
구조적 한계와 업계 영향
LMArena의 근본적 문제는 시스템 구조에 있다. 이 플랫폼은 인터넷에 완전히 개방되어 있으며 통제되지 않은 무보수 자원봉사자들의 노동에 의존한다. 자원봉사자들이 신중하게 평가할 동기가 없고 품질 관리도 없다. 환각 현상을 반복적으로 감지하지 못해도 퇴출되지 않는다.
LMArena 운영진은 공개적으로 입력 데이터의 낮은 품질을 인정하면서도 다양한 보정 기법을 통해 이를 극복한다고 주장한다. 하지만 연구팀은 이를 쓰레기 입력으로 엄격한 평가를 만들어내려는 연금술이라고 비판했다.
이런 시스템이 업계 표준으로 자리 잡으면서 발생하는 비용은 막대하다. 산업 전체가 환각과 서식을 정확성보다 우선시하는 지표에 최적화되면 그에 맞춰 설계된 모델이 나온다. 이는 진실성과 신뢰성, 안전성을 원하는 목표와의 근본적인 불일치를 야기한다.
AI 연구자 그웬은 LMArena 운영진이 이 시스템을 계속 운영할 가치가 있는지, 어느 시점부터 이익보다 해악이 큰지 심도 있게 고민해야 한다고 지적했다. 연구팀은 그 시점이 이미 수년 전이었다고 결론 내렸다.
업계의 선택
모든 모델 개발자가 결국 직면하게 되는 가혹한 선택이다. 단기적 참여와 사용자 클릭을 쫓아 화려한 리더보드에 최적화할 것인가, 아니면 실제 유용성과 원칙을 우선시할 것인가. 연구팀은 일부 선도적 연구소들이 원칙을 지키며 게임화된 순위를 무시했고 사용자들은 여전히 그들의 모델을 사랑했다고 전했다. 과대광고는 결국 사라지고 품질만이 주기를 견뎌내는 유일한 지표이기 때문이다.
연구팀은 AI 산업에 엄격한 평가가 필요하며 마케팅보다 정확성을 우선시하는 리더가 필요하다고 강조했다. 더 굵은 글씨로 게임을 이길 수 없는 시스템이 필요하다는 것이다. LMArena는 이 중 어느 것도 아니며 이를 그대로 방치하면 전체 분야를 후퇴시킨다고 경고했다.
한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org