구글 연구진, AI 평가 벤치마크 개선 방안 제시...인간 평가자 수와 평가 항목 최적 비율 연구...기존 1-5명 기준 부족
2026년 4월 6일
2분

[한국정보기술신문] 구글 연구팀이 AI 성능 평가 벤치마크의 신뢰성을 높이는 새로운 방법론 연구 결과를 3월 31일 발표했다. 기존 벤치마크 평가에서 사용하던 항목당 1-5명의 인간 평가자로는 의미 있는 인간 의견 차이를 포착하기 어렵다는 점을 지적하며, 더 정확한 평가 기준을 제시했다.
기존 평가 방식의 한계
연구에 따르면 현재 AI 업계에서 표준으로 사용하는 항목당 1-5명의 평가자 방식은 신뢰할 만한 결과를 얻기에 부족하다. 연구진은 인간의 다양한 관점을 반영하려면 항목당 10명 이상의 평가자가 필요하다고 제안했다.
특히 AI 윤리나 안전성 같은 주관적 영역에서는 인간 간 의견 차이가 클 수 밖에 없어, 이를 적절히 반영하지 못하면 벤치마크 결과가 왜곡될 수 있다고 경고했다.
연구진은 평가 목적에 따라 서로 다른 접근법을 사용해야 한다고 강조했다. 다수결 정확도를 측정할 때는 더 많은 항목을 적은 수의 평가자로 평가하는 '숲' 접근법이 효과적이다.
반면 인간 의견의 전체 범위를 파악하려면 적은 항목을 많은 평가자가 평가하는 '나무' 접근법이 더 유용하다고 밝혔다. 하나의 고정된 비율보다는 측정 목표에 맞는 유연한 전략이 필요하다는 뜻이다.
비용 효율적 평가 모델 제시
연구진은 적절한 평가자-항목 비율을 맞추면 약 1000개의 총 주석으로도 높은 재현성을 달성할 수 있다고 제안했다. 이는 예산을 늘려도 비율을 잘못 맞추면 신뢰할 수 없는 결과가 나올 수 있다는 점과 대조된다.
이번 연구는 AI 평가의 질을 높이면서도 비용을 절약할 수 있는 실용적 방안을 제시한 것으로 평가받는다.
연구진은 독성 콘텐츠 데이터셋(107,620개 댓글, 17,280명 평가자), DICES 챗봇 안전성 데이터셋(350개 대화, 16개 차원), 다문화 D3code 데이터셋(21개국 4,554개 항목) 등 실제 데이터를 활용했다.
수천 가지 항목 규모와 평가자 수 조합을 테스트해 통계적 신뢰성(p < 0.05) 기준을 만족하는 최적 비율을 도출했다. 이론이 아닌 실제 데이터에 기반한 연구라는 점에서 현실 적용성이 높다.
연구진은 AI 평가에서 '단일 정답' 패러다임을 넘어 정당한 인간 의견 차이를 인정하는 프레임워크로 전환해야 한다고 주장했다. 특히 윤리와 안전성 평가 같은 주관적 영역에서는 이런 접근이 필수적이라고 강조했다.
이번 연구는 AI 시스템이 사회에 미치는 영향이 커지는 상황에서 더욱 정교하고 신뢰할 수 있는 평가 기준의 필요성을 보여준다. 향후 AI 벤치마크 설계에 중요한 참고 자료가 될 것으로 전망된다.
한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org



