구글 딥마인드, AI 성능 벤치마크 '게임 아레나' 확장...체스·늑대인간·포커로 다양한 능력 평가

2026년 2월 3일

3분

구글 딥마인드가 AI 모델 성능 측정 플랫폼 게임 아레나를 확대하며 인공지능의 사회적 추론과 위험 관리 능력을 평가한다.

[한국정보기술신문] 구글 딥마인드가 인공지능 모델의 성능을 측정하는 독립적인 벤치마크 플랫폼 게임 아레나를 대폭 확장한다고 2월 2일 발표했다. 작년 체스 게임으로 시작한 이 플랫폼에 늑대인간 게임과 포커가 새롭게 추가되면서 AI의 다양한 인지 능력을 종합적으로 평가할 수 있게 됐다.

게임 아레나는 구글 딥마인드가 데이터 과학 플랫폼 캐글과 협력하여 지난해 출시한 공개 벤치마크 시스템이다. 이번 확장은 완벽한 정보를 기반으로 하는 체스와 달리 불완전한 정보 속에서 의사결정을 내려야 하는 현실 세계를 반영한 것이다.

구글 딥마인드의 프로덕트 매니저 오란 켈리는 공식 블로그를 통해 이번 업데이트의 배경을 설명했다. 그는 체스가 완벽한 정보를 가진 게임인 반면 현실 세계는 그렇지 않다고 지적하며, 불확실성 속에서 추론할 수 있는 AI를 개발하기 위해서는 애매모호함을 다루는 능력을 측정할 수 있는 벤치마크가 필요하다고 강조했다.

체스 리더보드, 제미나이 3세대가 정상 차지

체스 벤치마크는 지난해 공개된 이후 AI 모델의 전략적 추론과 장기 계획 능력을 평가하는 도구로 활용되고 있다. 최신 리더보드에서는 제미나이 3 프로와 제미나이 3 플래시가 최고 엘로 등급을 기록하며 1위와 2위를 차지했다.

전통적인 체스 엔진인 스톡피시가 초당 수백만 개의 포지션을 계산하는 방식으로 작동하는 것과 달리, 대규모 언어 모델은 패턴 인식과 직관을 활용해 탐색 공간을 대폭 줄인다. 이는 인간의 플레이 방식과 유사한 접근법이다.

제미나이 3 모델의 내부 사고 과정을 분석한 결과, 말의 이동성과 폰 구조, 킹의 안전성 같은 익숙한 체스 개념에 기반한 전략적 추론을 사용하는 것으로 나타났다. 이는 제미나이 2.5 세대 대비 상당한 성능 향상을 보여주며, 게임 아레나가 시간에 따른 모델 발전을 추적하는 데 유용함을 입증했다.

늑대인간 게임으로 사회적 추론 능력 평가

늑대인간은 게임 아레나에 추가된 첫 번째 팀 기반 게임이자 자연어로만 진행되는 게임이다. 이 사회적 추론 게임에서 마을 주민 팀은 진실과 거짓을 구별하고 숨어 있는 늑대인간을 찾아내야 승리할 수 있다.

이 벤치마크는 차세대 AI 어시스턴트에 필요한 소프트 스킬을 평가하는 데 도움이 된다. 게임은 커뮤니케이션과 협상, 애매모호함을 다루는 능력을 테스트하며, 이는 기업 환경에서 에이전트가 인간 및 다른 에이전트와 효과적으로 협업하는 데 필요한 역량과 동일하다.

늑대인간은 또한 에이전트 안전 연구를 위한 안전한 환경을 제공한다. 성공하려면 진실을 추구하는 마을 주민과 속이는 늑대인간 양쪽을 모두 플레이해야 한다. 이를 통해 다른 플레이어의 조작을 탐지하는 모델의 능력을 테스트하는 동시에 실제 배포의 위험 없이 모델 자체의 기만 능력을 레드팀으로 검증할 수 있다.

현재 늑대인간 리더보드에서도 제미나이 3 프로와 제미나이 3 플래시가 상위 두 자리를 차지하고 있다. 이들은 여러 게임 라운드에 걸쳐 다른 플레이어의 진술과 행동에 대해 효과적으로 추론하고, 플레이어의 공개 주장과 투표 패턴 간 불일치를 식별하며, 그 통찰력을 활용해 팀원들과 합의를 구축하는 능력을 보여주고 있다.

포커로 리스크 관리 역량 측정

체스가 추론에 의존하고 늑대인간이 사회적 추론에 의존한다면, 포커는 리스크 관리라는 새로운 차원을 도입한다. 늑대인간과 마찬가지로 포커는 불완전한 정보의 게임이지만, 여기서의 과제는 동맹을 구축하는 것이 아니라 불확실성을 정량화하는 것이다.

모델은 운의 영향을 극복하기 위해 상대방의 패를 추론하고 플레이 스타일에 적응하여 최선의 수를 결정해야 한다. 이러한 능력을 테스트하기 위해 구글 딥마인드는 새로운 포커 벤치마크를 출시하고 AI 포커 토너먼트를 개최한다. 최고 모델들은 헤즈업 노리밋 텍사스 홀덤 방식으로 경쟁한다.

최종 포커 리더보드는 토너먼트 결승전 종료 후 2월 4일 캐글 웹사이트에서 공개될 예정이다.

전문가 해설과 함께하는 라이브 이벤트

새로운 벤치마크 출시를 기념하여 구글 딥마인드는 체스 그랜드마스터 히카루 나카무라와 포커 레전드 닉 슐만, 더그 폴크, 리브 보에리와 협력하여 3일간의 라이브스트림 이벤트를 진행한다.

모든 방송은 태평양 표준시 기준 오전 9시 30분부터 캐글 웹사이트에서 시청할 수 있다. 2월 2일에는 포커 리더보드 상위 8개 모델의 대결이, 2월 3일에는 포커 토너먼트 준결승과 함께 늑대인간 및 체스 하이라이트 경기가 방송된다. 2월 4일 최종일에는 포커 우승자를 가리는 결승전과 함께 전체 리더보드가 공개되며, 제미나이 3 프로와 제미나이 3 플래시 간의 체스 매치도 진행된다.

게임은 구글 딥마인드의 역사에서 항상 핵심적인 부분을 차지해 왔다. 게임은 난이도가 경쟁 수준에 따라 확장되는 객관적인 검증 장소를 제공한다. AI 시스템이 더욱 범용화됨에 따라 다양한 게임을 마스터하는 것은 서로 다른 인지 기술에 걸친 일관성을 입증한다.

게임 아레나는 성능 측정을 넘어 에이전트 안전성을 평가하기 위한 통제된 샌드박스 환경으로도 기능할 수 있다. 이는 실제 세계에 배포될 때 직면하게 될 복잡한 환경에서의 모델 행동에 대한 통찰력을 제공한다.

구글 딥마인드는 창의적인 체크메이트를 찾거나 늑대인간에서 협상하거나 포커 테이블에서 올인하는 등, 게임 아레나가 이러한 모델들이 실제로 무엇을 할 수 있는지 알아내는 장소라고 설명했다.

한국정보기술신문 인공지능분과 이준 기자 news@kitpa.org

구글 딥마인드, AI 성능 벤치마크 '게임 아레나' 확장...체스·늑대인간·포커로 다양한 능력 평가

체스 리더보드, 제미나이 3세대가 정상 차지

늑대인간 게임으로 사회적 추론 능력 평가

포커로 리스크 관리 역량 측정

전문가 해설과 함께하는 라이브 이벤트

함께 읽으면 좋은 기사

신한카드, 솔라나와 스테이블코인 협력...웹3.0 결제 생태계 확대

로블록스, 실사급 멀티플레이 게임 공개...소규모 개발도 가능

엔비디아 1분기 실적 공시 설명회 5월 20일 개최...회계연도 2027년 1분기 실적 논의

건국대학교, 인공지능학과 신설 2027년 개교...AI 인재 양성 본격화, 연 50명 선발