한국정보기술진흥원
한국정보기술신문
thumbnail

정보기술 · 인공지능 ·

구글, 수학 올림피아드 금메달급 AI 'Gemini 2.5 Deep Think' 출시

발행일
읽는 시간3분 14초

고도의 추론 능력으로 복잡한 문제 해결...구글 AI 울트라 구독자 대상 서비스 시작

[한국정보기술신문] 구글이 1일(현지시간) 복잡한 수학 문제를 해결할 수 있는 고도의 추론 능력을 갖춘 AI 모델 '제미니 2.5 딥씽크(Gemini 2.5 Deep Think)'를 공식 출시했다고 발표했다. 이 모델은 국제수학올림피아드(IMO)에서 금메달 수준의 성능을 달성한 것으로 평가받는다.

구글은 자사 블로그를 통해 "딥씽크는 사람들이 복잡한 문제를 해결할 때 다양한 각도를 탐색하고 잠재적 해결책을 검토하는 것처럼, 동시에 여러 아이디어를 생성하고 고려하는 병렬 사고 기법을 사용한다"고 설명했다. 이번 출시는 구글 AI 울트라 구독자들을 대상으로 제미니 앱에서 우선 제공된다.

국제수학올림피아드 금메달급 성능 입증

딥씽크 모델의 가장 주목할 만한 성과는 국제수학올림피아드에서 금메달 표준을 달성한 것이다. 기존 모델이 복잡한 수학 문제를 해결하는데 수 시간이 걸렸던 반면, 이번에 출시된 버전은 속도를 크게 향상시키면서도 2025년 IMO 벤치마크에서 동메달 수준의 성능을 유지한다.

구글은 내부 평가를 바탕으로 이같은 성능을 확인했다고 밝혔다. 회사 측은 "수학자와 학계 전문가들의 소규모 그룹과 함께 금메달 표준을 달성한 공식 버전을 공유하고 있다"며 "이들의 연구와 탐구를 어떻게 향상시킬 수 있는지에 대한 피드백을 기대한다"고 전했다.

병렬 사고와 추론 시간 확장 기술

딥씽크의 핵심 기술은 '병렬 사고 기법'과 '추론 시간 확장'이다. 이 모델은 동시에 많은 아이디어를 생성하고 이를 함께 고려할 수 있으며, 시간이 지나면서 서로 다른 아이디어를 수정하거나 결합한 후 최선의 답에 도달한다.

구글은 "추론 시간 또는 '사고 시간'을 확장함으로써 제미니가 다양한 가설을 탐색하고 복잡한 문제에 대한 창의적 해결책에 도달할 더 많은 시간을 제공한다"고 설명했다. 또한 모델이 이러한 확장된 추론 경로를 활용하도록 장려하는 새로운 강화학습 기법도 개발했다고 밝혔다.

창의적 문제 해결과 실용적 활용 분야

image.png
Gemini 앱의 Deep Think 기능은 병렬 사고 기술을 활용하여 더 상세하고 창의적이며 깊이 있는 답변을 제공한다, 구글 제공

딥씽크는 창의성과 전략적 계획, 단계별 개선이 필요한 문제 해결에 특히 강점을 보인다. 구글이 제시한 주요 활용 분야는 반복적 개발과 디자인, 과학적·수학적 발견, 알고리즘 개발과 코딩 등이다.

웹 개발 업무에서 딥씽크는 미학과 기능성을 모두 향상시킬 수 있는 것으로 나타났다. 과학 연구 분야에서는 수학적 추측을 공식화하고 탐구하거나 복잡한 과학 문헌을 추론하는 데 도움을 줄 수 있어 발견의 길을 가속화할 가능성을 보여준다. 특히 문제 공식화와 절충안 및 시간 복잡성에 대한 신중한 고려가 중요한 어려운 코딩 문제에서 뛰어난 성능을 발휘한다.

벤치마크 테스트에서 최고 수준 성능

딥씽크는 코딩, 과학, 지식, 추론 능력을 측정하는 도전적인 벤치마크에서도 최첨단 성능을 보였다. 도구 사용 없이 다른 모델들과 비교했을 때, 제미니 2.5 딥씽크는 경쟁적 코드 성능을 측정하는 라이브코드벤치 V6와 과학·수학을 포함한 다양한 도메인의 전문성을 측정하는 '인류의 마지막 시험(Humanity's Last Exam)'에서 최고 성능을 달성했다.

구글이 공개한 성능 비교 차트에 따르면, 딥씽크는 추론, 코딩, 수학 벤치마크에서 제미니 2.5 프로, 오픈AI o3, 그록(Grok) 4 등 경쟁 모델들을 앞섰다. 이는 AI 모델의 문제 해결 능력이 새로운 차원으로 발전했음을 보여주는 지표로 평가된다.

책임감 있는 AI 개발과 안전성 강화

image.png
모델 간 성능 비교, 구글 제공

구글은 딥씽크 개발 과정에서 안전성과 책임감을 핵심 요소로 강조했다. 훈련과 배포 생애주기 전반에 걸쳐 안전성과 책임감을 구축해 나가고 있다고 밝혔다.

테스트 결과 제미니 2.5 딥씽크는 제미니 2.5 프로에 비해 콘텐츠 안전성과 톤 객관성이 개선된 것으로 나타났다. 다만 무해한 요청을 거부하는 경향이 다소 높아진 것으로 확인됐다. 구글은 "제미니의 문제 해결 능력이 발전함에 따라 증가된 복잡성과 함께 오는 위험을 더 깊이 살펴보고 있다"며 "프론티어 안전 평가와 중요한 능력 수준에 대한 계획된 완화 조치의 구현을 포함한다"고 설명했다.

제미니 앱에서의 실제 사용법과 접근성

구글 AI 울트라 구독자들은 오늘부터 제미니 앱에서 딥씽크를 사용할 수 있다. 모델 드롭다운에서 2.5 프로를 선택한 후 프롬프트 바에서 '딥씽크'를 토글하면 하루에 정해진 수의 프롬프트로 서비스를 이용할 수 있다.

딥씽크는 코드 실행과 구글 검색 같은 도구와 자동으로 연동되며, 기존 모델보다 훨씬 긴 응답을 생성할 수 있다. 구글은 "앞으로 몇 주 내에 개발자와 기업 사용 사례에 대한 유용성을 더 잘 이해하기 위해 제미니 API를 통해 도구 사용 유무에 관계없이 딥씽크를 신뢰할 만한 테스터들에게 출시할 예정"이라고 발표했다.

개발팀의 협력과 사용자 기대감

구글은 연구부터 배포까지 거의 모든 스택 계층의 팀들이 딥씽크를 더 빠르고 안정적이며 제미니 앱 사용자에게 친화적으로 만들기 위해 협력했다고 밝혔다. 회사 측은 "사용자들이 이 도구로 무엇을 구축할지 기대된다"며 향후 활용에 대한 기대감을 표했다.

이번 딥씽크 출시는 구글이 더 도움이 되고 유능한 AI를 구축하려는 사명에서 중요한 진전을 나타내며, 제미니를 사용하여 인간 지식의 경계를 넓히겠다는 약속을 더욱 강화한다는 것이 회사의 설명이다.