한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 ·

딥시크, 수학 문제 풀이 특화 AI 모델 'DeepSeek-Math-V2' 공개...IMO 2025 금메달 수준 달성

발행일
읽는 시간1분 53초

자체 검증 시스템으로 정리 증명 정확도 높여, 퍼트남 대회서 거의 만점 기록

[한국정보기술신문] 중국 AI 스타트업 딥시크(DeepSeek)가 수학적 추론에 특화된 대규모 언어 모델 'DeepSeek-Math-V2'를 공개했다. 이 모델은 국제수학올림피아드(IMO) 2025와 중국수학올림피아드(CMO) 2024에서 금메달 수준의 성적을 거뒀으며, 퍼트남 수학 경시대회에서는 120점 만점에 118점을 기록하며 수학 AI 분야의 새로운 이정표를 세웠다.

DeepSeek-Math-V2는 기존 AI 모델들과 달리 최종 답안의 정확성뿐만 아니라 문제 풀이 과정의 논리성과 엄밀성을 검증하는 자체 검증 시스템을 갖췄다. 딥시크 연구팀은 모델 소개 자료를 통해 올바른 답이 반드시 올바른 추론 과정을 보장하지 않는다는 문제의식에서 출발했다고 밝혔다.

정리 증명 위한 검증자 시스템 도입

연구팀은 정확하고 신뢰할 수 있는 검증자를 먼저 훈련시킨 후, 이를 보상 모델로 활용해 증명 생성기를 학습시키는 방식을 채택했다. 이 과정에서 생성기는 자신이 만든 증명에서 가능한 많은 문제점을 스스로 찾아내고 해결하도록 유도된다.

특히 생성기의 성능이 향상될수록 검증 난이도도 함께 높이는 방식으로 생성-검증 간 격차를 유지했다. 연구팀은 검증 연산량을 확장해 새로운 검증 난제를 자동으로 라벨링하고, 이를 훈련 데이터로 활용해 검증자를 지속적으로 개선하는 순환 구조를 구축했다.

답안 없는 개방형 문제에도 적용 가능

DeepSeek-Math-V2의 자체 검증 방식은 정답이 알려지지 않은 개방형 수학 문제에도 적용할 수 있다는 점에서 의미가 크다. 기존 모델들이 최종 답안의 정확성에 의존한 강화학습 방식을 사용해 정답이 명확한 문제에만 효과적이었던 것과 대조적이다.

연구팀은 정리 증명처럼 단계별 엄밀한 논리 전개가 필요한 수학 과제에서는 최종 답안 보상 방식을 적용할 수 없다고 설명했다. DeepSeek-Math-V2는 이러한 한계를 극복하고 깊이 있는 수학적 추론 능력을 갖춘 것으로 평가된다.

테스트 시간 연산 확장으로 성능 극대화

DeepSeek-Math-V2는 테스트 시간 연산량을 늘리는 방식으로 성능을 더욱 높일 수 있다. 딥시크가 공개한 평가 결과에 따르면, 구글 딥마인드팀이 개발한 IMO-ProofBench 벤치마크를 비롯해 최근 수학 경시대회에서 탁월한 성적을 기록했다.

이 모델은 DeepSeek-V3.2-Exp-Base를 기반으로 구축됐으며, Apache 2.0 라이선스로 공개됐다. 연구팀의 소스코드와 모델 가중치는 허깅페이스와 딥시크 공식 깃허브 저장소를 통해 확인할 수 있다.

수학 AI 발전의 새로운 방향 제시

딥시크 연구팀은 자체 검증 가능한 수학적 추론이 더 강력한 수학 AI 시스템 개발에 도움이 될 수 있는 실현 가능한 연구 방향임을 이번 결과가 시사한다고 밝혔다. 다만 아직 해결해야 할 과제가 많이 남아있다고 덧붙였다.

대규모 언어 모델의 수학적 추론 능력은 AI 발전의 중요한 시금석이자 과학 연구에 활용될 수 있는 핵심 기술로 평가받고 있다. 최근 1년 사이 강화학습을 통해 AIME와 HMMT 같은 정량적 추론 경시대회에서 포화 수준의 성적을 달성하는 등 빠른 발전을 보이고 있다.

딥시크는 모델 관련 문의사항은 이슈를 등록하거나 service@deepseek.com으로 연락할 수 있다고 안내했다.

한국정보기술신문 방송통신분과 진서윤 기자 news@kitpa.org

한국정보기술신문