한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 ·

OpenAI, 전문가 수준 업무 능력 갖춘 GPT-5.2 공개...구글 제미나이 3와 AI 패권 경쟁 가열

발행일
읽는 시간3분 9초

OpenAI가 전문 지식 업무에 특화된 GPT-5.2를 공개했다. 44개 직종 업무 테스트에서 인간 전문가를 70.9% 능가하는 성능을 기록했다.

[한국정보기술신문] OpenAI가 12월 12일(현지시간) 전문 지식 업무에 최적화된 차세대 AI 모델 GPT-5.2를 공식 출시했다. 이번 출시는 구글의 제미나이 3 모델 경쟁 심화에 따른 코드 레드 상황에서 당초 예정보다 수주 앞당겨진 것으로 알려졌다.

GPT-5.2는 Instant, Thinking, Pro 세 가지 버전으로 제공된다. Instant는 일상적인 정보 검색과 번역, 작성 업무에 최적화됐으며, Thinking은 코딩과 장문 문서 분석, 수학 등 복잡한 구조적 작업에 강점을 보인다. Pro 버전은 최고 수준의 정확도와 신뢰성을 요구하는 난이도 높은 문제 해결에 특화됐다.

전문가 능력 벤치마크에서 압도적 성능

OpenAI가 자체 개발한 GDPval 벤치마크 테스트에서 GPT-5.2는 44개 직종에 걸친 업무 수행 능력을 평가받았다. 전문가 판정단의 평가 결과, GPT-5.2 Thinking 버전은 업계 최고 전문가와의 비교에서 70.9%의 과제를 동등하거나 더 우수하게 수행했다. 이는 11월 출시된 GPT-5.1의 38.8%와 비교해 약 2배 향상된 수치다.

특히 투자은행 애널리스트의 재무 모델링 작업에서 GPT-5.2 Thinking은 평균 68.4%의 정확도를 기록했다. 이는 GPT-5.1의 59.1% 대비 9.3%p 향상된 것으로, 포춘 500대 기업의 3종 재무제표 모델 작성과 LBO(차입매수) 모델 구축 등 복잡한 업무를 전문가 수준으로 처리할 수 있음을 의미한다.

OpenAI의 최고제품책임자 피지 시모는 GPT-5.2가 스프레드시트와 프레젠테이션 생성, 코드 작성, 이미지 인식, 긴 맥락 이해, 도구 활용, 복잡한 다단계 프로젝트 처리 등 전 영역에서 개선됐다고 밝혔다. 실제로 ChatGPT 기업용 사용자들은 AI 활용으로 하루 40분에서 60분을 절약하고 있으며, 헤비 유저들은 주당 10시간 이상을 절약하는 것으로 나타났다.

구글 제미나이 3와의 경쟁 심화

GPT-5.2 출시는 구글의 제미나이 3 모델이 강력한 성능을 보이며 시장 점유율을 위협하자 이뤄진 전략적 대응으로 분석된다. 12월 초 샘 올트먼 CEO는 직원들에게 코드 레드 비상 메모를 보내며 GPT-5 개발 가속화의 필요성을 강조했다. 이에 따라 GPT-5.2는 당초 계획보다 수주 앞당겨 출시됐다.

OpenAI가 공개한 벤치마크 차트에 따르면, GPT-5.2 Thinking은 실제 소프트웨어 엔지니어링 과제(SWE-Bench Pro), 박사급 과학 지식(GPQA Diamond), 추상적 추론 및 패턴 발견(ARC-AGI) 등 거의 모든 테스트에서 제미나이 3와 앤트로픽의 클로드 오푸스 4.5를 앞섰다.

OpenAI 제품 책임자 맥스 슈워저는 GPT-5.2가 코드 생성과 디버깅에서 상당한 개선을 이뤘으며, 복잡한 수학과 논리를 단계별로 처리할 수 있다고 설명했다. 코딩 스타트업 윈드서프와 찰리코드는 복잡한 다단계 워크플로에서 측정 가능한 성능 향상을 보고했다.

환각 현상 감소와 실무 적용성 강화

GPT-5.2 Thinking의 응답은 이전 모델 대비 오류가 38% 감소해 일상적인 의사결정, 연구, 작성 업무에서 더 높은 신뢰성을 제공한다. 또한 전문 용어와 정의되지 않은 용어 사용이 줄어들어 복잡한 기술 개념을 설명할 때 더 이해하기 쉬워졌다.

노션, 박스, 쇼피파이, 하비, 줌 등 주요 기업들은 GPT-5.2가 장기 추론과 도구 호출 성능에서 최첨단 수준을 보인다고 평가했다. 데이터브릭스, 헥스, 트리플 웨일은 에이전틱 데이터 과학과 문서 분석 작업에서 탁월한 성능을 확인했다.

GitHub는 GPT-5.2를 코파일럿에 통합해 긴 맥락과 프론트엔드 UI 생성에 특화된 기능을 제공한다고 발표했다. Visual Studio Code 1.104.1 이상 버전에서 모델 선택기를 통해 GPT-5.2를 선택할 수 있으며, 기업 및 비즈니스 플랜 관리자는 설정에서 활성화해야 한다.

한계와 과제도 존재

일각에서는 GPT-5.2의 성능 평가에 대한 의문도 제기된다. 지멘스의 수석 AI 분석가 마리아 수하레바는 GDPval이 OpenAI가 자체 개발한 벤치마크라는 점을 지적하며, 해당 44개 과제에 대한 미세 조정이 이뤄졌을 가능성을 제기했다. 그는 모델이 학습한 데이터를 공개하지 않는 한 보고된 수치의 의미가 제한적이라고 주장했다.

환각 현상 평가 모델을 운영하는 벡타라의 테스트에 따르면, GPT-5.2의 환각률은 8.4%로 개선됐지만 여전히 딥시크 V3.2의 6.3%에는 미치지 못한다. 제미나이 3의 환각률은 13.6%, 그록 4.1은 17.8%로 나타났다.

이커머스 플랫폼 셀 더 트렌드의 CEO 라시드 웨비는 실제 테스트 결과 GPT-5.2가 긴 맥락을 유지하는 능력이 개선됐다고 평가했다. 그는 계층화된 맥락을 처리할 때 사고의 흐름을 더 오래 유지한다고 밝혔다.

향후 전망

OpenAI는 GPT-5.2를 통해 개발자 도구 생태계의 기본 기반이 되는 것을 목표로 하고 있다. 마이크로소프트는 코파일럿에 GPT-5.2 모델을 반영할 예정이며, 애플 인텔리전스도 OS 26 업데이트에서 GPT-5.2를 통합할 계획이다.

GPT-5.2는 ChatGPT 유료 사용자와 API를 통한 모든 개발자에게 제공되며, Plus, Pro, Business, Enterprise 플랜 가입자가 이용할 수 있다. 복잡한 생성 작업은 수 분이 소요될 수 있다.

샘 올트먼 CEO는 CNBC와의 인터뷰에서 제미나이의 발전이 당초 우려보다 덜 중요했으며, 코드 레드 상태는 1월까지 종료될 것이라고 밝혔다. AI 모델 경쟁이 심화되는 가운데, OpenAI가 GPT-5.2를 통해 시장 선도권을 유지할 수 있을지 주목된다.

한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org

한국정보기술신문