OpenAI, 'GPT-5.3-Codex' 공개...AI 자기개선 시대 열리나

2026년 2월 6일

3분

기존 모델보다 25% 빠른 성능, 사이버보안 분야 최초 고위험 등급 부여

오픈AI가 자체 개발 과정에 직접 참여한 AI 코딩 모델 GPT-5.3-Codex를 발표했다.

[한국정보기술신문] 오픈AI가 현지시간 5일, 최신 에이전트 코딩 모델 GPT-5.3-Codex를 공개했다. 이 모델은 AI 개발 역사상 처음으로 자신의 훈련 과정에 직접 기여한 모델로, AI의 자기개선 시대를 여는 획기적인 사례로 평가받고 있다.

GPT-5.3-Codex는 기존 GPT-5.2-Codex의 최첨단 코딩 성능과 GPT-5.2의 추론 및 전문 지식 능력을 단일 모델에 통합했다. 오픈AI에 따르면, 이 모델은 이전 버전보다 25% 빠른 속도로 작동하며, 연구, 도구 사용, 복잡한 실행을 포함하는 장기 실행 작업을 수행할 수 있다. 특히 작업 중에도 맥락을 잃지 않고 사용자와 상호작용하며 방향을 조정할 수 있어, 마치 동료와 협업하듯 작업을 진행할 수 있다는 점이 특징이다.

AI가 AI를 만든다

가장 주목받는 부분은 GPT-5.3-Codex가 자신의 개발 과정에 직접 참여했다는 사실이다. Codex 팀은 초기 버전을 활용해 자체 훈련을 디버깅하고, 배포를 관리하며, 테스트 결과와 평가를 진단했다. 오픈AI는 "Codex가 자체 개발을 가속화할 수 있었던 정도에 놀랐다"고 밝혔다.

엔지니어링 팀은 Codex를 사용해 GPT-5.3-Codex용 하네스를 최적화하고 적응시켰으며, 이상한 엣지 케이스가 사용자에게 영향을 미칠 때 Codex를 활용해 컨텍스트 렌더링 버그를 식별하고 낮은 캐시 히트율의 근본 원인을 파악했다. 또한 GPT-5.3-Codex는 출시 과정에서도 트래픽 급증에 맞춰 GPU 클러스터를 동적으로 확장하고 지연 시간을 안정적으로 유지하는 데 기여했다.

벤치마크 성능과 실용성

GPT-5.3-Codex는 여러 업계 벤치마크에서 최고 수준의 성능을 기록했다. 실제 소프트웨어 엔지니어링을 평가하는 엄격한 지표인 SWE-Bench Pro에서 56.8%를 달성했으며, 코딩 에이전트에 필요한 터미널 기술을 측정하는 Terminal-Bench 2.0에서는 77.3%를 기록했다. 이는 GPT-5.2-Codex의 64.0%, GPT-5.2의 62.2%와 비교해 13 퍼센트 포인트나 향상된 수치다.

에이전트 컴퓨터 사용 벤치마크인 OSWorld에서는 64.7%를 달성해, GPT-5.2-Codex의 38.2%보다 크게 향상된 성능을 보였다. 특히 이러한 결과를 이전 모델보다 적은 토큰으로 달성했다는 점이 주목받고 있다. 오픈AI는 "사용자가 더 많이 구축할 수 있게 한다"고 설명했다.

단순 코딩을 넘어선 범용 에이전트

오픈AI는 GPT-5.3-Codex를 단순한 코딩 도구를 넘어 개발자와 전문가가 컴퓨터에서 수행하는 거의 모든 작업을 처리할 수 있는 범용 에이전트로 포지셔닝하고 있다. 이 모델은 코드 작성과 검토를 넘어 디버깅, 배포, 모니터링, 제품 요구사항 문서 작성, 사용자 연구 수행, 슬라이드 덱 구축, 스프레드시트 애플리케이션의 데이터 분석 등을 수행할 수 있다.

모델의 웹 개발 및 장기 실행 에이전트 기능을 테스트하기 위해 오픈AI는 GPT-5.3-Codex에게 레이싱 게임과 다이빙 게임 두 가지를 개발하도록 요청했다. '웹 게임 개발' 스킬과 '버그 수정' 또는 '게임 개선'과 같은 사전 선택된 일반적인 후속 프롬프트를 사용해, GPT-5.3-Codex는 수백만 개의 토큰에 걸쳐 자율적으로 게임을 반복 개발했다. 완성된 레이싱 게임은 다양한 레이서, 8개의 맵, 스페이스바로 사용할 수 있는 아이템까지 갖추고 있으며, 다이빙 게임은 다양한 산호초를 탐험하고 물고기 도감을 완성하면서 산소, 압력, 위험 요소를 관리하는 콘텐츠를 포함하고 있다.

사이버보안 분야 첫 고위험 등급

GPT-5.3-Codex는 오픈AI의 준비 프레임워크에 따라 사이버보안 관련 작업에서 '고성능(High capability)' 등급을 받은 최초의 모델이다. 오픈AI는 "이 모델이 사이버 공격을 종단 간 자동화할 수 있다는 확실한 증거는 없지만, 그 가능성을 배제할 수 없기 때문에 예방적 접근을 취하고 있다"고 밝혔다.

이에 따라 오픈AI는 안전 훈련, 자동 모니터링, 고급 기능에 대한 신뢰할 수 있는 액세스, 위협 인텔리전스를 포함한 집행 파이프라인 등 가장 포괄적인 사이버보안 안전 스택을 배포했다. 동시에 이 모델은 취약점 식별을 위해 직접 훈련된 최초의 모델로, 사이버 방어 측면에서도 강력한 성능을 발휘할 것으로 기대된다.

산업계 반응과 경쟁 구도

GPT-5.3-Codex의 공개는 앤트로픽의 클로드 오퍼스 4.6 업그레이드 발표와 동시에 이루어져, AI 코딩 전쟁의 시작을 알리는 신호탄으로 해석되고 있다. 업계 관계자들은 이를 엔터프라이즈 소프트웨어 개발 시장을 선점하기 위한 고부가가치 경쟁으로 보고 있다.

오픈AI CEO 샘 알트만은 출시 직후 X(구 트위터)를 통해 "이 모델로 작업하는 것을 좋아한다. 벤치마크가 시사하는 것보다 더 큰 진전처럼 느껴진다"며, "5.3-Codex를 사용해 5.3-Codex를 얼마나 빠르게 출시할 수 있었는지 지켜보는 것이 놀라웠고, 이는 분명 앞으로 일어날 일의 징조"라고 밝혔다.

Codex 팀 제품 부문을 이끄는 알렉스 엠비리코스는 "코딩 에이전트의 속도와 능력 증가가 AI 개발을 가속화하고 있다"고 말했다. 제품 책임자인 베이스는 "1년 전에는 짧은 기간에 소프트웨어를 만들면 그렇게 보였지만, 이제는 엔지니어가 디자이너가 되고 디자이너가 엔지니어가 되고 있다. 이러한 벽이 무너지기 시작했다"고 평가했다.

GPT-5.3-Codex는 현재 챗GPT 유료 플랜 사용자에게 Codex 앱, CLI, IDE 확장 프로그램 및 웹을 통해 제공되고 있으며, API 액세스는 안전하게 활성화되는 대로 곧 제공될 예정이다. 오픈AI는 이 모델이 엔비디아 GB200 NVL72 시스템에서 공동 설계, 훈련 및 서비스되었다고 밝혔다.

한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org

OpenAI, 'GPT-5.3-Codex' 공개...AI 자기개선 시대 열리나

AI가 AI를 만든다

벤치마크 성능과 실용성

단순 코딩을 넘어선 범용 에이전트

사이버보안 분야 첫 고위험 등급

산업계 반응과 경쟁 구도

함께 읽으면 좋은 기사

파동 함수 붕괴로 게임 레벨 자동 생성...게임 개발 혁신 기술

VS Code, 코파일럿 비사용자까지 저작자로 표시...기본값 오류로 파문

Tailscale, 개인 요금제 개선하고 기업 요금제 단순화...무료 요금제 기능 확대, 예측 가능한 좌석 기반 요금 도입

차세대중형위성 2호 5월 3일 발사...밴덴버그 우주군기지에서 저궤도 발사 예정