인공지능 ·
OpenAI, 24시간 연속 코딩 가능한 'GPT-5.1-Codex-Max' 모델 공개...구글 제미나이 3에 맞불
컴팩션 기술로 수백만 토큰 처리, SWE-벤치에서 77.9% 달성하며 업계 최고 성능 입증
OpenAI가 장시간 자율 코딩이 가능한 차세대 AI 모델 GPT-5.1-Codex-Max를 공개하며 AI 코딩 경쟁에 불을 지폈다.
[한국정보기술신문] OpenAI가 18일 장시간 자율 작업이 가능한 새로운 AI 코딩 모델 GPT-5.1-Codex-Max를 출시했다. 이번 출시는 구글이 하루 전 공개한 제미나이 3 프로에 대한 대응으로 해석되며, 두 기술 기업 간 AI 코딩 분야의 경쟁이 더욱 치열해지고 있다.
GPT-5.1-Codex-Max는 OpenAI의 Codex 개발 환경에서 현재 사용 가능하며, 기존 GPT-5.1-Codex 모델을 대체하는 기본 모델로 자리잡았다. 이 모델은 소프트웨어 엔지니어링, 수학, 연구, 의료 등 다양한 분야의 자율 작업을 학습한 추론 모델을 기반으로 개발됐다.
컨텍스트 윈도우 한계 극복한 컴팩션 기술
이번 모델의 가장 혁신적인 기능은 컴팩션이라는 기술이다. 컴팩션은 여러 컨텍스트 윈도우를 넘나들며 작업할 수 있도록 훈련된 첫 번째 모델로, 단일 작업에서 수백만 개의 토큰을 일관성 있게 처리할 수 있다. 이 기술은 컨텍스트 윈도우 한계에 도달하면 자동으로 히스토리를 압축하면서도 중요한 맥락은 보존해 작업을 계속 진행한다.
OpenAI의 내부 평가에 따르면 GPT-5.1-Codex-Max는 24시간 이상 작업을 지속할 수 있는 능력을 보여줬다. 이 모델은 구현을 반복적으로 개선하고 테스트 실패를 수정하며 최종적으로 성공적인 결과를 도출할 수 있다. 이러한 장시간 작업 능력은 프로젝트 규모의 리팩토링, 심층 디버깅 세션, 다중 시간 에이전트 루프 등을 가능하게 한다.
벤치마크에서 경쟁사 압도
GPT-5.1-Codex-Max는 주요 코딩 벤치마크에서 뛰어난 성능을 입증했다. SWE-Bench Verified 테스트에서 추론 레벨 엑스트라 하이 설정으로 77.9%의 점수를 기록하며 업계 최고 성능을 달성했다. 이는 구글 제미나이 3 프로의 76.2%, 앤트로픽 클로드 소넷 4.5의 77.2%를 앞선 수치다.
터미널벤치 2.0 평가에서도 58.1%를 기록해 제미나이 3 프로의 54.2%와 소넷 4.5의 42.8%를 상회했다. 또한 중간 수준의 추론 설정에서도 기존 GPT-5.1-Codex와 동일한 성능을 보이면서도 생각 토큰을 30% 적게 사용하는 효율성을 보였다.
OpenAI는 이 모델이 실제 소프트웨어 엔지니어링 작업에서 유사하거나 더 나은 결과를 더 적은 토큰과 도구 호출로 달성할 수 있다고 설명했다. 이로 인해 GPT-5.1-Codex-Max는 실제 코딩 작업에서 전작 대비 27~42% 빠른 속도를 보인다.
윈도우 환경 지원 및 보안 강화
GPT-5.1-Codex-Max는 OpenAI가 윈도우 환경에서 작동하도록 훈련한 첫 번째 모델이기도 하다. 이는 많은 개발자가 사용하는 윈도우 운영체제에서의 활용도를 크게 높일 것으로 기대된다.
보안 측면에서 OpenAI는 준비성 프레임워크에 따라 모델을 평가했으며, 생물학 및 화학 영역에서 높은 위험으로 분류했다. 사이버 보안 능력이 향상됐음에도 OpenAI의 높은 능력 임계값에는 도달하지 못했다. 이에 따라 OpenAI는 유해한 작업에 대한 안전 훈련, 프롬프트 인젝션 방지, 에이전트 샌드박싱, 네트워크 액세스 구성 등 다층적인 안전 조치를 구현했다.
모델은 기본적으로 네트워크 액세스를 비활성화하고 로컬 작업 공간에 격리된 상태로 작동한다. 개발자가 명시적으로 선택하지 않는 한 더 넓은 액세스는 허용되지 않는다.
접근성 및 향후 계획
GPT-5.1-Codex-Max는 현재 Codex CLI, IDE 확장, 클라우드, 코드 리뷰 등 여러 Codex 기반 환경에서 사용할 수 있다. ChatGPT Plus, Pro, Business, Edu, Enterprise 플랜 사용자는 모두 이 모델에 접근할 수 있으며, API를 통한 접근은 곧 제공될 예정이다.
OpenAI는 GPT-5.1-Codex-Max를 코딩 파트너로 발전시키기 위한 새로운 단계로 보고 있지만, 여전히 인간 검토를 대체할 수 없는 코딩 보조 도구로 취급해야 한다고 강조했다. 모델은 생성된 코드에 대한 투명성을 지원하기 위해 터미널 로그, 테스트 인용, 도구 호출 출력을 생성한다.
업계 전문가들은 이번 출시가 AI 지원 프로그래밍 환경의 차세대를 위한 무대를 마련했다고 평가하면서도, 점점 더 자율적으로 변하는 시스템에서 감독의 중요성을 강조하고 있다. AI 코딩 분야의 경쟁이 치열해지면서 개발자들은 더욱 강력하고 효율적인 도구를 사용할 수 있게 될 전망이다.
한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org