인공지능 ·
앤트로픽과 오픈AI, 서로 다른 방식의 고속 AI 추론 기술 공개...속도와 성능 사이 트레이드오프 주목
두 AI 기업이 최근 빠른 코딩 모델 서비스를 발표했으나 기술적 접근 방식과 성능 특성에서 큰 차이를 보이고 있다.
[한국정보기술신문] 앤트로픽과 오픈AI가 각각 자사의 최고 성능 코딩 모델을 빠르게 실행할 수 있는 '패스트 모드'를 발표했다. 두 기업이 선택한 기술적 접근 방식은 완전히 달라, AI 추론 속도 개선을 위한 업계의 다양한 전략을 보여주고 있다.
앤트로픽의 패스트 모드는 기존 Opus 4.6 모델 대비 초당 약 2.5배 빠른 170개의 토큰을 처리한다. 반면 오픈AI는 GPT-5.3-Codex 대비 15배 빠른 초당 1000개 이상의 토큰 처리 속도를 자랑하는 GPT-5.3-Codex-Spark를 선보였다. 단순 속도 비교로는 오픈AI의 패스트 모드가 앤트로픽보다 6배 더 빠른 셈이다.
낮은 배치 처리 vs 거대 칩, 상반된 기술 전략
앤트로픽의 접근 방식은 낮은 배치 사이즈 추론 방식으로 추정된다. AI 추론 경제학의 핵심은 배치 처리인데, GPU는 빠르지만 데이터를 GPU로 이동시키는 과정이 병목 지점이다. 여러 사용자의 요청을 묶어 처리하면 전체 처리량은 늘어나지만 개별 사용자는 배치가 채워질 때까지 기다려야 한다.
앤트로픽의 패스트 모드는 버스 시스템에 비유하자면 탑승 즉시 출발하는 특급 버스 패스와 같다. 비용은 6배에 달하지만 대기 시간이 없어 훨씬 빠른 응답이 가능하다. 이 방식의 장점은 동일한 Opus 4.6 모델을 그대로 제공한다는 점이다.
반면 오픈AI는 Cerebras라는 특수 칩을 활용한다. Cerebras는 일반적인 GPU 칩이 약 1제곱인치인 데 비해 70제곱인치에 달하는 거대한 칩을 제조한다. 실리콘 웨이퍼 전체에 하나의 거대한 칩을 새기는 방식으로, 44GB의 내부 SRAM 메모리를 탑재해 전체 모델을 칩 내부에 상주시킬 수 있다.
일반적으로 GPU SRAM은 수십 메가바이트에 불과해, 추론 시간의 상당 부분이 외부에서 모델 가중치를 스트리밍하는 데 소요된다. Cerebras 칩은 이를 훨씬 빠른 내부 SRAM에서 처리해 15배의 속도 향상을 달성했다.
새로운 모델 필요한 오픈AI, 원본 유지하는 앤트로픽
오픈AI가 기존 GPT-5.3-Codex 대신 Spark라는 새로운 모델을 내놓은 이유는 Cerebras 칩의 메모리 제약 때문으로 보인다. 44GB 메모리는 fp16 기준 약 20B 파라미터, int8 양자화 시 약 40B 파라미터 크기의 소형 모델을 수용할 수 있다. Spark는 GPT-5.3-Codex를 증류한 소형 모델로, 많은 작업에서 충분한 성능을 보이지만 도구 호출 등에서 원본 모델보다 실수가 많다는 평가다.
이에 비해 앤트로픽은 배치 사이즈 조정만으로 동일한 모델의 빠른 추론을 제공한다. 기술적으로는 오픈AI의 접근이 더 복잡하고 인상적이지만, 앤트로픽은 기존 인프라를 활용해 빠르게 시장에 대응한 것으로 분석된다.
속도보다 정확성이 중요
업계 전문가들은 빠른 추론이 AI의 다음 주요 목표가 될지에 대해 회의적인 시각을 보인다. AI 에이전트의 유용성은 속도보다 실수의 빈도에 의해 결정되기 때문이다. 6배 빠른 속도를 얻는 대신 20퍼센트 더 많은 실수를 감수하는 것은 좋은 거래가 아니라는 것이다. 사용자 시간의 대부분은 모델을 기다리는 것이 아니라 실수를 처리하는 데 소요되기 때문이다.
다만 빠르면서 다소 덜 유능한 추론이 AI 시스템의 하위 수준 기본 요소로 자리잡을 가능성은 있다. 실제로 클로드 코드는 일부 작업에 Haiku를 사용하고 있으며, 오픈AI도 Spark를 유사한 방식으로 활용할 수 있을 것으로 전망된다.
두 기업의 상이한 접근 방식은 AI 추론 최적화를 위한 다양한 기술적 경로가 존재함을 보여준다. 향후 어떤 방식이 시장에서 우위를 점할지, 그리고 거대 칩의 경제성이 실제로 의미가 있을지는 더 지켜봐야 할 것으로 보인다.
한국정보기술신문 인공지능분과 이준 기자 news@kitpa.org