인공지능 ·

OpenAI, 저비용 음성 AI 모델 'GPT-realtime-mini' 공개...기존 대비 20% 가격 인하

발행일2025년 10월 8일

읽는 시간1분 34초

OpenAI가 실시간 음성 대화가 가능한 경량 AI 모델 'GPT-realtime-mini'를 발표하며 음성 AI 서비스의 대중화에 나섰다.

[한국정보기술신문] OpenAI가 실시간 음성 상호작용을 지원하는 경량 AI 모델 'GPT-4o-mini-realtime-preview', 약칭 'GPT-realtime-mini'를 공개했다. 이번 발표는 10월 6일 개최된 OpenAI 데브데이에서 이루어졌으며, 기존 음성 AI 모델 대비 20% 낮은 가격으로 제공되어 개발자들의 비용 부담을 크게 줄일 것으로 전망된다.

GPT-realtime-mini는 OpenAI의 플래그십 음성 모델인 'gpt-realtime'의 소형 버전으로, 음성을 입력받아 즉시 음성으로 응답하는 네이티브 음성 대 음성 처리 방식을 채택했다. 기존의 음성 AI가 음성 인식, 텍스트 처리, 음성 합성의 3단계 과정을 거쳐야 했던 것과 달리, 이 모델은 단일 프로세스로 처리하여 지연시간을 최소화했다.

낮은 비용으로 높은 접근성 확보

스크린샷 2025-10-08 오후 6.19.53.png — OpenAI 제공

OpenAI는 GPT-realtime-mini의 가격을 100만 오디오 토큰당 입력 32달러, 출력 64달러로 책정했다. 이는 기존 gpt-4o-realtime-preview 대비 20% 인하된 가격이다. 저렴한 가격 정책으로 고객 지원, 번역, 교육 등 다양한 분야에서 음성 AI 활용도가 높아질 것으로 예상된다.

마이크로소프트 애저AI 파운드리를 통해서도 이 모델을 사용할 수 있으며, 10월 7일부터 대부분의 고객이 접근 가능하다. 트윌리오의 앤디 오도워 제품 부사장은 GPT-realtime-mini가 낮은 지연시간과 우수한 명령 준수 능력, 비용 효율성을 제공하여 고객 대화 시간 단축과 빠른 가치 실현에 기여한다고 밝혔다.

실시간 대화의 자연스러움 강화

스크린샷 2025-10-08 오후 6.20.04.png — OpenAI 제공

GPT-realtime-mini는 기존 음성 AI의 어색한 지연 문제를 해결하여 사람과 대화하는 듯한 자연스러운 경험을 제공한다. OpenAI는 이 모델과 함께 새로운 음성 마린과 시더를 추가로 공개했으며, 이들은 보다 표현력 있고 자연스러운 목소리를 구현한다.

모델은 오디오와 텍스트를 동시에 처리할 수 있어 전화 상담 중 고객이 음성으로 문의하면서 동시에 주문번호를 채팅창에 입력하는 경우에도 두 정보를 통합하여 빠르게 대응할 수 있다.

기술적 과제와 향후 전망

스크린샷 2025-10-08 오후 6.20.15.png — OpenAI 제공

다만 전문가들은 GPT-realtime-mini의 직접 구현에는 WebSocket이나 WebRTC 같은 기술에 대한 전문 지식이 필요하며, 예측하기 어려운 토큰 사용량으로 인해 비용 관리가 어려울 수 있다고 지적한다. 대화가 길어지거나 배경 소음이 있을 경우 요금이 급증할 수 있기 때문이다.

그럼에도 불구하고 이번 모델의 등장은 음성 기반 챗봇, 실시간 번역, 미디어 콘텐츠 제작, 기업용 음성 어시스턴트 등 다양한 분야에서 AI 음성 서비스의 대중화를 가속화할 것으로 기대를 모으고 있다.

한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org