인공지능 ·
미스트랄AI, 초저지연 음성인식 모델 '복스트럴 트랜스크라이브 2' 출시...실시간 음성 대화형 AI 시대 연다
프랑스 AI 스타트업 미스트랄AI가 200ms 미만 지연시간의 실시간 음성인식 모델을 공개했다. 13개 언어 지원과 화자 분리 기능을 갖춘 이 모델은 분당 0.003달러의 파격적인 가격으로 제공된다.
[한국정보기술신문] 프랑스의 인공지능 스타트업 미스트랄AI가 차세대 음성-텍스트 변환 모델 '복스트럴 트랜스크라이브 2(Voxtral Transcribe 2)'를 발표했다. 이번에 공개된 모델은 최첨단 음성인식 품질과 화자 분리 기능, 그리고 초저지연을 실현한 두 가지 모델로 구성되어 있다.
복스트럴 트랜스크라이브 2 제품군은 배치 처리용 '복스트럴 미니 트랜스크라이브 V2'와 실시간 애플리케이션용 '복스트럴 리얼타임' 두 모델로 이뤄진다. 특히 복스트럴 리얼타임은 아파치 2.0 라이선스의 오픈 웨이트 모델로 공개되어 누구나 자유롭게 사용할 수 있다.
200ms 미만 지연시간으로 실시간 대화 가능
복스트럴 리얼타임은 지연시간이 중요한 애플리케이션을 위해 특별히 설계됐다. 기존의 오프라인 모델을 청크 단위로 처리하는 방식과 달리, 이 모델은 오디오가 도착하는 즉시 처리하는 새로운 스트리밍 아키텍처를 사용한다. 지연시간을 200ms 미만으로 설정할 수 있어 음성 우선 애플리케이션의 새로운 영역을 개척했다.
자막 생성에 이상적인 2.4초 지연시간에서는 복스트럴 리얼타임이 최신 배치 모델인 복스트럴 미니 트랜스크라이브 V2와 동등한 성능을 보인다. 480ms 지연시간에서도 단어 오류율이 1~2% 범위 내에 머물러 오프라인과 유사한 정확도로 음성 에이전트를 구현할 수 있다.
이 모델은 영어, 중국어, 힌디어, 스페인어, 아랍어, 프랑스어, 포르투갈어, 러시아어, 독일어, 일본어, 한국어, 이탈리아어, 네덜란드어 등 13개 언어를 기본적으로 지원한다. 40억 개의 파라미터로 구성되어 있어 엣지 디바이스에서도 효율적으로 작동하며, 민감한 배포 환경에서 개인정보 보호와 보안을 보장한다.
업계 최고의 가성비와 정확도
복스트럴 미니 트랜스크라이브 V2는 언어와 도메인 전반에 걸쳐 음성인식과 화자 분리 품질을 대폭 개선했다. FLEURS 음성인식 벤치마크에서 약 4%의 단어 오류율을 기록하면서도 분당 0.003달러의 가격을 제시해 모든 음성인식 API 중 최고의 가격 대비 성능을 자랑한다.
이 모델은 정확도 면에서 GPT-4o 미니 트랜스크라이브, 제미니 2.5 플래시, 어셈블리 유니버설, 딥그램 노바를 능가한다. 또한 일레븐랩스의 스크라이브 v2와 품질은 동등하면서도 처리 속도는 약 3배 빠르고 비용은 5분의 1 수준이다.
다섯 개의 영어 벤치마크와 다국어 벤치마크에서 평균 화자 분리 오류율을 측정한 결과, 복스트럴 트랜스크라이브 2는 경쟁 모델들보다 뛰어난 성능을 보였다. 특히 비영어권 언어에서의 성능은 경쟁사들을 크게 앞서는 것으로 나타났다.
기업 환경을 위한 다양한 기능
복스트럴 미니 트랜스크라이브 V2는 기업 배포를 위한 핵심 기능들을 도입했다. 화자 분리 기능은 화자 레이블과 정확한 시작 및 종료 시간을 포함한 음성 변환을 생성한다. 회의 필기, 인터뷰 분석, 다자간 통화 처리에 이상적이다. 음성이 겹치는 경우 모델은 일반적으로 한 명의 화자를 필기한다.
컨텍스트 바이어싱 기능을 통해 최대 100개의 단어나 구문을 제공하여 이름, 기술 용어 또는 도메인별 어휘의 올바른 철자를 모델이 인식하도록 유도할 수 있다. 표준 모델이 자주 놓치는 고유명사나 산업 용어에 특히 유용하다. 이 기능은 영어에 최적화되어 있으며 다른 언어 지원은 실험적 단계다.
단어 수준 타임스탬프 기능은 각 단어에 대한 정확한 시작 및 종료 타임스탬프를 생성하여 자막 생성, 오디오 검색, 콘텐츠 정렬 등의 애플리케이션을 가능하게 한다. 소음 강건성을 통해 공장 현장, 분주한 콜센터, 현장 녹음과 같은 까다로운 음향 환경에서도 음성인식 정확도를 유지한다. 또한 최대 3시간 길이의 녹음을 단일 요청으로 처리할 수 있다.
미스트랄 스튜디오 오디오 플레이그라운드 출시
미스트랄AI는 복스트럴 트랜스크라이브 2를 즉시 테스트할 수 있는 오디오 플레이그라운드를 미스트랄 스튜디오에 출시했다. 최대 10개의 오디오 파일을 업로드하고, 화자 분리 기능을 토글하며, 타임스탬프 세분성을 선택하고, 도메인별 어휘를 위한 컨텍스트 바이어스 용어를 추가할 수 있다. 각각 최대 1GB 크기의 mp3, wav, m4a, flac, ogg 형식을 지원한다.
다양한 산업 분야 적용 가능
복스트럴은 다양한 애플리케이션과 산업 분야에서 음성 워크플로우를 혁신하고 있다. 회의 인텔리전스 분야에서는 누가 언제 무슨 말을 했는지 명확하게 구분하는 화자 분리 기능으로 다국어 녹음을 필기한다. 복스트랄의 가격대에서 대량의 회의 콘텐츠를 업계 최고 수준의 비용 효율성으로 주석 처리할 수 있다.
음성 에이전트 및 가상 비서 분야에서는 200ms 미만의 음성인식 지연시간으로 대화형 AI를 구축한다. 복스트랄 리얼타임을 대형 언어모델 및 음성합성 파이프라인에 연결하여 자연스러운 느낌의 반응형 음성 인터페이스를 만들 수 있다.
콜센터 자동화에서는 통화를 실시간으로 필기하여 AI 시스템이 대화가 진행되는 동안 감정을 분석하고 응답을 제안하며 고객관계관리 필드를 채울 수 있도록 한다. 화자 분리는 상담사와 고객 간의 명확한 구분을 보장한다.
미디어 및 방송 분야에서는 최소한의 지연시간으로 실시간 다국어 자막을 생성한다. 컨텍스트 바이어싱은 일반 음성인식 서비스가 실수하는 고유명사와 기술 용어를 처리한다. 규정 준수 및 문서화 분야에서는 규제 준수를 위해 상호작용을 모니터링하고 필기하며, 화자 분리를 통해 명확한 화자 귀속을 제공하고 타임스탬프로 정확한 감사 추적을 가능하게 한다.
두 모델 모두 안전한 온프레미스 또는 프라이빗 클라우드 설정을 통해 GDPR 및 HIPAA 규정을 준수하는 배포를 지원한다.
즉시 사용 가능
복스트랄 미니 트랜스크라이브 V2는 현재 API를 통해 분당 0.003달러에 이용할 수 있다. 새로운 미스트랄 스튜디오 오디오 플레이그라운드 또는 르 샤(Le Chat)에서 즉시 사용해 볼 수 있다.
복스트랄 리얼타임은 API를 통해 분당 0.006달러에 이용 가능하며, 허깅페이스에서 오픈 웨이트로 제공된다. 미스트랄의 오디오 및 음성인식 기능에 대한 자세한 내용은 문서에서 확인할 수 있다.
한국정보기술신문 정보기술분과 유상헌 기자 news@kitpa.org