마이크로소프트, 음성 인식·합성 AI 모델 'VibeVoice' 공개...ASR·TTS 통합 지원, 고품질 장문 음성 처리 가능
2026년 5월 3일
1분
마이크로소프트가 오픈소스 음성 AI 모델 VibeVoice를 공개했다. 음성 인식과 합성을 모두 지원하며 장문 음성 처리에 최적화했다.
[한국정보기술신문] 마이크로소프트가 새로운 오픈소스 음성 AI 모델 'VibeVoice' 가족을 공개했다. VibeVoice는 음성 인식(ASR)과 음성 합성(TTS)을 통합 지원하는 모델로, 장문 음성 처리에 최적화되어 있다. 이 모델은 연속 음성 토크나이저를 사용하여 맥락 이해와 음향 세부사항을 동시에 처리한다.

VibeVoice-ASR의 강력한 성능
VibeVoice-ASR은 60분 길이의 장문 음성을 한 번에 처리할 수 있다. 기존 시스템은 음성을 청크 단위로 나누어 처리했으나, 이 모델은 전체 음성을 통으로 처리한다는 점이 혁신적이다. 화자 식별, 타임스탬프 제공, 도메인별 맞춤 핫워드 지원 기능도 포함된다. 또한 50개 이상의 언어를 지원하여 다국어 음성 인식에 강하다.
음성 합성과 실시간 스트리밍 지원
VibeVoice-TTS는 최대 90분 길이의 대화식 음성을 생성할 수 있다. 최대 4명의 서로 다른 화자를 지원하면서도 음성 일관성을 유지한다. 문단이 길더라도 화자 목소리가 바뀌지 않는다. VibeVoice-Streaming은 경량형 0.5B 파라미터 모델로, 300밀리초 수준의 실시간 음성 생성이 가능하다. 텍스트 입력을 받아 10분 분량의 음성까지 스트리밍으로 제공한다.
기술적 혁신과 활용
이 모델들은 7.5Hz 속도의 연속 음성 토크나이저로 동작한다. LLM이 문맥을 이해하고 확산 헤드가 음향적 세부사항을 생성하는 방식이다. 마이크로소프트는 맞춤 어휘 통합도 가능하도록 설계했다. 따라서 특정 업계나 조직의 전문 용어를 인식·생성할 수 있다.
연구 목적 한정, 상용화 주의
마이크로소프트는 VibeVoice를 연구 개발 목적으로만 사용하라고 명시했다. 추가 테스트 없이 상업적으로 배포하는 것을 권장하지 않는다는 입장이다. 깊페이크 제작이나 악의적 목적으로 악용될 가능성을 경고했다. 이는 고품질 음성 합성 기술이 사회적 우려를 낳을 수 있다는 인식을 반영한다.
한국정보기술신문 인공지능분과 성연주 기자 news@kitpa.org



