마이크로소프트, 음성 인식·합성 AI 모델 'VibeVoice' 공개...ASR·TTS 통합 지원, 고품질 장문 음성 처리 가능

2026년 5월 3일

1분

마이크로소프트가 오픈소스 음성 AI 모델 VibeVoice를 공개했다. 음성 인식과 합성을 모두 지원하며 장문 음성 처리에 최적화했다.

[한국정보기술신문] 마이크로소프트가 새로운 오픈소스 음성 AI 모델 'VibeVoice' 가족을 공개했다. VibeVoice는 음성 인식(ASR)과 음성 합성(TTS)을 통합 지원하는 모델로, 장문 음성 처리에 최적화되어 있다. 이 모델은 연속 음성 토크나이저를 사용하여 맥락 이해와 음향 세부사항을 동시에 처리한다.

스크린샷 2026-05-03 오전 10.45.34.png — 깃허브 ViceVoice 저장소 캡처

VibeVoice-ASR의 강력한 성능

VibeVoice-ASR은 60분 길이의 장문 음성을 한 번에 처리할 수 있다. 기존 시스템은 음성을 청크 단위로 나누어 처리했으나, 이 모델은 전체 음성을 통으로 처리한다는 점이 혁신적이다. 화자 식별, 타임스탬프 제공, 도메인별 맞춤 핫워드 지원 기능도 포함된다. 또한 50개 이상의 언어를 지원하여 다국어 음성 인식에 강하다.

음성 합성과 실시간 스트리밍 지원

VibeVoice-TTS는 최대 90분 길이의 대화식 음성을 생성할 수 있다. 최대 4명의 서로 다른 화자를 지원하면서도 음성 일관성을 유지한다. 문단이 길더라도 화자 목소리가 바뀌지 않는다. VibeVoice-Streaming은 경량형 0.5B 파라미터 모델로, 300밀리초 수준의 실시간 음성 생성이 가능하다. 텍스트 입력을 받아 10분 분량의 음성까지 스트리밍으로 제공한다.

기술적 혁신과 활용

이 모델들은 7.5Hz 속도의 연속 음성 토크나이저로 동작한다. LLM이 문맥을 이해하고 확산 헤드가 음향적 세부사항을 생성하는 방식이다. 마이크로소프트는 맞춤 어휘 통합도 가능하도록 설계했다. 따라서 특정 업계나 조직의 전문 용어를 인식·생성할 수 있다.

연구 목적 한정, 상용화 주의

마이크로소프트는 VibeVoice를 연구 개발 목적으로만 사용하라고 명시했다. 추가 테스트 없이 상업적으로 배포하는 것을 권장하지 않는다는 입장이다. 깊페이크 제작이나 악의적 목적으로 악용될 가능성을 경고했다. 이는 고품질 음성 합성 기술이 사회적 우려를 낳을 수 있다는 인식을 반영한다.

깃허브 저장소: https://github.com/microsoft/VibeVoice

한국정보기술신문 인공지능분과 성연주 기자 news@kitpa.org

마이크로소프트, 음성 인식·합성 AI 모델 'VibeVoice' 공개...ASR·TTS 통합 지원, 고품질 장문 음성 처리 가능

VibeVoice-ASR의 강력한 성능

음성 합성과 실시간 스트리밍 지원

기술적 혁신과 활용

연구 목적 한정, 상용화 주의

함께 읽으면 좋은 기사

산업통상부, 부내 행정업무에 AI 도입 본격 추진...AI 혁신 자문단 출범하고 거버넌스·서비스·역량 3대 과제 가동

개인정보위·프랑스 CNIL, 아동·청소년 'AI 안전 사용' 포스터 공동제작...질문 6가지로 풀어내 전국 초·중·고에 배포

구글, 제미나이 기반 새 광고 포맷으로 검색 광고 'AI 시대' 연다...대화형 광고·AI 쇼핑 광고 도입하고 다이렉트 오퍼 시범사업 확대

구글, 워크스페이스에 음성·이미지 생성 AI 대거 탑재…40억 사용자 일상 바꾼다...I/O 2026서 'AI 인박스'·24시간 개인 비서 '제미나이 스파크'까지 공개