MS, 음성·이미지 생성형 AI 모델 3종 공개...다국어 음성인식·생성, 이미지 생성 특화 모델로 경쟁력 강화

2026년 4월 3일

1분

[한국정보기술신문] 마이크로소프트(MS)가 개발자용 생성형 AI 모델 3종을 새롭게 공개했다고 3일 발표했다. 이번에 공개된 모델들은 음성 인식과 생성, 이미지 생성 분야에 특화된 것으로 기존 경쟁사 모델 대비 성능과 가성비를 앞세운 것이 특징이다.

25개 언어 지원하는 음성 전사 모델

공개된 첫 번째 모델인 'MAI-트랜스크라이브-1'은 음성을 텍스트로 변환하는 전사 모델이다. 한국어를 포함한 25개 언어를 인식할 수 있으며, 업계 표준 벤치마크에서 오픈AI와 구글의 기존 모델보다 낮은 오류율을 달성했다고 MS는 설명했다.

이 모델은 다국어 회의나 소음이 많은 환경에서도 정확한 음성 인식이 가능하다. 특히 기업 환경에서 다양한 언어가 혼재된 회의록 작성이나 실시간 번역 서비스에 활용도가 높을 것으로 전망된다.

두 번째 모델인 'MAI-보이스-1'은 짧은 음성 데이터만으로 맞춤형 음성을 생성하는 기술이다. 60초 분량의 오디오를 단 1초 만에 생성할 수 있는 빠른 처리 속도가 장점이다.

이 기술은 개인화된 음성 어시스턴트나 오디오북 제작, 콘텐츠 더빙 등 다양한 분야에서 활용 가능하다. 특히 적은 양의 학습 데이터로도 자연스러운 음성을 생성할 수 있어 개발자들의 접근성이 높다.

마지막 'MAI-이미지-2'는 이미지 생성에 특화된 모델이다. MS는 이 모델이 최상위 성능을 제공하면서도 저렴한 가격대로 높은 가성비를 자랑한다고 강조했다.

사티아 나델라 MS CEO는 링크드인을 통해 이번 모델 공개 소식을 전했다. 무스타파 술레이만 MAI 부문 CEO는 "2027년까지 최고 수준에 도달하는 것이 목표"라며 지속적인 AI 기술 개발 의지를 밝혔다.

이번 발표는 MS가 ChatGPT로 유명한 오픈AI와의 파트너십에만 의존하지 않고, 자체 AI 기술력 확보에 나선 것으로 해석된다. 특히 음성과 이미지 특화 모델 개발을 통해 경쟁사 수준의 범용 기반 모델 완성을 위한 발판을 마련한 것으로 보인다.

업계 전문가들은 이번 모델 공개가 생성형 AI 시장의 경쟁을 더욱 치열하게 만들 것으로 전망한다고 밝혔다.

한국정보기술신문 인공지능분과 성연주 기자 news@kitpa.org