마이크로소프트 연구팀, '인간수준의 성능'을 생성하는 새로운 음성 합성 AI 개발... 오용 위험 등으로 비공개

[한국정보기술신문] 마이크로소프트 연구팀은 기존 오디오 소스와 구별할 수 없는 단 몇 초 만의 오디오 만으로 ‘인간 수준의 성능’의 음성을 생성할 수 있는 새로운 음성 합성 AI 시스템인 “VALL-E 2”를 공개했다.

“신경 코덱 언어 모델의 최신 기술로 제로샷 텍스트-음성 변환(TTS)의 이정표를 세우며 처음으로 인간과의 동등한 단계에 도달했다”고 논문에서 말한다. 2023년 초에 발표한 이전 버전 “VALL-E”를 기반으로 제작되었다.

연구팀은 VALL-E 2가 다른 음성 복제 기술과의 차별점은 “반복 인식 샘플링” 방법과 샘플링 기술 간의 적응형 전환이라고 설명하여, 이러한 전략은 일관성을 향상시키고 기존 음성 생성 방식에서 흔히 발생하는 문제를 해결한다고 설명했다. 또한, “VALL-E 2는 복잡하거나 반복적인 구절로 인해 기존 방식에서 해결하지 못했던 어려운 문장에서도 일관되게 고품질의 음성을 제공한다”며, “이번 기술이 말을 할 수 없는 사람들을 위해 음성을 생성하는데 도움이 될 수 있다”고 강조했다.

그러나, 이 기술은 대중에게 공개되지 않을 예정이다. “현재로서는 VALL-E 2를 제품에 추가하거나, 대중에게 공개할 계획은 없다”고 마이크로소프트는 윤리 성명서에서 밝혔으며, 이러한 기술이 동의 없이 음성 모방이나 사기 등의 범죄 등에서 사용될 수 있는 위험이 있다고 지적했다. 또한, AI 생성 콘텐츠가 AI인지 아닌지 여부를 판별하는 것이 여전히 어려운 문제로 남아있다며, 해당 생성물에 대해 디지털 워터마크를 표기해야하는 필요성에 대해 강조했다.

VALL E-2를 포함한 다른 음성 합성 기술과 인간 기준치와의 비교 그래프 / Microsoft 제공

VALL E-2의 음성 합성 결과는 다른 기술에 비해 매우 정확하며, 연구팀이 수행한 테스트에서 VALL E-2의 생성된 음성은 견고성, 자연스러움, 유사성 기준에서 인간의 기준치를 초과했다.

OpenAI 측은 우선 보안 문제를 먼저 해결해야 하며, “우리의 AI 안전 접근 방식 및 자발적 약속에 따라, 이 기술을 현재는 널리 공개하지 않기로 결정했다”고 OpenAI는 공식 블로그에서 설명했다.

대외협력본부 한국정보기술신문 | news@kitpa.org