인공지능 ·
ACE-Step 1.5, 상용 AI 음악 생성 수준 뛰어넘는 오픈소스 모델 공개...RTX 3090에서 10초 만에 완성곡 생성
ACE Studio·StepFun 공동 개발, VRAM 4GB로 로컬 구동 가능한 음악 AI 모델 출시
[한국정보기술신문] ACE Studio와 StepFun이 공동 개발한 오픈소스 AI 음악 생성 모델 'ACE-Step 1.5'가 깃허브를 통해 공개됐다. 이 모델은 A100 GPU에서 2초 이내, RTX 3090에서 10초 이내에 완성된 음악을 생성할 수 있으며, 4GB 미만의 VRAM 환경에서도 로컬 구동이 가능하다. 개발팀은 대부분의 상용 음악 생성 서비스를 뛰어넘는 품질이라고 밝혔다.
하이브리드 아키텍처가 핵심
ACE-Step 1.5의 핵심은 언어 모델과 디퓨전 트랜스포머를 결합한 하이브리드 아키텍처다. 언어 모델이 사용자의 간단한 요청을 분석해 장르, 가사, 구조 등을 담은 상세한 '음악 청사진'을 생성하면, 디퓨전 트랜스포머가 이를 바탕으로 실제 오디오를 생성하는 방식이다. 특히 체인 오브 소트(Chain-of-Thought) 방식을 활용해 메타데이터, 가사, 설명 정보를 자동으로 생성해 음악 생성을 안내한다.
정렬 과정에서는 외부 보상 모델이나 인간 선호도 데이터 없이 모델 내부 메커니즘만을 활용한 강화학습을 적용했다. 이를 통해 외부 편향 요소를 최소화했다는 것이 개발팀의 설명이다.
10초~10분 음악 생성, 50개 이상 언어 지원
ACE-Step 1.5는 10초부터 10분에 이르는 다양한 길이의 음악을 생성할 수 있으며, 50개 이상의 언어로 된 가사 프롬프트를 지원한다. 1,000가지 이상의 악기 및 스타일을 세밀하게 제어할 수 있으며, 최대 8곡을 동시에 일괄 생성하는 배치 기능도 갖췄다.
음악 편집 기능도 다양하다. 기존 오디오로부터 커버 버전을 만드는 커버 생성, 특정 구간만 부분 재생성하는 리페인트, 보컬 트랙에서 반주를 자동 생성하는 보컬-투-BGM, 음원을 개별 트랙으로 분리하는 트랙 분리 기능 등을 제공한다. 또한 BPM, 조성, 박자표를 직접 제어하는 메타데이터 조작 기능과 생성 음악의 품질을 자동으로 평가하는 품질 점수 기능도 포함되어 있다.
LoRA로 개인 스타일 학습, 소비자 GPU로 1시간이면 충분
사용자가 자신의 음악 스타일을 모델에 학습시킬 수 있는 LoRA 파인튜닝 기능도 주목할 만하다. 8곡의 음원만 있으면 RTX 3090(12GB VRAM) 환경에서 약 1시간 만에 개인화 학습이 완료된다. Gradio 기반의 웹 UI에서 원클릭으로 학습을 진행할 수 있어 기술적 진입 장벽이 낮다.
모델은 VRAM 용량에 따라 세 가지 언어 모델 중 선택해 사용할 수 있다. 6GB 이하 환경에서는 DiT만 사용하고, 6~12GB에서는 0.6B 경량 모델, 12~16GB에서는 1.7B 모델, 16GB 이상에서는 4B 대형 모델이 권장된다.
설치 및 배포 방법
ACE-Step 1.5는 파이썬 3.11 환경에서 uv 패키지 관리자를 통해 설치할 수 있다. 깃허브 저장소를 클론한 뒤 uv sync 명령으로 의존성을 설치하고, uv run acestep 명령을 실행하면 로컬호스트 7860번 포트에서 Gradio 웹 UI가 구동된다. 모델 가중치는 첫 실행 시 허깅페이스에서 자동으로 다운로드된다. REST API 서버도 별도로 제공돼 서비스 통합에 활용할 수 있다.
모델 라이선스는 MIT이며, 깃허브 저장소(github.com/ace-step/ACE-Step-1.5)와 허깅페이스를 통해 무료로 공개되어 있다. 다만 개발팀은 생성 음악의 저작권 유사성 문제, 문화적 요소의 부적절한 혼용, 악의적 콘텐츠 생성 등 잠재적 위험을 인지하고 AI 활용 여부를 명시할 것을 권고했다.
한국정보기술신문 방송통신분과 홍재진 기자 news@kitpa.org