비주얼 뱅크, 일본어 AI 모델용 'Qlean 데이터셋' 확장...10만 시간 이상 권리 처리된 일본어 음성 데이터 제공
2026년 4월 4일
1분

[한국정보기술신문] 비주얼 뱅크가 자회사 아마나이미지를 통해 대규모 일본어 음성 파운데이션 모델을 지원하는 'Qlean 데이터셋'을 확장한다고 4일 발표했다. 10만 시간 이상의 권리 처리가 완료된 일본어 오디오 데이터를 제공한다.
40년 노하우로 프리미엄 데이터 제공
비주얼 뱅크는 일본 마케팅 및 광고 분야 주요 디지털 자산 제공업체인 아마나이미지의 40년 전문성을 활용했다. GDPR과 CCPA를 준수하는 권리 처리가 완료된 데이터를 공급한다고 밝혔다.
나가이 사네유키 비주얼 뱅크 CEO는 "문화적 맥락화가 필요한 파운데이션 모델 수요가 증가하면서 고품질의 법적 준수 일본어 훈련 데이터가 점점 중요해지고 있다"고 설명했다.
고품질 오디오와 전문 주석
Qlean 데이터셋은 48kHz/16bit 이상의 고품질 오디오를 제공한다. 전문가의 수동 주석이 포함된 네이티브 수준의 전사 데이터도 함께 공급된다.
유해 언어 탐지를 위한 안전성 및 조정 데이터셋이 포함되며, 일본 특유의 음향 환경을 반영했다. 국제 벤치마크에 맞춘 평가 데이터셋도 제공한다.
유연한 제품 라인업
AI 데이터 레시피는 즉시 사용 가능한 데이터셋과 맞춤형 제작을 결합한 유연한 서비스다. 화자 구성별로 구조화된 일본어 언어 코퍼스도 별도로 제공한다.
상용 AI 개발에 필수적인 지역 방언과 문화적 맥락이 포함된 일본어 음성 데이터의 공급으로 AI 언어 모델 시장에 새로운 표준을 제시할 것으로 기대된다.
한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org



