한국정보기술진흥원한국인공지능올림피아드 (KOAI) 2026 개최안내

넥슨게임즈, '블루 아카이브' 아로나 한국어 목소리 TTS로 직접 만들었다...일본어 오픈소스 'SBV2'에 한국어 이식, 성우진 있어도 "몰입감 위해" 개발...오버피팅·노이즈 시행착오 넘어 한국어 모델 조만간 오픈소스로 공개

넥슨게임즈가 '블루 아카이브'의 한국어 TTS 개발기를 NDC에서 공개했다.
[한국정보기술신문] 넥슨게임즈가 모바일 게임 '블루 아카이브'의 자연스러운 음성을 구현하기 위해 한국어 TTS(텍스트 음성 변환) 모델을 직접 만들어 온 과정을 공개했다. 김명지 넥슨게임즈 IO본부 위그드라실 ML팀 파트장은 6월 17일 열린 넥슨개발자컨퍼런스(NDC)의 인공지능 분야 세션에서 일본어 기반 오픈소스 모델인 'SBV2(Style-Bert-VITS2)'를 한국어 환경에서 구동하기까지 거쳐온 기술적 해결 방법과 시행착오를 발표했다. TTS는 글자로 된 문장을 사람의 말소리로 바꿔 주는 기술을 말하며, 오픈소스는 누구나 가져다 쓰고 고칠 수 있도록 공개된 소프트웨어를 가리킨다.
image.png
김명지 넥슨게임즈 IO본부 위그드라실 ML팀 파트장
블루 아카이브에서 게임의 마스코트 격인 캐릭터 '아로나'는 게임 안에서 플레이어가 정한 이름(아이디)을 직접 불러 준다. 이는 성우가 미리 녹음해 둔 음성이 아니라 TTS 기술로 그때그때 만들어 내는 음성이다. 넥슨게임즈는 이 기능을 플레이어의 몰입감을 높이기 위한 장치로 설명했다. 몰입감이란 이용자가 게임 속 상황에 빠져들어 실제처럼 느끼는 정도를 말한다.

성우진 갖췄어도 TTS에 공들인 이유..."실제로 소통하는 느낌 주려고"

서브컬처 게임에서 유명 성우의 참여는 더 이상 드문 일이 아니다. 그런 가운데 블루 아카이브는 다수의 성우진을 보유하고 있으면서도 이례적으로 TTS 기술 개발에 적지 않은 공을 들여 왔다. 이에 대해 김명지 파트장은 "캐릭터와 플레이어의 상호작용 경험을 통해 실제로 소통하는 것처럼 느끼게 하기 위해서"라고 설명했다.
image.png
성우가 아무리 연기를 잘해도 한 번 녹음된 음성은 정해진 대사만 들려줄 수 있다는 한계가 있다. 반면 TTS는 조건만 갖추면 실시간으로 새로운 음성을 만들어 낼 수 있다. 아로나가 플레이어의 이름을 직접 불러 주는 기능이 대표적이다. 다만 넥슨게임즈 IO팀의 목표는 단순히 이름을 부르는 수준에 머무르지 않았다. 감정이 거의 느껴지지 않는 기존 TTS의 이른바 '국어책 읽기' 같은 음성을 넘어, 아로나라는 캐릭터의 개성을 살리면서도 자연스러운 목소리를 구현하는 것을 목표로 삼았다.
이를 위해 가장 먼저 진행한 작업은 적합한 TTS 모델을 고르는 일이었다. 다양한 오픈소스 TTS 모델이 있는 만큼 검증 과정도 간단치 않았다. IO팀은 캐릭터다움, 감정 표현, 자연스러움이라는 세 가지 기준으로 각 모델을 비교했고, 그중에서도 특히 자연스러움에 큰 비중을 뒀다고 김 파트장은 전했다. 자연스러움이 곧 몰입감의 차이로 이어진다고 봤기 때문이다. 단어 사이의 호흡, 길게 끄는 소리(장음) 표현, 높낮이에 따른 강세, 잡음(노이즈) 발생 여부 등을 다각도로 살핀 끝에 최종적으로 SBV2를 택했다.
image.png

"한국어를 지원하지 않는다"...없으면 만든 한국어 학습 모델

SBV2는 문장을 분석하고 앞뒤 맥락을 이해해 자연스러운 발음을 만들어 내는 성능을 보였다. 일본어는 소리의 길이나 강세 위치에 따라 같은 글자라도 뜻이 달라지는 언어다. 예컨대 'ゆき(유키)'는 눈을 뜻하지만 'ゆうき(유우키)'는 용기를 의미하고, 'あめ(아메)'도 강세를 어디에 두느냐에 따라 비가 되기도, 사탕이 되기도 한다. SBV2는 이런 미묘한 차이까지 구분해 발음할 수 있었다. 하지만 한 가지 결정적인 문제가 있었다. 한국어를 지원하지 않는다는 점이었다. 이에 개발팀은 SBV2의 학습 구조를 분석한 뒤 자체 한국어 학습 모델을 만드는 작업에 나섰다.
image.png
개발팀은 먼저 일본어에만 필요한 기능을 과감히 들어냈다. 한자를 다루기 위한 형태소 분석 기능, 일본어 강세 처리 기능 등이 대표적이다. 형태소 분석이란 문장을 뜻을 가진 가장 작은 단위로 쪼개는 처리를 말한다. 그 자리에는 한국어 글자를 실제 발음 형태로 바꿔 주는 기능을 새로 넣었다. 글자와 소리가 다른 한국어를 제대로 읽히게 하기 위한 장치로, 이런 변환 처리를 흔히 G2P(자소-음소 변환)라고 부른다.
이어 BERT 모델도 한국어용으로 교체했다. BERT는 같은 단어라도 문맥에 따라 의미를 가려내는 역할을 하는 인공지능 모델이다. 가령 '일'이라는 단어가 숫자 1을 뜻하는지, 노동을 뜻하는지, 날짜를 뜻하는지를 앞뒤 문맥을 보고 판단하는 식이다. 한국어 BERT로 바꾸면서 모델이 한국어 문맥을 이해할 수 있는 바탕이 마련됐다.

약 600GB 학습의 벽..."판별자가 너무 똑똑해 생성자가 못 자랐다"

한국어 학습 모델을 갖춘 뒤에는 본격적인 학습 단계에 들어갔다. 하지만 이 과정도 순탄치 않았다. 약 600GB 규모의 음성 데이터로 학습하던 중 '오버피팅' 문제가 나타난 것이다. 오버피팅이란 모델이 주어진 데이터에만 지나치게 맞춰져 새로운 상황에 제대로 대응하지 못하는 현상을 말한다.
image.png
문제의 원인은 두 모델의 균형이 무너진 데 있었다. 이 방식은 음성을 만들어 내는 쪽인 '생성자'와 그 결과물이 진짜 같은지 판정하는 쪽인 '판별자'가 서로 겨루며 함께 발전하도록 설계돼 있다. 그런데 판별자가 생성자보다 지나치게 똑똑한 나머지, 초반부터 생성자가 만든 결과물을 모두 틀린 것으로 처리했다. 그 결과 생성자가 충분히 성장하지 못하는 문제가 생겼다. 개발팀은 생성자가 먼저 일정 수준까지 학습한 뒤 판별자가 학습하도록 하는 등 양쪽의 학습 속도를 인위적으로 조절해, 둘이 적절한 경쟁 관계를 유지하며 함께 성능을 높이도록 했다.
또 다른 문제는 잡음이었다. 기반 모델을 만드는 과정에서 특정 소리, 특히 'ㄷ' 소리가 들어간 데이터에서 심한 잡음이 발생하며 품질이 떨어지는 현상이 나타났다. 개발팀의 해법은 의외로 단순했다. 모든 데이터를 다 쓰기보다 문제가 되는 데이터를 과감히 빼는 편이 더 효과적이라고 판단한 것이다. 결국 해당 데이터를 학습 자료에서 제거함으로써 안정적인 학습 환경을 갖출 수 있었다.

남은 과제는 평가 체계와 코퍼스...한국어 모델 오픈소스로 공개 예정

김명지 파트장은 앞으로의 과제로 체계적인 평가 시스템과 코퍼스 구축을 꼽았다. 현재는 TTS 결과물을 사람이 직접 들으며 평가하는 방식이 주를 이루고 있다. 앞으로는 일정 주기로 모델을 뽑아 자동으로 점수를 매기는 '정량 평가' 체계를 도입하고, 이를 통과한 모델만 사람이 다시 듣고 판단하는 '정성 평가'로 넘기는 여러 단계의 검증 과정을 만들 계획이다. 정량 평가는 수치로 따지는 평가, 정성 평가는 사람이 느끼는 품질을 따지는 평가를 뜻한다.
코퍼스 구축에도 힘을 쏟을 예정이다. 음성과 텍스트를 묶은 일반적인 학습 자료를 데이터셋이라고 한다면, 코퍼스는 특정 목적을 위해 체계적으로 설계해 모은 자료 집합을 가리킨다. 김 파트장은 "현재 한국어 기반 모델은 '~', '...' 같은 문장 부호나 일부 치찰음을 자연스럽게 표현하지 못하는 경우가 있다"며 향후 코퍼스 구축으로 이런 문제를 개선하겠다고 설명했다. 치찰음은 'ㅅ', 'ㅆ'처럼 바람이 새는 듯한 소리를 말한다.
image.png
한편 넥슨게임즈는 자체적으로 만든 SBV2 한국어 모델을 조만간 오픈소스로 공개할 예정이라고 밝혔다. 더 많은 개발자와 연구자가 이를 활용하고 개선하도록 해 관련 생태계를 함께 키우겠다는 취지다. 김명지 파트장은 "TTS로 말을 하게 만드는 것 자체는 어렵지 않다"며 "중요한 것은 단순히 말을 하는 것이 아니라 이용자가 캐릭터에 몰입하게 만드는 것"이라고 강조했다. 다만 이번 발표는 개발사가 자사 사례를 직접 소개한 것으로, 모델의 성능과 자연스러움에 대한 외부의 독립적 검증은 이뤄지지 않았다. 공개될 한국어 모델이 실제로 다른 개발 현장에서 어느 정도 활용될지는 공개 이후 가늠할 수 있을 것으로 보인다.
image.png
한국정보기술신문 인공지능분과 정유리 기자 news@kitpa.org

함께 읽으면 좋은 기사

넥슨게임즈, '블루 아카이브' 아로나 한국어 목소리 TTS로 직접 만들었다...일본어 오픈소스 'SBV2'에 한국어 이식, 성우진 있어도 "몰입감 위해" 개발...오버피팅·노이즈 시행착오 넘어 한국어 모델 조만간 오픈소스로 공개

넥슨게임즈, '블루 아카이브' 아로나 한국어 목소리 TTS로 직접 만들었다...일본어 오픈소스 'SBV2'에 한국어 이식, 성우진 있어도 "몰입감 위해" 개발...오버피팅·노이즈 시행착오 넘어 한국어 모델 조만간 오픈소스로 공개

인공지능 4
녹투아, 첫 일체형 수냉 쿨러 'NL-LC1' 출시...정숙성 핵심 '펌프 소음 흡수기' 탑재, 240·360·420㎜ 3종 구성에 6년 보증·219.90유로부터

녹투아, 첫 일체형 수냉 쿨러 'NL-LC1' 출시...정숙성 핵심 '펌프 소음 흡수기' 탑재, 240·360·420㎜ 3종 구성에 6년 보증·219.90유로부터

정보기술 3
구글·유튜브, 여름방학 자녀 화면 사용 도구 3가지 제시...안드로이드 보호자 제어 전 기기 확대·AI 학습 도구로 온·오프라인 균형 제안

구글·유튜브, 여름방학 자녀 화면 사용 도구 3가지 제시...안드로이드 보호자 제어 전 기기 확대·AI 학습 도구로 온·오프라인 균형 제안

교육 4
지식재산처, 상표·디자인 등록증에 '대한민국(Republic of Korea)' 새긴다...17일부터 시행, 해외 진출 기업 권리 입증 쉬워져

지식재산처, 상표·디자인 등록증에 '대한민국(Republic of Korea)' 새긴다...17일부터 시행, 해외 진출 기업 권리 입증 쉬워져

유관기관 · 정보기술 · 지식재산 3
애플, '나의 이메일 가리기'·'애플로 로그인' 주소 'private.icloud.com'으로 통합...올여름 이후 신규 발급분부터 적용·기존 주소는 그대로 유지

애플, '나의 이메일 가리기'·'애플로 로그인' 주소 'private.icloud.com'으로 통합...올여름 이후 신규 발급분부터 적용·기존 주소는 그대로 유지

정보보안 3
단국대부속소프트웨어고, 2027학년도 SW역량우수자전형 포트폴리오 11월 23·24일 받는다...작품 1점 소스코드·2분 영상에 SW 수상·자격증 함께 제출, 27일 합격자 발표

단국대부속소프트웨어고, 2027학년도 SW역량우수자전형 포트폴리오 11월 23·24일 받는다...작품 1점 소스코드·2분 영상에 SW 수상·자격증 함께 제출, 27일 합격자 발표

교육 · 정보기술 2
구글, 안드로이드 17 정식 출시…멀티태스킹·게임·보안 기능 대폭 강화...픽셀부터 우선 배포, 연내 다른 안드로이드 기기로 확대

구글, 안드로이드 17 정식 출시…멀티태스킹·게임·보안 기능 대폭 강화...픽셀부터 우선 배포, 연내 다른 안드로이드 기기로 확대

정보기술 3
한국디지털미디어고, 제22회 전국 중학생 IT 올림피아드 개최...6월 30일까지 참가 접수

한국디지털미디어고, 제22회 전국 중학생 IT 올림피아드 개최...6월 30일까지 참가 접수

교육 · 정보기술 · 정보보안 2
메타, 'AI 올인'에 흔들리는 엔지니어링 조직...핵심 개발자 데이터 라벨링에 강제 차출·키보드 추적·역대급 보안 사고까지

메타, 'AI 올인'에 흔들리는 엔지니어링 조직...핵심 개발자 데이터 라벨링에 강제 차출·키보드 추적·역대급 보안 사고까지

인공지능 5
국가교육위·서울시교육청, 18일 'AI 시대 우리 교육의 방향' 토론회 연다...국민참여위원·학생·학부모·교원 등 150여 명 참여, '진정한 배움·학교 교육·직업 잇는 교육체제' 3대 주제 논의

국가교육위·서울시교육청, 18일 'AI 시대 우리 교육의 방향' 토론회 연다...국민참여위원·학생·학부모·교원 등 150여 명 참여, '진정한 배움·학교 교육·직업 잇는 교육체제' 3대 주제 논의

교육 · 인공지능 2
구글, 스마트워치 운영체제 '웨어 OS 7' 배포 시작...픽셀 워치에 실시간 정보 표시·연결 기기 제어 기능 추가, 연내 AI '제미나이' 탑재...배터리 최대 10% 개선

구글, 스마트워치 운영체제 '웨어 OS 7' 배포 시작...픽셀 워치에 실시간 정보 표시·연결 기기 제어 기능 추가, 연내 AI '제미나이' 탑재...배터리 최대 10% 개선

정보기술 · 정보통신 3
컬(curl) 없는 컨테이너에서 HTTP 요청, 배시 '/dev/tcp'로 해결...추가 설치 없이 셸만으로 가능

컬(curl) 없는 컨테이너에서 HTTP 요청, 배시 '/dev/tcp'로 해결...추가 설치 없이 셸만으로 가능

정보기술 3