인공지능

메타, 1,600개 언어 지원 AI 번역 시스템 'OMT' 공개...세계 언어 장벽 허문다

2026년 3월 22일
2분
thumbnail.webp
소멸 위기 언어 포함 인류 언어 대다수 번역 가능, LLaMA3 기반 전문화 모델로 성능 입증
메타가 1,600개 언어를 지원하는 기계 번역 시스템 'OMT'를 발표해 언어 기술의 새 지평을 열었다.
[한국정보기술신문] 메타(Meta)의 인공지능 연구팀이 지난 17일 1,600개 이상의 언어를 지원하는 기계 번역 시스템 '옴니링구얼 MT(Omnilingual Machine Translation, OMT)'를 공개했다. 이번 연구는 기존의 자연어 처리 분야에서 높은 번역 품질을 200개 언어까지 확장한 '노 랭귀지 레프트 비하인드(NLLB)' 프로젝트의 성과를 이어받아 그 범위를 비약적으로 늘린 것이다. 전 세계에 존재하는 약 7,000개의 언어 중 현재 AI 번역 기술이 미치지 못하는 언어, 특히 소멸 위기에 처한 소수 언어까지 포함시키겠다는 목표를 내세웠다.

소멸 위기 언어도 번역 가능... 기존 한계 극복

기존 대형 언어 모델(LLM)들은 언어 수를 늘리기보다 번역 품질 향상에만 집중하는 경향이 있었으며, 대부분의 시스템이 제한된 언어 범위와 생성 능력의 병목 현상에 묶여 있었다. 특히 지원이 부족한 언어는 모델이 이해할 수는 있어도 제대로 생성하지 못하는 문제가 반복됐다. OMT는 바로 이 문제를 정면으로 돌파한다. 연구팀은 대규모 공개 다국어 데이터와 새롭게 직접 구축한 데이터를 결합하는 포괄적인 데이터 전략을 취했다. 수작업으로 정제된 MeDLEY 이중 언어 데이터, 역번역 합성 데이터, 그리고 데이터 마이닝 기법을 활용해 희소 언어, 다양한 분야와 문체에 대한 데이터 범위를 크게 넓혔다.

두 가지 모델 구조로 번역 성능 특화

OMT는 대형 언어 모델을 번역에 특화시키는 두 가지 방식을 제시한다. 하나는 디코더 전용 모델인 OMT-LLaMA로, LLaMA3 기반에 다국어 지속 사전학습과 추론 시 적응을 위한 검색 증강 번역 기법을 결합한 구조다. 다른 하나는 인코더-디코더 구조에 모듈로 탑재된 OMT-NLLB로, 다국어 정렬 공간인 OmniSONAR 위에 구축됐으며 비병렬 데이터를 활용할 수 있는 학습 방법론을 도입해 디코더 전용 사전학습 데이터를 인코더-디코더 학습에도 통합할 수 있다.
성능 측면에서도 주목할 만한 결과가 나왔다. 매개변수 10억 개에서 80억 개 규모의 모든 OMT 모델이 700억 개 매개변수 규모의 기준 LLM과 번역 성능에서 동등하거나 이를 뛰어넘는 결과를 보여, 전문화의 효과가 뚜렷하게 나타났다. 이는 대규모 범용 모델 없이도 낮은 연산 환경에서 높은 번역 품질을 달성할 수 있음을 의미한다.
연구팀은 번역 품질만큼 평가 도구의 신뢰성도 중요하게 다뤘다. 표준 지표와 함께 참조 자료 없이도 품질을 추정하는 BLASER 3 모델, 유해 표현을 감지하는 OmniTOX 분류기, 그리고 다양한 언어 계통을 아우르는 최대 규모의 다국어 평가 데이터셋인 BOUQuET와 Met-BOUQuET를 새롭게 개발해 평가 인프라를 함께 선보였다. 이들 평가 데이터셋은 오픈소스로 공개돼 있으며, 앞으로도 더 많은 언어를 지속적으로 추가해 나갈 계획이다.

소수 언어 정보 격차 해소에 기여 가능성

이번 연구는 기술적 성과를 넘어 사회적 파장도 주목받고 있다. 현재 세계 7,000여 개 언어 중 디지털 환경에서 제대로 된 서비스를 받는 언어는 극히 일부에 불과하다. 아프리카, 오세아니아, 아마존 유역 등에 분포하는 수많은 소수 언어 사용자들은 번역 기술 혜택에서 소외돼 왔다. OMT가 이러한 언어들에도 실용적인 번역 품질을 제공할 수 있다면, 디지털 정보 격차를 줄이는 데 크게 기여할 수 있다.
연구팀은 파인튜닝과 검색 증강 생성 기법이 특정 언어에 대한 대상 데이터나 도메인 지식이 있을 때 번역 품질을 더욱 높이는 추가적인 방법이 된다고 밝혔다. 또한 리더보드와 평가 데이터셋은 모두 무료로 공개돼 연구자들이 자유롭게 활용할 수 있도록 했다. 메타는 이번 연구를 통해 소외 언어 사용자들에게 AI 기술의 혜택을 확대하겠다는 의지를 분명히 했다.
한국정보기술신문 인공지능분과 이준 기자 news@kitpa.org