정보기술 · 인공지능 ·
메타, 구조화 데이터 특화 압축 프레임워크 'OpenZL' 오픈소스 공개...범용 압축기 대비 성능 대폭 향상
메타가 데이터 구조를 활용해 압축 성능을 최적화하는 OpenZL 프레임워크를 공개했다. 단일 디코더로 모든 압축 파일 해제가 가능하다.
[한국정보기술신문] 메타가 구조화된 데이터에 특화된 무손실 압축 프레임워크 OpenZL을 오픈소스로 공개했다. OpenZL은 데이터의 형식을 명시적으로 인식하고 활용하는 방식으로 범용 압축 알고리즘 대비 높은 압축률과 빠른 속도를 동시에 달성한다.
OpenZL은 데이터를 단순한 바이트 집합이 아닌 구조화된 정보로 취급한다. 사용자가 제공하는 데이터 구조 설명을 바탕으로 일련의 변환 작업을 적용해 숨겨진 패턴을 드러낸 뒤 압축을 수행한다. 예를 들어 레코드 배열을 구조체 배열로 변환하거나 특정 필드의 패턴을 추출하는 방식이다.
단일 디코더로 모든 압축 파일 해제
OpenZL의 핵심 특징은 압축 시 사용한 변환 시퀀스와 무관하게 동일한 범용 디코더로 모든 압축 파일을 해제할 수 있다는 점이다. 압축된 프레임 내부에 압축 그래프 정보가 포함돼 있어 디코더가 이를 실행하는 방식이다. 이를 통해 형식별 전문 압축기의 성능과 단일 실행 파일의 유지보수 편의성을 동시에 확보했다.
사용자는 간단한 데이터 설명 언어인 SDDL을 사용하거나 직접 파서 함수를 작성해 데이터 구조를 정의할 수 있다. 오프라인 트레이너는 이 정보를 기반으로 최적의 변환 시퀀스와 매개변수를 자동으로 학습한다. 또한 런타임에서 데이터 특성에 따라 동적으로 최적의 변환 경로를 선택하는 기능도 지원한다.
실레시아 벤치마크서 높은 압축률 입증
메타가 제공한 실레시아 압축 코퍼스의 SAO 파일 테스트 결과에 따르면 OpenZL은 Zstandard 등 범용 압축기 대비 훨씬 높은 압축률을 기록했다. 동시에 압축 및 압축 해제 속도도 유지하거나 개선돼 데이터센터 워크로드에 적합한 성능을 보였다.
메타는 사내에서 이미 OpenZL을 프로덕션 환경에 광범위하게 활용하고 있으며 크기 또는 속도 면에서 일관된 개선을 확인했다고 밝혔다. 특히 개발 기간이 수개월에서 며칠로 단축됐다고 강조했다.
OpenZL은 AI 워크로드를 비롯해 대량의 특화된 데이터셋을 다루는 엔지니어를 위해 설계됐다. 시계열 데이터, 센서 데이터, 금융 거래 기록 등 구조화된 데이터 처리에 특히 적합하다. 현재 GitHub에서 오픈소스로 공개돼 있으며 빠른 시작 가이드를 통해 즉시 사용할 수 있다.
한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org