정보기술

하스켈용 데이터프레임 라이브러리, 2년 만에 정식 버전 1.0 출시...타입 안전성·파이썬 연동 강화

2026년 3월 24일
1분
thumbnail.webp
데이터하스켈 팀, 컴파일 타임 스키마 검증과 Apache Arrow 기반 파이썬 연동 기능 탑재
[한국정보기술신문] 함수형 프로그래밍 언어 하스켈(Haskell) 기반의 데이터 처리 라이브러리 'dataframe'이 약 2년간의 개발 끝에 정식 버전 1.0.0.0으로 출시됐다. 2026년 3월 22일 하스켈 공식 커뮤니티 포럼에 개발자 mchav가 공개한 이번 릴리스는 타입 안전성, 파이썬 연동, 대용량 파일 처리 등 실용적인 기능을 대거 포함하고 있다.

컴파일 타임에서 오류를 잡는 타입 데이터프레임

이번 릴리스의 핵심 기능은 DataFrame.Typed API의 도입이다. 이 API는 데이터프레임의 전체 스키마, 즉 열 이름과 데이터 타입을 컴파일 시점에 추적하여 잘못된 연산이나 존재하지 않는 열에 대한 접근을 사전에 차단한다. 기존에는 런타임 오류로 뒤늦게 발견되던 문제들을 개발 단계에서 즉시 감지할 수 있게 된 것이다. 개발팀은 이 기능이 탐색적 분석 작업과 데이터 파이프라인 구축 모두에 자연스럽게 활용될 수 있도록 설계했다고 밝혔다.

파이썬·허깅페이스·대용량 처리까지

파이썬과의 연동도 눈에 띈다. Apache Arrow의 C 데이터 인터페이스를 구현해 하스켈 데이터프레임과 파이썬의 데이터 처리 라이브러리 폴라스(Polars) 간 데이터 교환이 가능해졌다. 이를 통해 기존 파이썬 데이터 과학 생태계와의 통합이 한층 수월해질 전망이다.
머신러닝 플랫폼 허깅페이스(Hugging Face)의 데이터셋도 직접 읽어들일 수 있다. Parquet 형식의 허깅페이스 데이터셋 주소를 입력하는 것만으로 데이터를 불러올 수 있어 AI 연구자들의 접근성이 높아질 것으로 보인다.
대용량 파일 처리 성능도 개선됐다. 이른바 '10억 행 챌린지(One Billion Row Challenge)'를 맥북 기준 약 10분, 12년 된 구형 델 노트북에서도 약 30분 내에 메모리 초과 없이 처리할 수 있다고 개발팀은 밝혔다. 기존에 복잡했던 수치 연산 문법도 간결하게 개선돼 개발 편의성이 크게 향상됐다.

차기 목표는 빅데이터 연동과 AI 에이전트 통합

개발팀은 향후 BigQuery, Snowflake, AWS S3 등 주요 클라우드 데이터 플랫폼 연동 기능을 추가할 계획이다. 또한 Parquet, Iceberg, DuckDB 등 다양한 데이터 형식 지원과 함께, AI 에이전트와의 연동을 통한 타입 기반 데이터 탐색 기능도 준비 중이라고 밝혔다. 개발자 mchav는 "소규모 인메모리 데이터 처리에서 대규모 데이터 레이크 쿼리로의 전환이 궁극적인 목표"라고 전했다.
한국정보기술신문 정보기술분과 유상헌 기자 news@kitpa.org