인공지능 · 클라우드 ·
AI 스타트업 Si, 30페타바이트 자체 스토리지 구축...AWS 대비 비용 40배 절감
샌프란시스코 소재 AI 연구소 Si가 영상 데이터 기반 AI 학습을 위해 30페타바이트 규모의 자체 스토리지 클러스터를 구축했다.
[한국정보기술신문] 미국 샌프란시스코의 AI 연구소 Si가 컴퓨터 사용 AI 모델 사전학습을 위해 30페타바이트 규모의 자체 스토리지 클러스터를 구축해 화제다. 이 회사는 클라우드 서비스 대신 자체 데이터센터를 구축함으로써 연간 약 1,200만 달러의 비용을 35만 4,000달러로 40배 가량 절감하는 데 성공했다.
Si는 자사 블로그를 통해 샌프란시스코 도심의 코로케이션 센터에 9,000만 시간 분량의 영상 데이터를 저장할 수 있는 스토리지 클러스터를 구축했다고 밝혔다. 이는 텍스트 기반 대형언어모델인 LLaMa-405B 학습에 필요한 데이터 용량의 500배에 달하는 규모다.
클라우드 대비 압도적 비용 효율성
Si가 공개한 비용 분석에 따르면 AWS의 경우 월 113만 달러, 대량 할인을 적용한 Cloudflare R2의 경우 월 27만 달러가 소요되는 반면, 자체 구축한 데이터센터는 월 2만 9,500달러에 불과했다. 이는 테라바이트당 AWS 38달러, Cloudflare 10달러 대비 자체 구축 시 1달러 수준이다.
자체 구축 비용의 세부 내역을 보면 월 고정비용은 인터넷 회선 7,500달러와 전력비 1만 달러로 총 1만 7,500달러이며, 3년 감가상각을 적용한 설비 비용이 월 1만 2,000달러 추가된다. 초기 일회성 투자비는 하드드라이브 30만 달러, 스토리지 섀시 3만 5,000달러, 데이터센터 설치비 3만 8,500달러 등 총 42만 6,500달러였다.
36시간 마라톤 설치 작업
Si는 이 프로젝트를 신속하게 완료하기 위해 하드드라이브 스태킹 파티라는 독특한 방식을 활용했다. 친구들을 초대해 음식과 맞춤 제작 하드드라이브를 제공하며 오전 6시부터 36시간 동안 2,400개의 하드드라이브를 설치했다.
기술적으로는 단순성을 최우선으로 했다. Ceph나 MinIO 같은 복잡한 스토리지 솔루션 대신 200줄의 Rust 코드와 nginx 웹서버, SQLite 데이터베이스만으로 시스템을 구성했다. 이를 통해 100Gbps 네트워크를 읽기와 쓰기 모두에서 거의 포화시킬 수 있었다.
AI 학습 데이터의 특수성 활용
Si가 이러한 비용 절감을 달성할 수 있었던 핵심은 AI 학습 데이터의 특성을 활용한 것이다. 일반 기업용 스토리지와 달리 AI 학습 데이터는 전체의 5% 정도가 손실되어도 큰 영향이 없어 AWS가 제공하는 13-나인 수준의 높은 신뢰성이 불필요하다. 2-나인 수준의 신뢰성으로도 충분하다는 판단이다.
회사는 향후 개선 방향으로 더 높은 밀도의 스토리지 사용, 데이지체인 방식 대신 직접 연결 방식 채택, KVM 및 IPMI 같은 원격 관리 도구 활용 등을 제시했다.
5명으로 구성된 Si 팀은 컴퓨터 사용 AI 모델 사전학습에 집중하고 있으며, 장기적으로는 인간의 가치와 정렬된 범용 AI 모델 개발을 목표로 하고 있다.
한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org