앨런 AI, 완전 오픈소스 AI 모델 OLMo 3 공개...학습 과정까지 투명하게 추적 가능

2025년 11월 22일

4분

앨런 인공지능연구소가 학습 데이터부터 모델 개발 전 과정을 공개한 대규모 언어 모델 OLMo 3를 발표했다.

[한국정보기술신문] 미국 앨런 인공지능연구소가 2025년 11월 20일, 완전 오픈소스 대규모 언어 모델 OLMo 3를 공개했다. 이번 발표는 AI 모델의 단순한 가중치 공개를 넘어, 학습 데이터부터 개발 과정 전체를 투명하게 공개한다는 점에서 업계의 주목을 받고 있다.

OLMo 3는 기존 오픈소스 AI 모델들이 최종 결과물만 공개했던 것과 달리, 모델 개발의 모든 단계, 체크포인트, 데이터셋, 그리고 의존성까지 완전하게 공개하는 모델 플로우 개념을 도입했다. 이를 통해 연구자들은 모델의 특정 출력이 어떤 학습 데이터와 학습 결정에서 비롯되었는지 역추적할 수 있게 됐다.

4가지 버전으로 다양한 용도 지원

스크린샷 2025-11-22 오전 11.13.48.png — 앨런 AI연구소 제공

OLMo 3 모델군은 7억 파라미터와 320억 파라미터 두 가지 규모로 제공되며, 용도에 따라 4가지 버전으로 구분된다. OLMo 3-Base는 가장 강력한 기본 모델로, 프로그래밍, 독해, 수학 문제 해결에서 뛰어난 성능을 보이며 최대 6만 5천 토큰의 긴 문맥을 처리할 수 있다. 평가 결과 완전 오픈 베이스 모델 중 가장 강력한 성능을 기록했으며, Qwen 2.5 및 Gemma 3 같은 경쟁 모델들과 견줄 만한 수준을 달성했다.

OLMo 3-Think는 추론 특화 모델로, 중간 추론 과정을 검사할 수 있는 최초의 완전 오픈 추론 모델이다. 특히 32억 파라미터 버전은 동급 규모에서 가장 강력한 완전 오픈 추론 모델로 평가받고 있다. 수학 벤치마크인 MATH에서 96.1점을 기록했으며, AIME 2024에서 76.8점, OMEGA 스위트에서 50.8점을 달성해 Qwen 3 32B와 경쟁하는 성능을 보였다. 주목할 점은 경쟁 모델 대비 약 6분의 1의 토큰으로 학습하면서도 이러한 성과를 냈다는 것이다.

OLMo 3-Instruct는 대화 및 빠른 응답에 특화된 7억 파라미터 모델로, 다중 턴 대화, 명령 수행, 도구 사용 등을 지원한다. 평가에서 Qwen 2.5, Gemma 3, Llama 3.1 등 경쟁 모델들과 대등하거나 우수한 성능을 보였다. OLMo 3-RL Zero는 강화학습 실험을 위한 경로로, 수학, 코드, 명령 수행, 일반 대화 등 4가지 도메인별 체크포인트를 제공한다.

9조 토큰 규모의 학습 데이터 전면 공개

OLMo 3의 가장 큰 특징 중 하나는 학습 데이터의 완전한 공개다. 모델은 Dolma 3라는 약 9조 3천억 토큰 규모의 말뭉치로 사전학습되었다. 이 데이터는 웹페이지, 과학 논문 PDF, 코드베이스, 수학 문제 및 해답, 백과사전 텍스트 등으로 구성되며, 모두 투명하게 공개된다.

사전학습은 3단계로 진행됐다. 초기 대규모 학습으로 광범위한 능력을 구축한 뒤, 수학, 코드, 독해력 등 어려운 자료에 집중하는 중간 학습 단계를 거쳤다. 마지막으로 매우 긴 문서로 학습하는 긴 문맥 확장 단계를 통해 모델의 능력을 완성했다.

포스트 트레이닝을 위해서는 Dolci라는 새로운 데이터 스위트가 도입됐다. Dolci는 추론, 도구 사용, 명령 수행에 특화된 데이터를 제공하며, SFT, DPO, RLVR 각 단계별로 별도의 믹스를 제공한다. 연구소 측은 모든 학습 및 미세조정 데이터셋을 허용적 라이선스 하에 다운로드 가능하게 공개했다.

OlmoTrace로 실시간 데이터 추적 가능

OLMo 3는 OlmoTrace 도구와 통합되어 모델의 출력을 실시간으로 학습 데이터까지 역추적할 수 있다. 예를 들어 AI2 플레이그라운드에서 OLMo 3-Think에게 일반 지식 질문을 하면, OlmoTrace를 사용해 모델이 응답의 특정 부분을 어디서 어떻게 학습했는지 검사할 수 있다. 이는 학습 데이터와 모델 행동 사이의 간격을 메우고, 데이터나 학습 결정을 조정할 수 있게 한다.

연구소는 데이터 처리를 위한 새로운 도구들도 공개했다. Olmo-core는 분산 모델 학습을 위한 최첨단 프레임워크이며, Open Instruct는 포스트 트레이닝 파이프라인, datamap-rs는 대규모 데이터 정제를 위한 Rust 툴킷, duplodocus는 초고효율 퍼지 중복제거 도구, OLMES는 재현 가능한 평가를 위한 툴킷, decon은 학습 데이터에서 테스트 세트를 제거하는 도구다. 모든 도구는 오픈소스로 공개돼 누구나 OLMo 3의 학습 곡선을 재현하거나 데이터 믹스와 목적에 따른 통제된 실험을 수행할 수 있다.

효율적 학습 인프라와 32억 파라미터의 의미

OLMo 3는 최대 1024개의 H100 GPU 클러스터에서 사전학습됐으며, OLMo 3-Base 7억 파라미터 버전에서 디바이스당 초당 7700 토큰의 학습 처리량을 달성했다. 중간 학습은 128개 H100 GPU에서, 포스트 트레이닝은 256개 H100에서 수행됐다.

특히 OLMo 2 대비 포스트 트레이닝 코드의 효율성을 크게 개선했다. SFT를 Open Instruct에서 Olmo Core로 이동시켜 처리량을 8배 향상시켰으며, 인플라이트 가중치 업데이트와 연속 배칭, 스레딩 개선을 통해 강화학습 학습을 4배 더 효율적으로 만들어 훨씬 저렴하고 빠른 학습이 가능해졌다.

연구소는 32억 파라미터 규모가 연구와 실험에 최적의 지점이라고 설명했다. 32억 모델은 강력하고 경쟁력 있는 성능을 지원하면서도, 광범위한 사용자가 접근 가능한 하드웨어에서 미세조정하고 배포할 수 있을 만큼 충분히 작다는 것이다.

진정한 개방성을 통한 신뢰와 책임성 추구

앨런 AI의 연구 책임자 한나 하지시르지와 노아 스미스는 AI의 진정한 개방성은 단순한 접근성을 넘어 신뢰, 책임성, 공유된 진보를 의미한다고 강조했다. 우리의 미래를 형성하는 모델들은 블랙박스가 아니라 완전히 검사 가능해야 한다는 것이 이들의 신념이다.

OLMo 3는 가중치만 공개하는 것이 아니라 AI 시스템을 책임감 있게 발전시키는 데 필요한 완전한 지식, 즉 플로우를 공유한다는 점에서 차별화된다. 연구자들은 어떤 학습 단계에서든 실험을 수행하고, 서로 다른 기술이 모델 능력에 어떻게 기여하는지 정확히 이해하며, 자신의 프로젝트에 적합한 단계에서 연구소의 작업을 기반으로 구축할 수 있다.

과학자들에게 완전 오픈 플로우는 모델의 내부 작동을 노출시켜 코딩, 추론, 강화학습, 도구 사용 전반에 걸쳐 실험을 수행할 수 있게 한다. 연구 커뮤니티는 OLMo 3를 검증, 비판, 확장할 수 있으며, 이를 통해 AI 개발의 새로운 범주의 연구가 가능해질 것으로 기대된다.

모든 모델 가중치, 체크포인트, 데이터셋, 코드는 허용적 오픈소스 라이선스 하에 공개되며, AI2 플레이그라운드에서 데모를 체험하거나 문서를 탐색하고 공개된 가중치와 체크포인트를 기반으로 개발할 수 있다. 앨런 AI는 커뮤니티가 자신들의 발견을 검증, 비판, 확장해 주기를 요청하며, 이것이 오픈 우선 접근법의 진정한 의미라고 밝혔다.

한국정보기술신문 인공지능분과 김주호 기자 news@kitpa.org

앨런 AI, 완전 오픈소스 AI 모델 OLMo 3 공개...학습 과정까지 투명하게 추적 가능

4가지 버전으로 다양한 용도 지원

9조 토큰 규모의 학습 데이터 전면 공개

OlmoTrace로 실시간 데이터 추적 가능

효율적 학습 인프라와 32억 파라미터의 의미

진정한 개방성을 통한 신뢰와 책임성 추구

함께 읽으면 좋은 기사

신한카드, 솔라나와 스테이블코인 협력...웹3.0 결제 생태계 확대

로블록스, 실사급 멀티플레이 게임 공개...소규모 개발도 가능

엔비디아 1분기 실적 공시 설명회 5월 20일 개최...회계연도 2027년 1분기 실적 논의

건국대학교, 인공지능학과 신설 2027년 개교...AI 인재 양성 본격화, 연 50명 선발