3,970억 개 매개변수 AI 모델, 노트북 한 대로 구동 성공...Flash-MoE 공개
2026년 3월 24일
3분

[한국정보기술신문] 3,970억 개의 매개변수를 갖는 초대형 인공지능 모델을 일반 노트북 한 대에서 구동하는 데 성공한 오픈소스 프로젝트가 공개돼 개발자 커뮤니티의 뜨거운 관심을 받고 있다. 깃허브 사용자 Dan Veloper가 공개한 'Flash-MoE'는 파이썬이나 PyTorch 같은 프레임워크 없이 C, Objective-C, Metal 셰이더만으로 구현된 추론 엔진으로, 공개 사흘 만에 별점 1,600개를 돌파했다.
209GB 모델을 48GB 노트북에서 실행하는 방법
Flash-MoE가 실행하는 모델은 'Qwen3.5-397B-A17B'로, 디스크 용량만 209GB에 달하는 혼합 전문가(Mixture-of-Experts, MoE) 구조의 대형 언어 모델이다. 전체 매개변수가 3,970억 개에 이르지만, MoE 구조 특성상 토큰 하나를 처리할 때는 512개 전문가 모듈 중 단 4개만 활성화된다. Flash-MoE는 이 점을 활용해 필요한 전문가 모듈만 SSD에서 실시간으로 읽어 들이는 방식으로 48GB 통합 메모리 제약을 극복한다.
구동 환경은 애플 M3 Max 칩을 탑재한 맥북 프로로, 16코어 CPU와 40코어 GPU, 16코어 신경망 엔진, 400GB/s 메모리 대역폭을 갖추고 있다. 실측 SSD 순차 읽기 속도는 17.5GB/s에 달해 전문가 모듈 스트리밍의 핵심 병목을 해소했다. 현재 4비트 양자화 구성에서 초당 4.36개의 토큰을 생성하며, 도구 호출(tool calling)을 포함한 실제 서비스 수준의 출력 품질을 달성했다고 개발자는 밝혔다.
6가지 핵심 기술이 성능을 끌어올리다
Flash-MoE의 성능은 여러 기술적 최적화의 결합으로 이루어진다. 가장 핵심적인 기술은 'SSD 전문가 스트리밍'이다. 전문가 가중치 전체를 메모리에 올리는 대신, 레이어마다 활성화되는 4개의 전문가 모듈(각 약 6.75MB)만 NVMe SSD에서 병렬 읽기로 가져온다. 운영체제 페이지 캐시의 자연스러운 LRU 교체를 그대로 활용해 약 71%의 캐시 적중률을 달성했으며, 별도의 커스텀 캐시 구현 없이도 효율적인 관리가 가능했다. 이는 애플의 'LLM in a Flash' 논문에서 영감을 얻은 방식이다.
Metal 셰이더 최적화도 두드러진다. GPU의 4비트 역양자화 행렬-벡터 곱 연산에서 수식을 재배열해 FMA(Fused Multiply-Add) 명령 하나로 역양자화와 곱셈을 동시에 처리하도록 개선했다. 이 변경만으로 기존 대비 12%의 속도 향상을 이끌어냈다. 선형 어텐션 연산에는 애플의 Accelerate BLAS 라이브러리를 적용해 스칼라 코드 대비 64%의 성능 향상을 달성했다.
파이프라인 구성도 독특하다. GPU 전문가 연산 명령을 제출한 직후 결과를 기다리지 않고 CPU가 다음 레이어 처리를 준비하도록 해 GPU와 CPU의 작업을 겹친다. 레이어당 평균 처리 시간은 4.28밀리초이며, 이 중 SSD 읽기에 2.41밀리초, GPU 어텐션 연산에 1.22밀리초가 소요된다.
58번의 실패가 만든 성공
개발자는 24시간 동안 58개의 실험을 거쳐 최적 구성을 완성했으며, 이 과정을 논문으로도 정리해 저장소 내에 공개했다. 실패한 시도도 투명하게 공개해 눈길을 끈다. LZ4 압축을 이용한 전문가 캐시는 오히려 13% 성능 저하를 불렀고, 전문가 사전 읽기(F_RDADVISE)는 SSD DMA와 GPU 연산이 동일한 메모리 컨트롤러를 공유하는 애플 실리콘 구조 특성상 GPU 속도를 73%나 떨어뜨렸다. 투기적 전문가 사전 계산, dispatch_io 사용, mmap 기반 전문가 파일 로딩 등도 모두 기대 이하의 결과로 폐기됐다.
2비트 양자화를 적용하면 디스크 용량을 120GB로 줄이고 초당 5.74토큰까지 속도를 끌어올릴 수 있지만, JSON 출력에서 따옴표가 깨지는 현상이 발생해 도구 호출 기능이 동작하지 않는 문제가 있다. 개발자는 실제 사용 환경에서는 4비트 구성을 권장한다고 밝혔다.
"운영체제를 믿어라"는 설계 철학
Flash-MoE 개발에서 도출된 핵심 교훈은 "운영체제를 믿어라(Trust the OS)"는 원칙이다. Metal 기반 LRU 캐시, malloc 캐시, LZ4 압축 캐시 등 커스텀 캐싱 방법을 모두 시도했지만, GPU 메모리 압박이나 추가 오버헤드로 인해 운영체제 기본 페이지 캐시보다 빠른 방법은 없었다고 개발자는 설명했다. 메모리 사용량은 비전문가 가중치 5.5GB, Metal 스크래치 버퍼 약 200MB를 합쳐 총 6GB 수준으로, 나머지 42GB는 운영체제와 페이지 캐시에 온전히 남겨둔다.
프로젝트는 깃허브(github.com/danveloper/flash-moe)에 전체 소스코드와 함께 공개되어 있으며, 애플 M 시리즈 칩과 48GB 이상의 통합 메모리 환경이 있다면 누구나 직접 실행해볼 수 있다.
한국정보기술신문 인공지능분과 김주호 기자 news@kitpa.org



