Z.ai의 새 오픈 모델 'GLM-5.2' 나왔다...개인 PC에서도 돌릴 길 열려...7440억 매개변수·100만 토큰 문맥에 언슬로스 양자화로 용량 최대 86% 줄여, 코딩·추론·에이전트 성능 최상위권 평가
Z.ai의 오픈 모델 GLM-5.2를 개인용 컴퓨터에서 돌릴 수 있게 됐다.
[한국정보기술신문] 중국 AI 기업 Z.ai가 새로운 공개형 인공지능(AI) 언어모델 'GLM-5.2'를 내놓은 가운데, AI 모델 경량화 도구를 만드는 언슬로스(Unsloth)가 이 모델을 개인용 컴퓨터에서도 구동할 수 있도록 한 변환 파일을 공개했다. 언슬로스는 자사 기술 문서에서 GLM-5.2를 두고 긴 흐름의 코딩과 추론, 그리고 스스로 여러 작업을 처리하는 '에이전트(agent)' 분야에서 최상위 수준의 성능을 보이는 모델이라고 소개했다. 공개형 모델이란 모델의 내부 데이터인 '가중치'를 누구나 내려받아 자신의 환경에서 직접 사용할 수 있도록 푼 AI를 말한다.
GLM-5.2는 매개변수가 7440억 개에 이르는 대형 모델이다. 매개변수는 AI가 학습을 통해 익힌 값으로, 사람으로 치면 지식이나 경험에 해당하며 그 수가 많을수록 모델이 더 복잡한 일을 처리할 수 있는 것으로 여겨진다. 다만 GLM-5.2는 질문에 답할 때 7440억 개를 모두 쓰는 것이 아니라 그중 400억 개만 골라 쓰는 '혼합 전문가(MoE)' 방식을 택했다. 이는 분야별 전문가 여러 명을 두고 질문에 따라 알맞은 전문가만 불러 쓰는 것과 비슷한 구조로, 전체 규모는 크게 유지하면서도 실제 연산에 드는 부담은 줄이는 효과가 있다. 또한 이 모델은 한 번에 약 100만 토큰(정확히는 104만 8576토큰)에 이르는 긴 내용을 다룰 수 있다. 토큰은 AI가 글을 처리할 때 쓰는 기본 단위로, 단어나 글자 조각에 해당한다.

1.51TB 모델을 239GB까지...'양자화'로 덩치 줄였다
GLM-5.2처럼 큰 모델을 그대로 쓰려면 막대한 저장 공간과 메모리가 필요하다. 언슬로스에 따르면 GLM-5.2의 원본 모델은 저장에만 1.51테라바이트(TB)의 공간을 차지한다. 1테라바이트는 1024기가바이트(GB)에 해당하는 큰 용량으로, 이 정도 모델은 개인이 가진 컴퓨터로는 사실상 돌리기 어렵다.
언슬로스가 내세운 것은 '양자화(quantization)'라는 압축 기술이다. 양자화란 모델 내부의 수많은 숫자를 더 적은 자릿수로 간략하게 표현해 전체 용량을 줄이는 방법을 말한다. 사진의 화질을 조금 낮춰 파일 크기를 줄이는 것에 비유할 수 있다. 언슬로스는 자체 개발한 '동적(Dynamic) 양자화' 방식을 적용해, 중요한 부분은 정밀하게 남기고 덜 중요한 부분은 과감히 줄이는 식으로 효율을 높였다고 설명했다.
그 결과 1.51TB이던 원본은 2비트 방식으로 줄였을 때 239GB로 작아져, 원본 대비 약 84% 용량이 줄어든다. 더 강하게 압축한 1비트 방식에서는 217GB까지 내려가 약 86%가 줄어든다. 언슬로스는 239GB짜리 2비트 모델의 경우 통합 메모리 256GB를 갖춘 매킨토시(Mac) 컴퓨터에 곧바로 올릴 수 있고, 24GB 그래픽카드 한 장과 256GB의 시스템 메모리를 갖춘 환경에서도 일부 연산을 메모리로 분산하는 방식으로 잘 작동한다고 밝혔다. 다만 이 역시 고성능 부품을 갖춘 환경이어서, 일반적인 보급형 PC에서 가볍게 돌릴 수 있는 수준은 아니다.
용량 줄이면 정확도는 어떻게 되나
용량을 줄이면 성능이 함께 떨어지지 않느냐는 의문이 따른다. 언슬로스는 이를 가늠하기 위해 원본 모델과 압축 모델의 답변이 얼마나 비슷한지를 재는 'KLD'라는 지표로 정확도를 측정했다고 밝혔다. 회사 측 설명에 따르면 가장 강하게 압축한 1비트 모델은 원본 대비 약 76.2%의 정확도를 유지하면서 용량은 86% 줄었고, 2비트 모델은 약 82%의 정확도를 보이며 용량을 84% 줄였다. 언슬로스는 4비트와 5비트 수준의 동적 양자화는 사실상 원본과 거의 차이가 없을 정도로 정확도 손실이 적다고 덧붙였다.
이 수치들은 언슬로스가 자사 변환 모델을 대상으로 자체 측정해 내놓은 것이다. 압축률이 높을수록 용량은 줄지만 정확도도 함께 낮아지는 경향이 나타나는 만큼, 어느 수준의 압축을 택할지는 사용 목적과 보유한 장비에 맞춰 사용자가 판단해야 하는 대목이다.
llama.cpp·언슬로스 스튜디오로 실행...'사고 모드'도 조절
GLM-5.2는 오픈소스 추론 도구인 'llama.cpp(라마 시피피)'나 언슬로스가 만든 웹 기반 프로그램 '언슬로스 스튜디오(Unsloth Studio)'를 통해 개인 컴퓨터에서 돌릴 수 있다. 언슬로스 스튜디오는 매킨토시와 윈도, 리눅스 등 여러 운영체제에서 쓸 수 있고, 메모리 분산과 그래픽카드 인식을 자동으로 처리해 준다는 것이 회사 측 설명이다.
100만 토큰에 이르는 긴 문맥을 실제로 활용하려면 그만큼 많은 메모리가 필요한데, 언슬로스는 이를 위해 모델이 대화 도중 임시로 저장해 두는 데이터(KV 캐시)까지 양자화로 압축하는 방법을 함께 안내했다. KV 캐시는 AI가 앞서 처리한 내용을 기억해 두는 임시 저장 공간으로, 이 부분을 압축하면 같은 메모리로 더 긴 글을 다룰 수 있다. 회사 측은 특정 압축 설정을 쓰면 본래 다룰 수 있던 길이보다 약 3배가량 긴 내용까지 처리할 수 있다고 설명했다. 다만 이 역시 압축인 만큼 정확도와 메모리 사이의 균형을 사용자가 따져 선택해야 한다.
이 모델은 답을 내기 전 스스로 생각을 정리하는 '사고(thinking) 모드'를 갖춰, 생각하지 않고 곧바로 답하는 방식과 생각의 깊이를 '높음'과 '최대' 두 단계로 나눈 방식 등 세 가지로 동작할 수 있다. 복잡한 문제에는 '최대' 단계를 쓰도록 권장된다. 권장 설정값으로는 답변의 다양성을 조절하는 수치인 '온도(temperature)' 1.0 등이 제시됐다. Z.ai는 언슬로스에 모델 공개 첫날부터 접근 권한을 제공한 것으로 알려졌다.
성능은 최상위권 평가...자체 보고 수치인 점은 감안해야
언슬로스는 GLM-5.2가 여러 성능 시험(벤치마크)에서 현재 가장 강력한 공개형 모델이며, 비공개 상용 모델인 클로드 오푸스 4.8(Claude Opus 4.8), GPT-5.5, 제미나이 3.1 프로(Gemini 3.1 Pro) 등과 견줄 만한 수준이라고 밝혔다. 벤치마크란 여러 AI 모델에 같은 문제를 풀게 해 성능을 비교하는 표준 시험을 말한다.
문서에 함께 공개된 비교표를 보면 GLM-5.2는 수학 경시 문제인 'AIME 2026'에서 99.2점, 국제수학올림피아드 형식의 'IMOAnswerBench'에서 91.0점을 기록해 비교 대상 가운데 가장 높은 점수를 받았다. 반면 실제 소프트웨어 개발 능력을 재는 'SWE-bench Pro'에서는 62.1점으로, 같은 항목에서 69.2점을 받은 클로드 오푸스 4.8에 뒤졌다. 항목에 따라 앞서기도 하고 뒤처지기도 해, 분야별로 강점이 갈리는 모습이다.
다만 이 같은 평가와 수치는 모델을 직접 배포하는 언슬로스가 자사 기술 문서에서 제시한 것으로, 독립된 제3자가 검증한 결과가 아니라는 점은 감안할 필요가 있다. 벤치마크 점수는 시험 방식이나 조건에 따라 달라질 수 있고, 실제 사용 환경에서의 체감 성능과 반드시 일치하지는 않는다. GLM-5.2가 공개형 모델 가운데 어떤 위치를 차지하게 될지는 앞으로 여러 사용자와 연구자의 검증을 거쳐 가늠할 수 있을 것으로 보인다.
한국정보기술신문 인공지능분과 김현수 기자 news@kitpa.org











