인공지능 ·

Z.ai, 30B 클래스 최강 성능 'GLM-4.7-Flash' 모델 공개...효율성과 성능 균형 추구

발행일2026년 1월 24일

읽는 시간2분 27초

Z.ai가 경량 배포에 최적화된 30B-A3B MoE 구조의 대규모 언어모델 GLM-4.7-Flash를 공개했다.

[한국정보기술신문] Z.ai가 성능과 효율성의 균형을 맞춘 새로운 인공지능 언어모델 GLM-4.7-Flash를 공개했다. 이 모델은 30B 파라미터 클래스에서 가장 강력한 성능을 자랑하며, 경량 배포를 위한 새로운 선택지를 제시한다.

모델은 30B-A3B MoE 구조를 채택한 모델로, 대규모 언어모델의 성능을 유지하면서도 실제 배포 환경에서의 효율성을 크게 개선했다. MoE 구조는 전체 파라미터 중 필요한 부분만 활성화하여 추론 속도를 높이고 자원 사용을 최적화하는 기술이다.

Z.ai는 모델의 성능을 입증하기 위해 다양한 벤치마크 테스트 결과를 공개했다. AIME 25 벤치마크에서 91.6점을 기록하며 Qwen3-30B-A3B-Thinking-2507의 85.0점과 GPT-OSS-20B의 91.7점과 어깨를 나란히 했다. 특히 과학 분야 질의응답을 평가하는 GPQA 벤치마크에서는 75.2점으로 경쟁 모델들을 크게 앞섰다.

코딩 및 복잡한 추론 작업에서 압도적 우위

모델은 특히 소프트웨어 엔지니어링과 복잡한 추론 작업에서 뛰어난 성능을 보였다. SWE-bench Verified 벤치마크에서 59.2점을 획득하며 Qwen3-30B-A3B-Thinking-2507의 22.0점, GPT-OSS-20B의 34.0점을 크게 상회했다. 이는 실제 소프트웨어 개발 환경에서 요구되는 코드 이해 및 생성 능력이 탁월함을 의미한다.

복잡한 추론 능력을 평가하는 τ²-Bench에서는 79.5점을 기록하며 경쟁 모델 대비 30점 이상 높은 점수를 달성했다. 웹 브라우징 능력을 측정하는 BrowseComp 벤치마크에서도 42.8점으로 1위를 차지했다. 이는 GLM-4.7-Flash가 단순한 텍스트 생성을 넘어 복잡한 작업 수행 능력을 갖췄음을 보여준다.

다양한 배포 환경 지원

모델은 vLLM, SGLang, Transformers 등 주요 인퍼런스 프레임워크를 통한 로컬 배포를 지원한다. 개발자들은 자신의 환경에 맞는 프레임워크를 선택하여 모델을 손쉽게 배포할 수 있다. Z.ai는 공식 GitHub 저장소를 통해 포괄적인 배포 가이드를 제공하고 있다.

vLLM을 활용할 경우 PyPI를 통해 최신 버전을 설치하고 허깅페이스의 Transformers 라이브러리와 함께 사용할 수 있다. SGLang은 버전 0.3.2를 권장하며, 특별히 제작된 추론 파이프라인을 통해 모델을 서빙할 수 있다. Transformers를 직접 사용하는 방법도 지원되어 연구자들이 자유롭게 모델을 실험할 수 있다.

배포 시에는 텐서 병렬화를 통해 여러 GPU에 모델을 분산시킬 수 있으며, 추론 최적화 기법인 MTP를 적용할 수 있다. Blackwell GPU를 사용하는 경우에는 Triton 백엔드를 활용하여 더욱 향상된 성능을 얻을 수 있다.

API 서비스 및 오픈소스 공개

Z.ai는 모델을 Z.ai API 플랫폼을 통해 서비스로도 제공한다. 개발자들은 로컬 배포 없이도 API를 통해 모델의 강력한 기능을 활용할 수 있다. 동시에 모델의 가중치와 코드를 허깅페이스를 통해 오픈소스로 공개하여 연구자 커뮤니티의 발전에 기여하고 있다.

Z.ai는 디스코드 커뮤니티를 운영하며 개발자들과 활발히 소통하고 있다. 또한 GLM-4.7에 대한 기술 블로그와 GLM-4.5 시리즈의 논문을 통해 모델의 기술적 세부사항을 공유하고 있다. 해당 논문은 arXiv에 게재되어 학술 커뮤니티에서도 검증을 받고 있다.

30B 클래스 모델의 새로운 기준 제시

모델의 등장은 30B 파라미터 클래스 언어모델의 새로운 기준을 제시한다는 평가를 받는다. 기존에는 대규모 언어모델의 성능을 높이기 위해 파라미터 수를 무한정 늘리는 경향이 있었으나, 모델은 적절한 크기의 모델로도 최고 수준의 성능을 달성할 수 있음을 입증했다.

특히 MoE 구조를 통해 30B 파라미터 중 실제 추론 시에는 3B 파라미터만 활성화하는 방식은 효율성 측면에서 혁신적이다. 이는 제한된 컴퓨팅 자원을 가진 기업이나 연구기관에서도 고성능 언어모델을 활용할 수 있는 길을 열어준다.

업계 관계자는 모델이 상용 서비스와 연구 개발 양쪽에서 널리 활용될 것으로 전망했다. 특히 코드 생성, 복잡한 추론, 웹 브라우징 등 다양한 작업에서 검증된 성능은 실제 애플리케이션 개발에 큰 도움이 될 것으로 기대된다.

모델은 현재 허깅페이스에서 MIT 라이선스로 공개되어 있으며, 누구나 자유롭게 다운로드하여 사용할 수 있다. Z.ai는 향후에도 지속적인 모델 업데이트와 커뮤니티 지원을 약속했다.

한국정보기술신문 인공지능분과 권지현 기자 news@kitpa.org