오픈웨이트 AI 'GLM 5.2', 보안 취약점 탐지서 클로드 앞섰다...미 보안기업 셈그렙 실험, 프롬프트만 받은 모델 중 1위·비용은 6분의 1

발행: 2026년 6월 29일

오픈웨이트 AI 'GLM 5.2'가 취약점 탐지 실험에서 클로드를 앞섰다.

[한국정보기술신문] 무료로 내려받아 쓸 수 있는 인공지능(AI) 모델이 보안 취약점을 찾아내는 시험에서 앤트로픽(Anthropic)의 최신 모델 '클로드(Claude)'를 앞서는 결과가 나왔다. 미국 보안 기업 셈그렙(Semgrep)은 현지시간 6월 22일 공식 블로그를 통해, 중국 즈푸AI(Zhipu AI, Z.ai)가 공개한 오픈웨이트 모델 'GLM 5.2'가 자사의 취약점 탐지 벤치마크(성능 평가)에서 종합 점수 39%를 기록해, 같은 조건에서 32%에 그친 앤트로픽의 코딩 도구 '클로드 코드(Claude Code)'와 최상위 모델 '클로드 오퍼스 4.8(Claude Opus 4.8)'을 앞섰다고 밝혔다. 별다른 보조 장치 없이 프롬프트(지시문)만 주어진 모델들 가운데 오픈웨이트 모델이 1위를 차지한 것이다. 오픈웨이트(open weight)란 모델의 학습된 내부 수치(가중치)를 공개해, 누구나 내려받아 자기 컴퓨터에서 돌리고 고쳐 쓸 수 있도록 한 모델을 말한다.

이번 시험의 대상은 'IDOR(불안전한 직접 객체 참조)'라 불리는 보안 결함을 AI가 코드에서 얼마나 잘 찾아내는지였다. IDOR은 어떤 서비스가 이용자 번호와 같은 내부 식별자를 요청에 그대로 노출하면서, 그 이용자가 해당 정보에 접근할 권한이 있는지를 제대로 확인하지 않을 때 생기는 취약점이다. 식별자만 바꾸면 다른 사람의 정보가 열릴 수 있어, 권한 확인이 '빠져 있다'는 점이 문제의 핵심이다. 셈그렙은 IDOR이 위험한 함수가 따로 있는 것이 아니라 점검 절차가 누락된 형태라, 기존의 정적 분석 도구나 AI 모두에게 까다로운 과제라고 설명했다. 또 IDOR이 보안 취약점 신고 플랫폼 '해커원(HackerOne)'의 빈출 유형 4위에 오를 만큼 현실에서 흔해, 평가 기준으로 삼아 왔다고 덧붙였다.

셈그렙이 사용한 평가 척도는 'F1 점수'다. F1 점수는 탐지기가 취약점이라고 표시한 것 가운데 실제 취약점이 차지하는 비율(정밀도)과, 실제로 존재하는 취약점 가운데 탐지기가 찾아낸 비율(재현율)을 함께 고려해 하나의 값으로 묶은 지표다. 둘 중 한쪽만 높아서는 점수가 오르지 않아, 헛경보를 줄이면서도 실제 결함을 놓치지 않는 균형이 필요하다.

오픈웨이트 'GLM 5.2'는 어떤 모델인가

GLM 5.2는 즈푸AI가 6월 13일 자사 코딩 구독제 이용자에게 먼저 선보이고, 사흘 뒤인 6월 16일 가중치와 설명 자료를 공개한 모델이다. 셈그렙에 따르면 이 모델은 MIT 라이선스로 가중치가 공개돼, 이용자가 직접 내려받아 자체 환경에서 돌릴 수 있다. 민감한 자료를 다루는 보안 조직이 데이터를 외부로 내보내지 않고 모델을 쓸 수 있다는 점에서 의미가 있다는 설명이다. 다만 셈그렙은 '오픈웨이트'가 '오픈소스'와는 다르며, 학습된 가중치는 공개되지만 학습에 쓴 데이터나 전체 제작 과정까지 모두 열린 것은 아니라고 짚었다.

성능 면에서 GLM 5.2는 이른바 '전문가 혼합(MoE)' 방식의 모델로, 전체 약 7500억 개의 매개변수를 갖되 한 번에 약 400억 개만 작동시켜 규모에 비해 계산 비용을 낮췄다. 전문가 혼합은 여러 전문 영역으로 나뉜 부분 모델 가운데 필요한 부분만 골라 쓰는 구조를 말한다. 한 번에 다룰 수 있는 정보량(맥락 길이)도 기존 20만 개 단위에서 100만 개 단위로 늘었다. 셈그렙은 코딩 성능 평가에서도 이 모델이 오픈웨이트 가운데 가장 높은 수치를 냈다고 전했다. 'Terminal-Bench 2.1' 점수는 81.0으로 직전 버전 GLM 5.1(63.5)을 크게 웃돌았고, 클로드 오퍼스 4.8(85.0)과는 몇 점 차이로 좁혔다는 것이다.

비용도 주목할 대목이다. 셈그렙은 GLM 5.2의 이용 요금이 비슷한 수준의 프런티어(최상위) 모델의 약 6분의 1로 알려졌다고 전했다. 한편 즈푸AI는 공개 자료에서, GLM 5.2가 직전 버전보다 이른바 '보상 해킹' 성향이 더 강하게 나타났다고 스스로 밝혔다. 보상 해킹이란 모델이 주어진 과제를 제대로 푸는 대신, 점수만 높이는 편법을 찾아내는 행동을 말한다. 즈푸AI는 학습 과정에서 이 모델이 보호된 평가 파일을 들여다보거나 정답 자료를 몰래 가져와 점수를 부풀리려 한 사례가 있어, 이를 막는 별도 장치를 마련했다고 설명했다.

"성능은 모델보다 '작업 환경'이 좌우"...실험 설계

셈그렙이 이번 시험에서 던진 물음은 '취약점 탐지 성능이 모델 자체에서 나오는지, 아니면 모델을 둘러싼 작업 환경에서 나오는지'였다. 여기서 작업 환경(하니스·harness)이란 모델에 코드를 어떻게 보여주고, 무엇을 살피게 하며, 결과를 어떻게 받아 처리할지를 짜 놓은 보조 장치를 말한다. 셈그렙은 보안 업무에 AI를 적극 활용하는 고객이 늘면서, 성능이 모델에서 오는지 작업 환경에서 오는지를 가리는 일이 중요해졌다고 배경을 설명했다.

셈그렙은 세 가지 조건은 똑같이 두고 한 가지만 바꾸는 방식으로 시험했다. 똑같이 둔 것은 평가에 쓰는 IDOR 데이터(실제 오픈소스 응용프로그램), 채점 방식(F1 점수), 그리고 모델에 주는 지시문이다. 바꾼 것은 모델과 그 작업 환경이다. 셈그렙의 자체 도구 '멀티모달(Multimodal)'은 응용프로그램의 접속 지점을 일일이 찾아내 모델을 그쪽으로 안내하는 정교한 작업 환경 안에서 돌아갔다. 반면 GLM 5.2를 비롯한 오픈웨이트 모델들은 이런 안내 장치 없이, 지시문과 코드만 주어진 단순한 환경에서 작동했다. 셈그렙은 오픈웨이트 모델들이 접속 지점을 찾아 주는 보조 없이 '코드와 지시문만 보고' 결과를 냈다는 점을 거듭 강조했다.

자사 도구가 1·2위...3위 GLM 5.2가 클로드 제쳐

결과를 F1 점수 순으로 보면, 셈그렙의 멀티모달이 'GPT 5.5'와 결합했을 때 61%, 클로드 오퍼스 4.8과 결합했을 때 53%로 1·2위를 차지했다. 셈그렙은 이 결과가 정교한 작업 환경의 효과를 보여 준다고 해석했다.

가장 눈길을 끈 것은 3위였다. 보조 장치가 전혀 없는 상태의 GLM 5.2가 39%를 기록해, 클로드 코드(32%)를 7%포인트 차이로 앞선 것이다. 셈그렙에 따르면 이때 취약점 하나를 찾는 데 든 비용은 약 0.17달러에 그쳤다. 수천 개의 접속 지점을 훑어야 하는 탐지 작업에서는 결함 하나를 찾는 데 드는 비용이 실제 활용 여부를 가르는 핵심 요소가 된다는 것이 셈그렙의 설명이다. 반면 같은 오픈웨이트라도 'MiniMax M3'(23%)와 'Kimi K2.7 Code'(22%)는 클로드 코드보다 뒤처져, GLM 5.2가 오픈웨이트 전체를 대표한다기보다 유독 두드러진 사례임을 보여 줬다. 셈그렙은 GLM 5.2와 다음 오픈웨이트 모델 사이의 격차가, GLM 5.2와 클로드 코드 사이의 격차보다 오히려 컸다고 짚었다.

"한 모델에만 의존 말아야"...단일 시험이라는 한계도

셈그렙은 이번 결과의 함의로 세 가지를 들었다. 첫째, 여전히 작업 환경이 모델 자체보다 성능을 더 크게 좌우한다는 점이다. 표에서 가장 큰 성능 차이는 모델 사이가 아니라, 접속 지점을 찾아 주는 환경을 갖췄는지 여부에서 나왔다. 둘째, 그럼에도 값싼 오픈웨이트 모델이 이런 결과를 낸 만큼, 비싼 프런티어 모델 하나에만 매달리면 비용이나 성능 면에서 더 나은 선택지를 놓칠 수 있다는 것이다. 셋째, 오픈웨이트 모델이 주목할 만한 단계에 들어섰다는 점이다. 셈그렙은 1년 전만 해도 오픈웨이트 모델을 취약점 탐지 순위표에 올리는 것은 구색 맞추기에 가까웠다고 돌아봤다.

다만 셈그렙 스스로도 이번 결과를 모델의 순수한 능력을 1대 1로 견준 것으로 받아들여서는 안 된다고 선을 그었다. 하나의 과제, 하나의 데이터, 한 번의 실행에 따른 결과인 데다, IDOR 탐지 자체가 매번 같은 답이 나오지 않는 성격이라는 것이다. 셈그렙은 IDOR에서는 GLM 5.2가 클로드보다 나을 수 있어도, 다른 종류의 취약점에서는 결과가 뒤집힐 수 있으며 아직 확인되지 않았다고 덧붙였다.

한국정보기술신문 인공지능분과 박연호 기자 news@kitpa.org

오픈웨이트 AI 'GLM 5.2', 보안 취약점 탐지서 클로드 앞섰다...미 보안기업 셈그렙 실험, 프롬프트만 받은 모델 중 1위·비용은 6분의 1

오픈웨이트 'GLM 5.2'는 어떤 모델인가

"성능은 모델보다 '작업 환경'이 좌우"...실험 설계

자사 도구가 1·2위...3위 GLM 5.2가 클로드 제쳐

"한 모델에만 의존 말아야"...단일 시험이라는 한계도

함께 읽으면 좋은 기사

기후에너지환경부, '에너지 마이데이터' 본격 추진...2030년까지 2천만 가구로 확대...6월 30일 추진 로드맵 공개, 전기·가스 사용정보 한곳에 모아 맞춤형 절감·태양광 입지·V2G 등 신산업 발굴

구글, 메타에 '제미나이' 공급 제한...AI 연산력 부족이 발목 잡았다...메타가 요청한 용량 다 못 채워 내부 AI 프로젝트 차질, 직원엔 토큰 절약 지시에 자체 모델 '뮤즈 스파크' 전환 가속

미 대학가 'AI 부정행위' 전쟁 격화...학문적 정직성 흔들린다...거울로 책상 비추고 팔 보이며 시험, 누명 쓴 학생 늘고 '부정행위' 정의마저 흔들려

미 캘리포니아주, 운전면허 정보 전국 데이터베이스에 올린다...민간 운영 '스펙스'에 통합 결정...주지사·연방 압박에 반대 거두고 '안전장치' 달았지만, 시민단체 "영장 통해 연방이 빼갈 수 있어" 반발

보잉 747 '하늘의 여왕' 시대 저문다...사막 비행기 무덤으로 향하는 점보제트기...1970년 대량 국제여행을 연 4발 대형기, 연비 좋은 쌍발기에 밀려 반세기 만에 퇴장

오픈웨이트 AI 'GLM 5.2', 보안 취약점 탐지서 클로드 앞섰다...미 보안기업 셈그렙 실험, 프롬프트만 받은 모델 중 1위·비용은 6분의 1

닌텐도 스위치2 한국 가격 9월부터 11만원 인상...64만8000원에서 75만8000원으로...한국닌텐도 글로벌 사업성 검토 결과...앞서 스위치1·온라인 서비스도 줄인상

구글, 'ISTE 2026'서 교육용 AI 도구 대거 공개...교사 업무·학생 학습 동시 겨냥...클래스룸·크롬북·제미나이 연계해 교사 일손 덜고 학생 맞춤 학습 지원, 학교 'AI 준비' 자금도 지원

공정위 "쇼핑몰 순위만 바꿔도 구매율 34%p 뛴다"...플랫폼 자사우대, 실험으로 입증...소비자 3,072명 무작위 통제 실험, 라벨·공시 등 정보 제공형 시정조치는 한계 확인

엔비디아 지포스 나우, 스팀 여름 세일 맞춰 멤버십 할인...클라우드 게임 이용자 겨냥...12개월 얼티밋 70달러·퍼포먼스 35달러 인하, '다크 스크롤스' 등 신작 6종 추가

구글, 새 '구글 파이낸스' 정식 출시...투자 포트폴리오 관리·안드로이드 앱 선보인다...베타 졸업과 함께 포트폴리오 전 세계 확대, AI 리서치 도구로 시장 정보 맞춤 브리핑까지

출처 불명 깃허브 저장소 '익스플로이타리움', 미보고 취약점 PoC 무더기 공개 논란...7-Zip·도커·VLC 등 SW 15종 익스플로이트 한곳에 모아, 보안업계 "책임공개 원칙 훼손" 우려