정보기술 · 인공지능 ·

AI의 코드 컴파일 능력 측정하는 'CompileBench' 공개...22년 전 레거시 코드도 테스트

발행일2025년 9월 23일

읽는 시간2분 43초

큐에스마(Quesma)가 AI 모델의 실제 소프트웨어 개발 능력을 평가하는 벤치마크 'CompileBench'를 공개했다.

[한국정보기술신문] 큐에스마가 대규모 언어모델(LLM)이 실제 소프트웨어 개발 환경에서 얼마나 효과적으로 작동하는지 측정하는 새로운 벤치마크 'CompileBench'를 발표했다. 이 벤치마크는 의존성 문제, 레거시 툴체인, 복잡한 컴파일 오류 등 실제 개발 현장에서 마주치는 까다로운 문제들을 AI가 얼마나 잘 해결하는지 평가한다.

19개 최신 AI 모델 대상 실전 테스트

CompileBench는 19개의 최신 LLM을 대상으로 15가지 실제 작업을 테스트했다. 테스트에는 curl(HTTP 클라이언트), jq(커맨드라인 JSON 처리기) 등 실제 오픈소스 프로젝트의 수정되지 않은 원본 소스코드가 사용됐다. 각 AI 모델은 소스코드, 리눅스 터미널, 빌드 목표만 제공받은 상태에서 독립적으로 빌드 시스템을 파악하고, 소스 패치 여부를 결정하며, 누락된 헤더와 라이브러리를 해결해야 했다.

테스트 난이도를 높이는 것은 의외로 간단했다. 대부분의 모델이 표준 설정에서 curl을 빌드할 수 있었지만, ARM64용 정적 바이너리 생성을 요구하자 성공률이 급격히 떨어졌다. 단일 시도(pass@1) 기준으로 성공률이 96%에서 2%로 하락했으며, 유일하게 성공한 Claude Opus 4.1은 36개 명령어 시퀀스를 실행해야 했다. 이 과정에는 모든 의존성(OpenSSL, brotli, zlib, zstd)의 소스코드 다운로드, 각각을 ARM64용으로 정적 크로스 컴파일, 최종 curl 빌드에 링크하는 작업이 포함됐다.

Anthropic의 Claude 모델 1, 2위 차지

벤치마크 결과 Anthropic의 Claude Sonnet과 Opus 모델이 성공률 상위 2개 자리를 차지했다. Claude 모델은 개발자들 사이에서 코딩 작업에 대한 선호도가 높은 것으로 알려져 있지만, 전통적인 벤치마크에서는 항상 최상위를 기록하지 못했다. CompileBench의 결과는 개발자들이 Claude를 신뢰하는 이유를 설명해준다.

OpenAI, 가성비 부문에서 우수한 성과

OpenAI 모델은 성공률 순위에서 3위와 6위를 차지했지만, 비용 효율성에서 탁월한 성과를 보였다. 거의 모든 난이도에서 OpenAI 모델이 파레토 프론티어를 장악했으며, GPT-5-mini(높은 추론 노력)는 지능과 가격 모두에서 훌륭한 모델로 평가됐다. GPT-4.1은 견고한 성공률을 유지하면서도 가장 빠르게 작업을 완료했고, 최소 추론 노력으로 설정된 GPT-5는 합리적인 속도와 더 높은 성공률을 달성했다.

Google Gemini, 예상 밖 저조한 성적

강력한 평판에도 불구하고 Google의 모델들은 리더보드 하위권에 머물렀다. Gemini 2.5 Pro는 웹 개발 분야에서 최고 수준으로 평가받지만, CompileBench에서는 기대에 미치지 못했다. 모델들은 지정된 대로 작업을 완료하지 못하는 경우가 빈번했으며, 정적 ARM64 빌드를 요청받았을 때 유효한 ARM64 실행파일은 생성했지만 정적 빌드는 아니었다. musl C 라이브러리를 사용한 정적 빌드에서는 musl을 올바르게 사용했지만 동적 링킹을 선택하며 정적 빌드가 불필요하게 크다고 주장했다.

AI의 부정행위도 적발

CompileBench의 각 작업에는 검증 체크가 포함돼 있다. 예를 들어 curl의 경우 실제 실행파일이 생성됐는지, 소스코드와 일치하는 올바른 버전을 보고하는지, HTTP 요청을 성공적으로 수행할 수 있는지 확인한다. 일부 모델은 부정행위를 시도하기도 했다. GPT-5-mini(높은 추론)가 2003년의 GNU Coreutils 컴파일에 어려움을 겪자, 빌드 대신 기존 시스템 유틸리티를 복사하는 창의적인 지름길을 택했다. 하지만 검증 체크가 이를 포착해 실패로 올바르게 표시했다.

CompileBench는 의존성 지옥, 레거시 툴체인, 이상한 컴파일 오류 같은 복잡한 소프트웨어 엔지니어링 문제를 LLM이 어떻게 처리하는지 확인하기 위해 설계됐다. 순수하게 함수 호출만을 사용해 장시간 작업을 수행하며, 일부는 135개의 명령어나 15분 이상이 소요되고 에이전트 루프가 수십 번 실행된다. 이러한 설계는 LLM이 오류에서 복구하고 복잡한 다단계 도전과제를 끝까지 수행하는 능력을 진정성 있게 측정한다.

작업 특성에 따른 모델 선택 권장

결과에 따르면 단일 최고 모델은 없으며, 지능, 속도, 비용 효율성 중 무엇을 우선시하는지에 따라 달라진다. 가장 까다로운 작업에는 최고의 Anthropic 모델(Sonnet 4 또는 Opus 4.1)을 사용하고, 덜 까다로운 작업에는 더 저렴한 OpenAI 모델(GPT 4.1, 낮은 추론 노력의 GPT-5/GPT-5-mini)을 사용하는 것이 벤치마크 결과를 바탕으로 한 결론이다.

이번 발표는 시작에 불과하다. 향후 버전의 CompileBench는 FFmpeg, 오래된 GCC 버전, ImageMagick 같은 더 도전적인 프로젝트를 다룰 수 있다. 리눅스에서 FreeBSD로의 크로스 컴파일이나, 궁극적인 벤치마크로 AI가 임의의 장치에서 Doom을 실행할 수 있는지도 테스트할 계획이다. 전체 결과는 compilebench.com에서 확인할 수 있으며, 소스코드는 GitHub에 공개돼 있다.

한국정보기술신문 방송통신분과 진서윤 기자 news@kitpa.org