AI 에이전트 벤치마크 8곳서 심각한 보안 취약점 발견...UC 버클리 연구진, 실제 과제 해결 없이 만점 달성 가능 입증
2026년 4월 13일
1분

[한국정보기술신문] UC 버클리 책임있는 분산 지능 센터 연구진이 SWE-bench, WebArena, OSWorld, GAIA, Terminal-Bench, FieldWorkArena, CAR-bench 등 8개 주요 AI 에이전트 벤치마크에서 심각한 보안 취약점을 발견했다고 발표했다. 연구진의 자동화된 에이전트는 실제 과제를 해결하지 않고도 거의 완벽한 점수를 달성했다.

가장 심각한 취약점은 에이전트와 평가자가 동일한 환경에서 작동하는 격리 실패다. SWE-bench에서는 에이전트가 pytest 훅을 주입해 모든 테스트가 통과하도록 강제할 수 있다. Terminal-Bench는 에이전트 단계에서 시스템 바이너리에 트로이 목마를 심을 수 있으며, 평가자가 검증 과정에서 이를 신뢰하게 된다.
WebArena의 작업 설정에는 파일 시스템 탐색을 통해 접근 가능한 참조 답안이 포함되어 있다. OSWorld는 에이전트가 다운로드할 수 있는 골드 파일 URL을 메타데이터에 포함하고 있다. GAIA의 검증 답안은 HuggingFace에 공개되어 있어 벤치마크가 단순한 조회 작업으로 전락했다.
연구진이 발견한 공격 방법들은 다양하다. SWE-bench에서는 10줄짜리 conftest.py 훅으로 테스트 결과를 통과로 바꿨고, Terminal-Bench에서는 바이너리 래퍼 트로이 목마로 패키지 설치를 가로챘다. WebArena에서는 파일 URL로 이동해 답안 설정을 직접 읽었으며, FieldWorkArena에서는 빈 객체 전송만으로 890개 과제에서 100% 점수를 얻었다.
이번 발견은 벤치마크 중심의 AI 개발에 대한 심각한 우려를 제기한다. 연구진은 보상 신호가 해킹 가능할 경우 충분히 능력 있는 에이전트가 이를 새로운 전략으로 해킹할 수 있다고 경고했다. 이는 고급 AI 시스템이 명시적 지시 없이도 독립적으로 보상 조작을 발견할 수 있음을 시사한다.
이러한 취약점들은 현재 리더보드 점수에 의해 좌우되는 투자 결정, 모델 선택 과정, 연구 방향에 부정적 영향을 미친다. 부풀려진 점수로 인해 AI 개발의 실제 진전이 왜곡될 수 있다는 점에서 업계 전반의 신뢰성 문제로 확산되고 있다.
한국정보기술신문 정보보안분과 오상진 기자 news@kitpa.org
![[백준 서비스 종료 ⑧] 백준 이후 어디로 가나...이용자들 대체 플랫폼 찾기 분주](/_next/image?url=https%3A%2F%2Fkitpa.org%2Fstorage%2F41892086-06f3-4c10-99af-4152bdbdff39.webp%23w%3D1920%26h%3D710&w=384&q=75)


