AI 에이전트 벤치마크 8곳서 심각한 보안 취약점 발견...UC 버클리 연구진, 실제 과제 해결 없이 만점 달성 가능 입증

발행: 2026년 4월 13일

UC 버클리 연구진이 주요 AI 에이전트 벤치마크들에서 과제 해결 없이도 완벽한 점수를 얻을 수 있는 취약점을 발견했다.

[한국정보기술신문] UC 버클리 책임있는 분산 지능 센터 연구진이 SWE-bench, WebArena, OSWorld, GAIA, Terminal-Bench, FieldWorkArena, CAR-bench 등 8개 주요 AI 에이전트 벤치마크에서 심각한 보안 취약점을 발견했다고 발표했다. 연구진의 자동화된 에이전트는 실제 과제를 해결하지 않고도 거의 완벽한 점수를 달성했다.

스크린샷 2026-04-13 오후 3.15.56.png — UC 버클리 제공

가장 심각한 취약점은 에이전트와 평가자가 동일한 환경에서 작동하는 격리 실패다. SWE-bench에서는 에이전트가 pytest 훅을 주입해 모든 테스트가 통과하도록 강제할 수 있다. Terminal-Bench는 에이전트 단계에서 시스템 바이너리에 트로이 목마를 심을 수 있으며, 평가자가 검증 과정에서 이를 신뢰하게 된다.

WebArena의 작업 설정에는 파일 시스템 탐색을 통해 접근 가능한 참조 답안이 포함되어 있다. OSWorld는 에이전트가 다운로드할 수 있는 골드 파일 URL을 메타데이터에 포함하고 있다. GAIA의 검증 답안은 HuggingFace에 공개되어 있어 벤치마크가 단순한 조회 작업으로 전락했다.

연구진이 발견한 공격 방법들은 다양하다. SWE-bench에서는 10줄짜리 conftest.py 훅으로 테스트 결과를 통과로 바꿨고, Terminal-Bench에서는 바이너리 래퍼 트로이 목마로 패키지 설치를 가로챘다. WebArena에서는 파일 URL로 이동해 답안 설정을 직접 읽었으며, FieldWorkArena에서는 빈 객체 전송만으로 890개 과제에서 100% 점수를 얻었다.

이번 발견은 벤치마크 중심의 AI 개발에 대한 심각한 우려를 제기한다. 연구진은 보상 신호가 해킹 가능할 경우 충분히 능력 있는 에이전트가 이를 새로운 전략으로 해킹할 수 있다고 경고했다. 이는 고급 AI 시스템이 명시적 지시 없이도 독립적으로 보상 조작을 발견할 수 있음을 시사한다.

이러한 취약점들은 현재 리더보드 점수에 의해 좌우되는 투자 결정, 모델 선택 과정, 연구 방향에 부정적 영향을 미친다. 부풀려진 점수로 인해 AI 개발의 실제 진전이 왜곡될 수 있다는 점에서 업계 전반의 신뢰성 문제로 확산되고 있다.

한국정보기술신문 정보보안분과 오상진 기자 news@kitpa.org

함께 읽으면 좋은 기사

미 정부, 앤트로픽 '미토스 5' 재배포 일부 허용...핵심 인프라 100여 곳에만 다시 연다...수출통제 2주 만에 부분 완화, 페이블 5는 결정문서 빠져 일반 공개 복귀 협의 중

인공지능 4분

오픈AI, 차세대 모델 'GPT-5.6 솔' 프리뷰 공개...코딩·과학·보안 끌어올렸다...플래그십 솔·균형형 테라·경량 루나 3종 선보이며 역대 최강 안전장치 적용, 미국 정부와 조율해 신뢰 파트너에 우선 제공

인공지능 4분

구글 "AI로 자연재해 미리 알린다"...홍수·산불·지진 예측 한자리에...현지시간 6월 23일 'AI for the Planet' 행사서 10년간 위기 대응 성과 공개, 150여 개국 20억 명에 홍수 예보

인공지능 · 정보기술 4분

엔비디아, 특화 AI '에이전트 툴킷' 공개...모델·도구·런타임 한데 묶었다...기업이 직접 다듬어 쓰는 오픈·모듈형 기반으로 안전·저비용 'AI 동료' 구축 겨냥, 생명과학·의료·보안 등 산업별 적용 확산

인공지능 4분

한국산업인력공단, OECD서 'AI 기반 직무능력표준 혁신' 사례 공유...GPT 활용한 'NCS 체크메이트'로 표준 형식 자동 점검...23일 OECD 국제 웨비나 패널 참여, 직업교육훈련에 AI 활용한 10개국 사례로 소개

인공지능 · 유관기관 2분

보안 연구자 발소르다 "취약점 신고는 더 이상 특별하지 않다"...AI가 흔든 보안 제보의 위상...LLM이 누구나 비슷한 취약점을 찾아내며 '귀한 통찰·기밀 유지'라는 전제가 무너져, 분류·신속 패치·예방이 새 과제로

정보보안 3분

마이크로소프트, 타입스크립트 7.0 RC 공개...컴파일러 'Go'로 다시 짜 속도 10배 끌어올렸다

정보기술 4분

구글, 제미나이 통합 인터페이스 '인터랙션 API' 정식 출시...모델·에이전트 한 창구로 다룬다...자율 작업 수행 '관리형 에이전트'·백그라운드 실행 추가, 지난해 12월 베타 거쳐 기본 개발 도구로

인공지능 · 정보기술 4분

교육부·평가원, 2025년 국가수준 학업성취도 평가 결과 6월 24일 발표...전반적 성취수준·학교생활은 지난해와 비슷, '중3 수학' 1수준 학생 비율은 전년보다 늘어

교육 4분

삼성전자, 업계 최고 성능 'UFS 5.0' 메모리 개발...온디바이스 AI 최적의 솔루션 제시...10.8GB/s 데이터 전송 대역폭으로 차세대 스마트폰 등 모바일 기기에 탑재 예정, AI 모델·데이터 빠르게 RAM에 전달

반도체 · 인공지능 4분

문체부, '케이-게임' IP 키운다...1,200억 원 게임 펀드 결성...넥슨 588억 원 참여, 문화계정 역대 최대 규모로 초기 개발부터 국제 지식재산 성장까지 뒷받침

유관기관 · 실감형콘텐츠 4분

엔비디아, 과학 연구 가속 AI 소프트웨어 공개...우주 관측 데이터 처리 최대 1만4900배 빨라져...현지시간 6월 22일 ISC 콘퍼런스서 '쿠다-X' 신규 라이브러리·서비스 발표, 화학·신소재부터 암흑물질 탐색까지 적용

인공지능 4분