한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 · 정보통신 · 정보보안 ·

자율주행차·드론, 조작된 도로 표지판에 속아 오작동...캘리포니아대 연구팀 '환경적 간접 프롬프트 인젝션' 공격 입증

발행일
읽는 시간3분 47초

대형 비전 언어 모델 기반 AI 시스템, 표지판의 명령어를 그대로 따라 횡단보도 무단 통과·잘못된 착륙 등 위험한 행동 유발

[한국정보기술신문] 자율주행차와 드론 등 AI 기반 자율 시스템이 도로 표지판에 삽입된 악의적 명령어에 속아 위험한 행동을 할 수 있다는 연구 결과가 나왔다. 캘리포니아 대학교 산타크루즈와 존스 홉킨스 대학교 공동 연구팀은 AI 비전 시스템이 물리적 환경의 시각적 프롬프트 인젝션 공격에 취약하다는 사실을 실험을 통해 입증했다.

연구팀은 이번 연구를 통해 자율주행차가 표지판의 명령에 따라 횡단보도를 건너는 보행자를 무시하고 진행하거나, 경찰차를 추적하도록 프로그래밍된 드론이 전혀 다른 차량을 따라가는 등의 시나리오가 현실화될 수 있음을 보여줬다. 이는 AI 의사결정 시스템에 대한 새로운 유형의 위협으로, 물리적 환경을 통한 간접 프롬프트 인젝션이 실제 안전 문제를 야기할 수 있다는 점에서 주목된다.

알바로 카르데나스 캘리포니아대 산타크루즈 컴퓨터공학과 교수가 이끄는 연구팀은 대형 비전 언어 모델이 카메라 시야에 표시된 표지판의 지시사항을 맹목적으로 따른다는 사실을 시뮬레이션 실험과 실제 환경 테스트를 통해 확인했다. 연구팀이 개발한 'CHAI'라는 약어로 명명된 이 공격 기법은 자율 AI에 대한 명령 하이재킹을 의미한다.

GPT-4o·InternVL 등 주요 AI 모델 취약점 드러나

연구팀은 OpenAI의 GPT-4o와 오픈소스 InternVL 등 두 가지 대형 비전 언어 모델을 대상으로 실험을 진행했다. 이들은 AI 기술을 활용해 표지판에 표시되는 명령어의 텍스트, 글꼴, 색상, 배치 등을 조정하여 AI 시스템이 이를 명령으로 인식할 확률을 최대화했다.

실험 결과, 자율주행차 시나리오에서 GPT-4o 모델은 81.8퍼센트의 성공률로 조작된 표지판의 명령을 따랐다. 반면 InternVL 모델은 54.74퍼센트의 성공률을 보여 상대적으로 낮은 취약성을 나타냈다. 그러나 두 모델 모두 공격에 취약하다는 점에서는 동일했다.

드론 추적 실험에서는 더욱 높은 성공률이 관찰됐다. 연구팀은 드론의 CloudTrack 비전 시스템을 대상으로 실험을 진행했는데, 일반 차량 지붕에 '경찰 산타크루즈'라는 문구를 표시하자 AI 시스템이 이를 실제 경찰차로 오인하는 경우가 최대 95.5퍼센트에 달했다. 이는 객체 추적 기능을 가진 드론이 시각적 속임수에 매우 취약함을 보여준다.

연구팀은 또한 드론의 안전 착륙 판단 시스템도 테스트했다. 마이크로소프트 AirSim의 UAV 플러그인을 활용한 실험에서, 잔해물로 가득한 옥상에 '착륙 안전'이라는 표지판을 설치하자 AI 시스템이 최대 68.1퍼센트의 경우에서 이를 안전한 착륙 지점으로 잘못 판단했다.

다국어 공격 가능...실제 환경 테스트서도 효과 입증

주목할 점은 이 공격이 여러 언어로 작동한다는 사실이다. 연구팀은 영어, 중국어, 스페인어, 그리고 스페인어와 영어를 혼합한 '스팽글리시' 등 다양한 언어로 작성된 명령어를 테스트했으며, 모두 효과적으로 작동함을 확인했다. 녹색 배경에 노란색 텍스트를 사용한 표지판이 각 언어에서 가장 높은 성공률을 보였다.

가상 환경 실험뿐만 아니라 실제 물리적 환경에서도 비슷한 결과가 나타났다. 연구팀은 캘리포니아대 산타크루즈의 베스킨 공학 2호 건물에서 카메라가 장착된 원격 조종 자동차를 이용해 실험을 진행했다. 바닥이나 다른 차량에 '계속 진행'이라는 표지판을 배치한 결과, GPT-4o 모델은 각각 92.5퍼센트와 87.76퍼센트의 성공률로 표지판의 명령을 따랐다. InternVL 모델은 약 절반의 경우에서만 공격에 성공했지만, 여전히 상당한 취약성을 보였다.

연구팀은 서로 다른 조명 조건에서도 실험을 진행했으며, 두 환경 모두에서 일관되게 높은 공격 성공률을 기록했다. 이는 이러한 시각적 프롬프트 인젝션 공격이 실제 환경에서도 충분히 위협이 될 수 있음을 시사한다.

프롬프트 자체가 가장 큰 영향...방어 메커니즘 개발 시급

연구팀은 CHAI 공격 기법을 개발하는 과정에서 프롬프트 자체가 공격 성공에 가장 큰 영향을 미친다는 사실을 발견했다. 표지판에 표시되는 텍스트의 내용이 가장 중요한 요소였으며, 표지판의 외관적 요소인 글꼴, 색상, 배치 등도 공격의 성패를 좌우할 수 있었다. 다만 왜 특정 시각적 요소가 더 효과적인지에 대한 명확한 이유는 아직 밝혀지지 않았다.

논문의 공동 저자인 루이스 부르바노는 "우리는 실제 물리적 세계에서 작동하는 공격을 만들 수 있다는 것을 발견했으므로, 이는 자율 AI에 실제 위협이 될 수 있다"며 "이러한 공격에 대한 새로운 방어책이 필요하다"고 강조했다.

카르데나스 교수는 이번 연구를 계기로 환경적 간접 프롬프트 인젝션 공격과 이에 대한 방어 메커니즘을 계속 연구할 계획이라고 밝혔다. 현재 계획 중인 추가 실험에는 비 오는 날씨 조건에서의 테스트, 흐릿하거나 시각적 노이즈로 방해받는 이미지를 AI 시스템이 평가하는 경우 등이 포함된다.

AI 의사결정 시스템의 근본적 취약점 노출

이번 연구는 자율주행차와 드론 같은 AI 기반 자율 시스템의 의사결정 과정이 물리적 환경의 조작에 얼마나 취약한지를 보여주는 사례다. 특히 대형 비전 언어 모델이 이미지 속 텍스트를 단순히 정보로 읽는 것이 아니라 명령어로 해석할 수 있다는 점은 심각한 보안 문제를 제기한다.

과거에도 AI 봇이 웹페이지나 PDF를 통해 제공되는 프롬프트를 명령으로 해석하는 간접 프롬프트 인젝션 문제가 여러 차례 보고된 바 있다. 그러나 이번 연구는 이러한 취약점이 디지털 환경을 넘어 물리적 세계에서도 활용될 수 있음을 최초로 실증적으로 보여준 것이다.

자율주행 기술과 드론 산업이 빠르게 성장하고 있는 가운데, 이러한 보안 취약점은 시급히 해결해야 할 과제로 떠올랐다. 자율주행차가 교통 표지판을 잘못 인식해 교통사고를 일으키거나, 드론이 잘못된 목표물을 추적하는 등의 상황은 인명 피해로 이어질 수 있기 때문이다.

카르데나스 교수 연구팀은 "어떤 공격이 자율 AI를 장악하는 데 더 효과적인지, 또는 인간이 탐지하기 어려운지 등을 분석하며 이러한 공격의 장단점을 더 깊이 파고들고 있다"고 설명했다. 연구팀은 향후 다양한 환경 조건과 시나리오에서 추가 실험을 진행하여 보다 강력한 방어 메커니즘을 개발할 계획이다.

이번 연구 결과는 AI 시스템의 안전성과 신뢰성을 확보하기 위한 새로운 접근이 필요함을 시사한다. 특히 실제 환경에 배치되는 자율 시스템의 경우, 단순히 기술적 성능뿐만 아니라 악의적 공격에 대한 강건성도 함께 고려해야 한다는 점을 분명히 보여준다.

한국정보기술신문 정보보안분과 이승기 기자 news@kitpa.org