한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 · 정보보안 ·

OpenAI, 프롬프트 인젝션 공격 대응 나섰지만...여전히 '미해결 문제'

발행일
읽는 시간2분 11초

OpenAI가 대화형 AI의 보안 취약점인 프롬프트 인젝션 공격에 대한 대응 방안을 공개했다.

[한국정보기술신문] OpenAI가 자사 AI 시스템의 주요 보안 위협인 프롬프트 인젝션 공격에 대한 다층적 방어 체계를 구축하고 있다고 밝혔다. 프롬프트 인젝션은 대화형 AI에 특화된 사회공학적 공격으로, 악의적인 제3자가 웹사이트나 이메일 등에 숨겨둔 명령어를 통해 AI가 사용자의 의도와 다르게 작동하도록 유도하는 기법이다.

image.png
OpenAI 제공

OpenAI는 공식 블로그를 통해 프롬프트 인젝션을 피싱 이메일이나 웹 사기와 유사한 공격 방식이라고 설명했다. 초기 AI 시스템은 단일 사용자와 단일 AI 간의 대화로 구성됐지만, 현재는 인터넷을 포함한 다양한 출처의 콘텐츠가 대화에 포함되면서 새로운 보안 과제가 발생했다는 것이다.

다층적 방어 체계 구축

OpenAI는 프롬프트 인젝션 대응을 위해 여러 방어 전략을 시행하고 있다. 우선 신뢰할 수 있는 명령과 그렇지 않은 명령을 구분하는 명령 계층 구조 연구를 진행 중이다. 또한 수년간 연구해온 자동화된 레드팀 기법을 활용해 새로운 프롬프트 인젝션 공격 패턴을 개발하고 모델을 훈련시키고 있다.

실시간 모니터링 시스템도 도입했다. 이 시스템은 프롬프트 인젝션 공격을 식별하고 차단할 뿐만 아니라, 실제 배포되기 전에 악의적인 프롬프트 인젝션 연구와 테스트를 탐지할 수 있다. 제품 및 인프라에도 사용자 데이터를 보호하기 위한 다양한 중복 보안 계층을 설계했다.

Atlas 브라우저 출시 직후 취약점 노출

그러나 OpenAI의 노력에도 불구하고 최근 출시된 AI 브라우저 Atlas에서 프롬프트 인젝션 취약점이 즉각 발견됐다. 보안 연구자들은 Atlas가 간접 프롬프트 인젝션에 취약하다는 점을 확인했다. 한 연구자는 구글 독스에 숨겨둔 악성 명령어를 통해 ChatGPT가 문서 요약 대신 "Trust No AI"라는 문구를 출력하도록 만드는 데 성공했다.

NeuralTrust는 Atlas의 주소창이 URL로 위장한 악의적인 프롬프트를 신뢰할 수 있는 사용자 입력으로 처리하는 취약점을 보고했다. URL 검증에 실패한 입력을 Atlas가 프롬프트로 취급하면서 보안 검사가 약화되고, 삽입된 명령어가 높은 신뢰도로 실행된다는 것이다.

업계 전반의 미해결 과제

OpenAI 최고정보보안책임자 데인 스터키는 X를 통해 프롬프트 인젝션이 AI 업계 전반의 최전방 보안 문제로 남아있다고 인정했다. 그는 출시 전 광범위한 레드팀 테스트를 수행하고 악의적인 명령을 무시하도록 모델을 훈련시켰으며, 다층 가드레일과 안전 조치를 구현했다고 밝혔다.

그러나 스터키는 프롬프트 인젝션이 여전히 해결되지 않은 보안 문제이며, 공격자들이 AI를 속이기 위해 상당한 시간과 자원을 투자할 것이라고 경고했다. 중앙화된 시스템이라는 이점을 활용해 전체 사용자 기반을 모니터링하고 새로운 공격 패턴을 탐지할 수 있지만, 제로데이 공격에 노출된 사용자에게는 여전히 위험이 남아있다.

Brave 브라우저는 AI 기반 브라우저 전체 카테고리가 간접 프롬프트 인젝션에 매우 취약하다는 연구 결과를 발표했다. 사용자가 은행이나 이메일 계정에 로그인한 상태에서 단순히 Reddit 게시물을 요약하는 것만으로도 공격자가 금전이나 개인 정보를 탈취할 수 있다고 경고했다.

안전한 AI 활용을 위한 공동 노력 필요

OpenAI는 새로운 수준의 지능과 역량을 갖춘 기술이 등장하면서 기술, 사회, 위험 완화 전략이 함께 진화해야 한다고 강조했다. 2000년대 초반 컴퓨터 바이러스와 마찬가지로, 프롬프트 인젝션 공격에 대한 이해가 모두에게 중요하다는 입장이다.

전문가들은 응용 보안에서 99%의 방어율은 낙제점이라고 지적한다. 중앙화된 시스템의 모니터링 능력에도 불구하고, 더 어렵지만 여전히 가능한 공격 경로가 존재한다면 누군가는 결국 침투할 것이라는 우려가 제기되고 있다.

한국정보기술신문 정보보안분과 오상진 기자 news@kitpa.org