대화형 AI 모델의 보안 위협 심각... 다양한 '탈옥' 공격 기법 속출

2025년 3월 21일

4분

![thumbnail.webp](/storage/21e4b25d-979b-4564-8ca2-6e3d568e2d10.webp#w=1920&h=1280 "연구진 "안전 장치 우회하는 새로운 공격 방식 지속 발견"")

[한국정보기술신문] 대화형 인공지능(AI) 모델의 보안 취약점이 심각한 수준으로 나타났다는 연구 결과가 발표됐다. 최신 연구에 따르면 대형 언어 모델(LLM)의 안전 장치를 우회하는 '탈옥(Jailbreak)' 공격 기법이 날로 정교해지고 있어 대응책 마련이 시급한 상황이다.

최근 연구에서는 인간의 개입 없이도 자동으로 탈옥 공격을 수행할 수 있는 도구들이 속속 개발되고 있다고 밝혔다. 'GPTFuzzer'와 'FuzzLLM' 같은 자동화 프레임워크는 초기 공격 템플릿을 기반으로 변형을 가해 새로운 공격 패턴을 생성한다. 이러한 도구들은 공격 성공률을 판단하는 모델까지 포함하고 있어 기존 방어 체계를 무력화시킬 수 있다.

연구진은 AI 모델에게 특정 역할을 부여해 안전 장치를 우회하는 '역할 연기' 공격이 크게 늘어나고 있다고 경고했다. 'Quack' 프레임워크는 LLM에 네 가지 역할을 할당해 조직적으로 탈옥 공격을 수행한다. 공격자들은 AI 모델이 유해한 지시를 따를 가능성이 높은 특정 성격을 갖도록 유도하는 '페르소나 조절' 기법을 활용하고 있다.

다국어 환경에서의 보안 허점 노출

LLM의 다국어 지원 기능이 오히려 보안 취약점으로 작용하고 있다는 분석이 나왔다. 연구에 따르면 안전 훈련 데이터의 언어적 불평등으로 인해 저자원 언어로 번역된 유해 입력이 GPT-4의 안전 장치를 우회할 수 있다. 공격자들은 영어가 아닌 언어를 사용해 의도적으로 모델의 안전 메커니즘을 회피하는 방법을 활용하고 있다.

텍스트 기반 공격을 넘어 이미지와 음성을 활용한 새로운 공격 방식이 등장했다. 연구진은 시각적 적대 사례를 통해 다중 모달 언어 모델을 탈옥시키는 방법을 확인했다. 이러한 공격은 기존 방어 메커니즘을 우회하며, 이미지 하이재킹을 통해 런타임에서 생성 모델을 제어할 수 있다.

LLM 통합 애플리케이션에서 간접 명령 주입 공격이 새로운 위협으로 부상하고 있다. 이 공격은 사용자가 직접 입력하지 않은 명령을 외부 소스를 통해 주입하는 방식으로 이루어진다. 연구진은 이러한 공격이 실제 운영 중인 LLM 기반 애플리케이션에서 심각한 보안 위협을 초래할 수 있다고 경고했다.

인간 피드백을 통한 강화학습(RLHF) 데이터를 독성화해 모델에 백도어를 심는 공격이 발견됐다. 공격자는 모델의 안전 정렬을 손상시키는 탈옥 트리거를 삽입할 수 있다. 이는 모델 훈련 과정에서부터 조작이 가능함을 의미해 근본적인 보안 문제를 제기한다.

현실 세계 탈옥 공격 실태 조사

연구진이 6개월간 4개 플랫폼에서 수집한 6,387개의 탈옥 프롬프트를 분석한 결과, 실제 사용자들이 다양한 공격 전략을 사용하고 있음이 드러났다. 자연어 처리와 그래프 기반 커뮤니티 탐지 방법을 통해 탈옥 프롬프트의 독특한 특성과 주요 공격 전략을 파악했다.

보안 위협에 대응하기 위한 다양한 방어 메커니즘이 개발되고 있다. 'SmoothLLM'은 입력 프롬프트에 무작위 교란을 가해 적대적 입력을 탐지하는 방법을 제시한다. 'Self-Guard'는 2단계 접근법으로 모델이 스스로 유해 콘텐츠를 평가하고 탐지할 수 있도록 한다.

연구진은 이동 표적 방어(MTD) 시스템을 통해 LLM의 견고성을 향상시키는 방법을 제안했다. 이 시스템은 여러 모델 후보의 출력과 일치하는 비독성 답변을 제공하며, 쿼리 및 출력 분석 모델을 통해 안전하지 않거나 응답하지 않는 답변을 필터링한다.

자동 프롬프트 최적화 기술

수치적 경사 하강법에서 영감을 받은 자동 프롬프트 최적화(APO) 기술이 개발됐다. 이는 탈옥 시도에 대한 방어를 위해 프롬프트를 자동으로 개선하는 비모수적 솔루션이다. 훈련 데이터와 LLM API에 대한 접근을 전제로 한다.

연구진은 상황별 공격(ICA)과 상황별 방어(ICD) 방법을 소개했다. ICA는 악의적인 컨텍스트를 조작해 모델이 유해한 출력을 생성하도록 유도하는 반면, ICD는 유해한 프롬프트를 거부하는 방법을 시연해 모델의 견고성을 향상시킨다.

기존 정렬된 LLM을 기반으로 견고한 정렬 LLM(RA-LLM)을 구축하는 방법이 제안됐다. 이는 비용이 많이 드는 재훈련이나 미세 조정 없이도 견고한 정렬 검사 기능을 통해 정렬 파괴 공격에 대한 방어가 가능하다.

벤치마킹 및 평가 체계 구축

안전성 평가를 위한 다양한 벤치마크가 개발되고 있다. 'RED-EVAL'은 발화 체인 기반 프롬프팅을 사용한 레드 팀 테스트를 수행하며, 'Latent Jailbreak' 벤치마크는 LLM의 안전성과 출력 견고성을 균형 있게 평가한다.

연구진은 프롬프트 엔지니어링을 통해 현재 LLM 규제를 우회하는 방법을 탐구했다. 'AutoDAN'은 복잡성 기반 필터를 우회하면서도 높은 공격 성공률을 유지하는 공격 프롬프트를 자동으로 생성한다. 이러한 프롬프트는 해석 가능하고 다양하며, 수동 탈옥 공격에서 일반적으로 사용되는 전략을 보여준다.

알고리즘을 활용한 공격

'Open Sesame' 연구는 유전 알고리즘을 사용해 모델 구조와 매개변수에 접근할 수 없는 상황에서도 LLM을 조작하는 방법을 제시한다. 이 공격은 사용자의 쿼리와 결합될 때 공격받는 모델의 정렬을 방해하는 범용 적대적 프롬프트를 최적화한다.

'PAIR' 알고리즘은 사회 공학적 공격에서 영감을 받아 LLM에 대한 블랙박스 접근만으로도 의미론적 탈옥을 생성한다. 공격자 LLM을 사용해 인간의 개입 없이 분리된 표적 LLM에 대한 탈옥을 자동으로 생성하는 방식이다.

연구진은 ChatGPT와 New Bing에서 다단계 탈옥 공격을 통한 프라이버시 위협을 발견했다. 애플리케이션 통합 LLM이 새로운 프라이버시 위협을 야기할 수 있으며, 이는 기존의 단일 단계 공격보다 훨씬 위험하다.

생성 과정 자체의 취약점

연구진은 디코딩 방법의 변형만을 조작하는 '생성 활용 공격'을 제안했다. 이 극도로 단순한 접근법은 모델 정렬을 방해하며, LLM의 생성 과정에서 근본적인 취약점을 드러낸다.

'ToxicBuddy' 공격은 GPT-2를 미세 조정해 챗봇이 독성 방식으로 응답하게 만드는 비독성 쿼리를 생성한다. 이는 챗봇의 윤리적 훈련에서 잠재적 취약점을 드러내며, 오픈 도메인 챗봇에서 독성 행동을 측정하고 유발하는 방법을 보여준다.

대응 방안 및 향후 전망

전문가들은 LLM 보안 위협에 대응하기 위해 다층적 방어 전략이 필요하다고 강조한다. 모델 자체의 안전성 강화뿐만 아니라 애플리케이션 수준에서의 보안 조치, 그리고 사용자 교육이 함께 이루어져야 한다. 연구진은 이 분야가 빠르게 발전하고 있어 개발자와 연구자들이 이러한 잠재적 위험에 대해 지속적으로 정보를 얻고 더욱 견고하고 안전한 AI 시스템을 위해 노력하는 것이 중요하다고 말했다.

AI 보안 전문가들은 LLM 보안 위협이 국경을 초월한 문제라며 국제적인 협력과 규제가 필요하다고 주장한다. 각국 정부와 기업이 협력해 공통된 보안 표준을 마련하고, 새로운 위협에 신속히 대응할 수 있는 체계를 구축해야 한다는 것이다. 또한 AI 모델의 개발과 배포 과정에서 보안 검증을 의무화하는 규제 도입도 검토되어야 한다고 전문가들은 지적했다.

한국정보기술신문 정보보안분과 최준용 기자 news@kitpa.org

대화형 AI 모델의 보안 위협 심각... 다양한 '탈옥' 공격 기법 속출

다국어 환경에서의 보안 허점 노출

현실 세계 탈옥 공격 실태 조사

자동 프롬프트 최적화 기술

벤치마킹 및 평가 체계 구축

알고리즘을 활용한 공격

생성 과정 자체의 취약점

대응 방안 및 향후 전망

함께 읽으면 좋은 기사

엔비디아가 공개한 Nemotron 3 Nano Omni 모델...비전, 오디오, 언어를 하나로 통합한 멀티모달 AI 모델

엔씨, 로블록스 코리아와 마케팅 MOU 체결...NCFZ PC방 협력

구글 번역 20주년...AI 기반 발음 연습 기능 추가...글로벌 소통 강화

Ghostty, 깃허브 떠난다...서비스 불안정성을 이유로 자체 서비스로 이전 예정