일부 참여자만 '적대적 훈련'해도 AI 방어력 오른다...공주대·조선대 연구팀, 연합학습 강건성 실험 결과 공개

발행: 2026년 6월 11일

클라이언트 절반만 훈련해도 공격 방어력 큰 폭 상승했다

[한국정보기술신문] 여러 기기가 데이터를 직접 주고받지 않고 인공지능(AI) 모델을 함께 학습하는 '연합학습' 환경에서, 일부 참여자만 보안 훈련을 수행해도 전체 모델이 외부 공격에 견디는 능력을 상당 부분 확보할 수 있다는 연구 결과가 나왔다. 국립공주대학교 조규찬·정수용·서창호·류권상 연구진과 조선대학교 김현일 연구원은 이 같은 내용을 담은 논문을 한국정보보호학회가 발간하는 정보보호학회논문지 제35권 제4호(2025년 8월)에 게재했다.

연합학습은 스마트폰이나 사물인터넷(IoT) 기기 같은 여러 클라이언트가 각자 보유한 데이터를 외부로 내보내지 않고 모델을 학습한 뒤, 학습 결과인 모델 가중치만 중앙 서버로 보내는 방식이다. 서버는 이 가중치들을 모아 하나의 '전역 모델'을 만든다. 원본 데이터가 기기 밖으로 나가지 않아 개인정보를 지키면서도 학습이 가능하다는 점이 강점으로 꼽힌다.

Overview of federated learning when the proportion of clients performing adversarial training, 정보보호학회논문지 제공

작은 노이즈로 AI를 속이는 '적대적 공격'

문제는 이렇게 만들어진 모델도 보안 위협에서 자유롭지 않다는 데 있다. 대표적인 위협이 '적대적 공격'이다. 적대적 공격은 사람 눈으로는 알아채기 어려운 미세한 잡음을 입력 데이터에 더해 모델이 엉뚱한 판단을 내리도록 유도하는 방식이다. 연구진에 따르면 공격자가 전역 모델을 직접 표적으로 삼거나, 모델을 갱신하는 과정에 끼어들어 악성 업데이트를 주입하면 전체 모델을 무력화할 수 있다.

이를 막기 위한 방어책이 '적대적 훈련'이다. 모델을 학습할 때 일부러 공격받은 데이터를 함께 넣어, 비슷한 공격이 들어와도 올바른 답을 내도록 미리 단련시키는 방법이다. 다만 적대적 훈련은 공격 데이터를 반복해서 만들어내야 해 연산량이 많고, 기기 성능과 통신 상태의 제약도 따른다. 이 때문에 연합학습에 참여하는 모든 기기가 적대적 훈련을 수행하기는 현실적으로 어렵다는 한계가 지적돼 왔다.

"전원이 아니어도 된다"...참여자 수 늘려가며 검증

연구진은 바로 이 지점에 주목했다. 모든 클라이언트가 아닌 일부만 적대적 훈련을 하더라도 전역 모델이 어느 정도 방어력을 가질 수 있는지를 정량적으로 따져본 것이다. 실험은 20개의 클라이언트가 매 학습마다 참여하는 환경에서, 이 가운데 적대적 훈련을 수행하는 클라이언트 수를 1·3·5·10·15·20개로 바꿔가며 진행됐다. 나머지 클라이언트는 공격이 가해지지 않은 깨끗한 데이터만 학습했다.

데이터로는 손글씨 숫자 이미지 모음인 'MNIST'와 사물 이미지 모음인 'CIFAR-10'이 쓰였고, 모든 클라이언트가 비슷한 분포의 데이터를 갖는 이상적 조건(IID)에서 실험이 이뤄졌다. 공격 기법으로는 FGSM, PGD, CW, MIFGSM 등 네 가지 대표적 방식이 동원됐다. 모델 학습 방식으로는 가중치를 단순 평균하는 'FedAvg', 모델 간 편차를 줄이는 항을 더한 'FedProx', 깨끗한 데이터와 공격 데이터의 예측 차이를 줄이는 'FedTRADES', 여기에 편차 보정 항을 더한 'FedTRADES+Prox'를 비교했다.

단순 데이터에선 방어력 7%→76%로 껑충

비교적 단순한 MNIST 실험에서 깨끗한 데이터에 대한 정확도(자연 정확도)는 적대적 훈련 참여자가 늘어도 94.62%에서 97.75% 사이의 높은 수준을 유지했다. 반면 공격 방어력은 참여자 수에 따라 크게 달라졌다. 연구진에 따르면 PGD 공격에 대해 FedAvg 방식은 1개 클라이언트만 적대적 훈련을 했을 때 7.09%에 그쳤으나, 20개가 모두 참여하자 76.03%까지 올랐다. FGSM 공격에서도 24.84%에서 84.60%로 방어력이 뛰었다.

다만 효과가 본격적으로 나타나는 데에는 일정한 '문턱'이 있었다. 연구진은 적대적 훈련 참여자가 10개 이상이 됐을 때 비로소 모델이 공격에 실질적인 방어 능력을 갖추기 시작했다고 분석했다. 또한 MNIST처럼 패턴이 단순한 데이터에서는 복잡한 FedTRADES 계열보다 단순한 FedAvg·FedProx 방식이 더 나은 방어 성능을 보였다. 다만 FedTRADES에 편차 보정 항을 추가하자 MIFGSM 공격 방어력이 10개 참여 기준 20.28%에서 42%로, PGD 공격은 16%에서 35%로 개선됐다.

Comparison of accuracy across adversarial training clients in FedProx, tested on the MNIST dataset under MIFGSM-40 attack., 정보보호학회논문지 제공

복잡한 데이터에선 '방어력과 정확도의 맞교환'

사물 이미지인 CIFAR-10에서도 적대적 훈련 참여자가 많을수록 방어력이 높아지는 경향은 같았다. PGD 공격에 대해 FedAvg와 FedTRADES는 1개 참여 시 각각 1.03%, 1.17%에 머물렀으나 20개가 모두 참여하자 40.30%, 40.18%로 올랐다.

대신 깨끗한 데이터를 다루는 정확도는 적대적 훈련 참여자가 늘수록 떨어졌다. FedAvg와 FedProx는 1개 참여 시 각각 87.09%, 87.99%였던 자연 정확도가 20개 참여 시 70.36%, 69.24%로 낮아졌다. 방어력을 키우면 평상시 성능이 일부 희생되는 이른바 '맞교환' 현상이다.

주목할 점은 참여자 수 구간에 따라 효과의 크기가 달랐다는 것이다. 연구진에 따르면 5개에서 10개, 10개에서 15개로 참여자를 늘렸을 때는 방어력이 최소 8%에서 최대 15%까지 크게 벌어졌지만, 15개에서 20개로 늘렸을 때의 차이는 최소 1%에서 최대 9%에 그쳤다. 이는 일정 수준 이상으로 참여자를 늘려도 추가 효과는 줄어든다는 뜻으로, 연구진은 모든 참여자가 적대적 훈련을 하지 않고도 충분히 높은 강건성을 얻을 수 있다고 설명했다. 복잡한 데이터에서는 부드러운 결정 경계를 만드는 FedTRADES에 편차 보정을 더한 FedTRADES+Prox가 평상시 성능과 방어력을 가장 안정적으로 함께 확보한 것으로 나타났다. 단순 평균 방식인 FedAvg보다 편차 보정 항을 더한 FedProx가 일관되게 더 나은 방어력을 보였는데, 이는 클라이언트 간 모델의 차이를 줄여 전역 모델이 더 안정적으로 수렴하도록 도왔기 때문이라고 연구진은 분석했다.

Comparison of accuracy across adversarial training methods in federated learning, tested on the CIFAR-10 under FGSM attack., 정보보호학회논문지 제공

"현실적 연합학습 설계의 기준 제시"...과제도 남아

연구진은 적대적 훈련을 수행한 클라이언트의 학습 결과가 평균화 과정을 거쳐 전역 모델에 점진적으로 반영되면서 전체 시스템의 방어력을 끌어올린다고 해석했다. 이는 자원이 충분하지 않은 기기가 섞여 있는 현실적 환경에서도 효과적으로 강건성을 확보할 수 있음을 시사한다는 것이 연구진의 설명이다.

다만 연구진은 이번 실험이 모든 클라이언트가 비슷한 데이터를 갖는 이상적 조건(IID)에서만 이뤄졌다는 점을 한계로 꼽았다. 실제 연합학습에서는 기기마다 데이터 분포가 제각각인 '비(非)IID' 상황이 일반적이며, 이 경우 모델의 수렴 속도나 방어력이 크게 떨어질 수 있다. 연구진은 향후 비IID 환경에서의 성능 분석과 함께, 통신 비용 절감과 동적 클라이언트 선택 등을 접목해 보다 실용적인 연합학습 방어 체계를 설계하는 방향으로 연구를 확장할 필요가 있다고 밝혔다.

한국정보기술신문 정보보안분과 이승기 기자 news@kitpa.org

일부 참여자만 '적대적 훈련'해도 AI 방어력 오른다...공주대·조선대 연구팀, 연합학습 강건성 실험 결과 공개

작은 노이즈로 AI를 속이는 '적대적 공격'

"전원이 아니어도 된다"...참여자 수 늘려가며 검증

단순 데이터에선 방어력 7%→76%로 껑충

복잡한 데이터에선 '방어력과 정확도의 맞교환'

"현실적 연합학습 설계의 기준 제시"...과제도 남아

함께 읽으면 좋은 기사

[백준 서비스 종료 ⑫] 데이원컴퍼니, 같은 날 'BOJ 부활'과 '개인정보 유출' 동시에...코딩 테스트 명소 백준 온라인 저지 되살리며 보안 사고로 신뢰 시험대

유니티 게임 끊김의 주범은 '가비지 컬렉션'...힙 할당 줄여야 프레임 멈춤 막는다

넥슨, '크레이지 아케이드' 8월 13일 서비스 종료...25년 만에 막 내려, 환불 신청은 9월 16일까지

구글, 텍스트 4배 빠르게 짓는 실험 모델 '디퓨전젬마' 공개...토큰 하나씩 잇는 대신 256개 한꺼번에 생성, 26B MoE 구조로 소비자용 GPU서 구동

앤트로픽, 미토스급 모델에 30일 데이터 보관·검토 도입...6월 9일 시행, 오용 패턴 탐지 위한 안전 조치

구글, 학생·학부모 기말시험 대비 위한 'AI 학습 도구 5가지' 소개...자료 한데 모아 학습 가이드·맞춤 퀴즈 만들고 유튜브엔 사용시간 제한·자녀 보호 기능까지

기후에너지환경부, 전기차 공공충전 봄철 주말 할인 실적 공개...17일간 7만9천여 건 충전·7천5백만 원 환원, 낮 시간대 이용 9.2% 늘어

설치 없이 브라우저로 돌리는 오픈소스 지리정보시스템 'GeoLibre' 공개...PC·웹·모바일서 같은 화면으로 위성·드론 지도 다루고 공간 SQL·파이썬 연동까지

구글, 크롬 AI 비서 '제미나이' 신흥 시장으로 확대...중남미·아프리카·중동 등 데스크톱·iOS 이용자에 적용, 이미지 변환·맞춤형 답변 기능도 추가

일부 참여자만 '적대적 훈련'해도 AI 방어력 오른다...공주대·조선대 연구팀, 연합학습 강건성 실험 결과 공개

컴퓨터 비전 라이브러리 'OpenCV 5' 정식 출시...DNN 엔진 새로 짜 ONNX 80% 넘기고 LLM·VLM까지 직접 구동

신경망을 반도체 회로로 직접 새긴다...FPGA에 'KAN' 올려 나노초급 추론·실시간 학습 구현...연구진 "기존 KAN-FPGA보다 2700배 빨라"