한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 ·

GNN 워터마킹, 위상 불변량 인식으로 강건성 확보...위조 제거는 NP-Complete

발행일
읽는 시간1분 41초

연구진, 그래프 신경망 지적재산권 보호 위한 새로운 워터마킹 기법 'InvGNN-WM' 제안

[한국정보기술신문] 미국 UC데이비스와 UC어바인 연구진이 그래프 신경망(GNN)의 지적재산권을 보호하기 위한 새로운 워터마킹 기법을 개발했다. 기존 백도어 트리거 방식의 취약점을 극복하고, 모델의 핵심 계산 로직에 워터마크를 결합하는 방식으로 강건성을 크게 향상시켰다.

스크린샷 2025-11-02 오전 11.46.23.png
논문 캡쳐, arXiv 제공

GNN은 신약 개발, 소셜 네트워크, 추천 시스템 등 다양한 분야에서 활용되며, 상당한 독점 데이터로 학습되기 때문에 귀중한 지적재산이다. 그러나 기존 워터마킹 방법들은 백도어 트리거를 사용해 태스크 분포 밖의 그래프에 반응하도록 학습시키는 방식이었다. 이는 파인튜닝, 가지치기, 증류 등 일반적인 모델 편집 과정에서 쉽게 제거되며, 블랙박스 검증 시 안정적인 오탐지 제어가 어렵다는 한계가 있었다.

위상 불변량 인식 기반 워터마킹

스크린샷 2025-11-02 오전 11.48.57.png
논문 캡쳐, arXiv 제공

연구진이 제안한 InvGNN-WM은 소유권을 그래프 불변량에 대한 모델의 암묵적 인식에 결합한다. 구체적으로 GNN이 소유자 전용 캐리어 그래프에서 정규화된 대수적 연결성을 예측하도록 학습시킨다. 경량 헤드가 그래프 레벨 임베딩을 불변량 추정치로 매핑하고, 분리 가능한 부호 민감 디코더가 이를 비트로 변환하며, 보정된 임계값이 오탐지율을 제어한다.

표현력 있는 메시지 패싱 GNN은 전역 구조를 인코딩하기 때문에, 소유권을 불변량 인식에 결합하면 워터마크가 외부 패턴이 아닌 모델의 핵심 로직에 연결된다. 이론적으로 연구진은 워터마크 제거와 태스크 성능 저하 간의 정량적 결합을 형식화했다.

강건성과 제거 불가능성 증명

스크린샷 2025-11-02 오전 11.47.54.png
논문 캡쳐, arXiv 제공

연구진은 캐리어 세트의 강건성 마진을 정의하고, 파인튜닝, 가지치기, 증류 등 일반적인 편집을 복합 드리프트 예산으로 요약했다. 로컬 폴랴크-워야시에비치 조건과 립시츠 경계 하에서, 워터마크 비트를 뒤집을 만큼 강한 편집은 마진을 초과해야 하므로 태스크 손실이 증가한다는 것을 증명했다.

워터마크는 작은 워터마크 가중치를 선택하고 스펙트럼 정규화를 통해 헤드의 민감도를 제어함으로써 태스크 영향을 최소화하며 삽입될 수 있다. 검증 임계값은 목표 오탐지 수준으로 보정되며, 키 길이에 따라 검증 오류가 지수적으로 감소한다.

실험 결과 및 NP-Complete

스크린샷 2025-11-02 오전 11.47.32.png
논문 캡쳐, arXiv 제공

Cora, PubMed, Amazon-Photo, PROTEINS, NCI1 등 다양한 노드 및 그래프 분류 데이터셋과 GCN, GraphSAGE, SGC, GIN 백본에서 InvGNN-WM은 깨끗한 태스크 정확도와 일치하면서 트리거 및 설명 기반 베이스라인보다 높은 워터마크 정확도를 달성했다.

워터마크는 비구조적 가지치기, 파인튜닝, 학습 후 양자화에서 안정적으로 유지되었다. 일반 지식 증류는 워터마크를 약화시키지만, 워터마크 손실을 포함한 증류(KD+WM)로 복원된다. 연구진은 또한 분리 가능한 부호 민감 디코더 하에서 정확한 제거가 NP-Complete임을 증명했다.

한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org