한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 · 정보통신 ·

뉴욕타임스, 인터넷 아카이브 차단... AI 저작권 분쟁이 웹 역사 기록 지운다

발행일
읽는 시간2분

비영리 디지털 도서관 접근 막아... EFF "AI 막으려다 수십 년 역사 기록 불태우는 꼴"

AI 학습 데이터 통제 명목으로 주요 언론사들이 인터넷 아카이브를 차단하며 공공 역사 기록 훼손 우려가 커지고 있다.

[한국정보기술신문] 세계 최대 디지털 도서관인 인터넷 아카이브(Internet Archive)가 AI 저작권 분쟁의 불똥을 맞고 있다. 뉴욕타임스를 비롯한 주요 언론사들이 AI 기업의 콘텐츠 무단 수집을 막겠다는 이유로 인터넷 아카이브의 웹 크롤링을 기술적으로 차단하기 시작했다. 전자프런티어재단(EFF)은 3월 16일 공개한 보고서에서 이 같은 움직임이 수십 년간 쌓아온 웹 역사 기록 자체를 지울 수 있다고 강하게 경고했다.

인터넷 아카이브란 무엇인가

인터넷 아카이브는 1990년대 중반부터 온라인으로 운영되어 온 기관으로, 현재 1조 건 이상의 웹 페이지를 보관한 '웨이백 머신(Wayback Machine)'을 운영하고 있다. 이 서비스는 매일 언론인, 연구자, 법원 등이 과거 웹 콘텐츠를 확인하는 데 널리 활용된다.

특히 위키피디아 단독으로만 249개 언어에 걸쳐 260만 건 이상의 뉴스 기사가 인터넷 아카이브에 보관된 자료와 연결되어 있다. 언론사 기사가 수정되거나 삭제될 경우 원본을 확인할 수 있는 사실상 유일한 공개 수단이기도 하다. 실제로 기사가 공개적으로, 혹은 은밀하게 수정·삭제된 경우 인터넷 아카이브가 원본을 볼 수 있는 유일한 경로가 되는 사례가 많다.

최근 몇 달 사이 뉴욕타임스는 기존 웹 표준인 robots.txt 규칙을 넘어서는 기술적 조치를 동원해 인터넷 아카이브의 접근을 막기 시작했다. 가디언 등 다른 언론사들도 이에 동참하는 것으로 알려졌다.

언론사들이 내세우는 이유는 AI 기업의 콘텐츠 무단 학습이다. 뉴욕타임스를 포함한 여러 언론사는 AI 기업들이 저작권이 있는 기사로 모델을 훈련시키는 행위가 법을 위반한다고 보고 소송을 진행 중이다. 자사 콘텐츠에 대한 통제권을 지키겠다는 논리다.

EFF "아카이브 차단은 잘못된 해법"

그러나 EFF는 이 같은 대응이 문제의 본질을 빗나간 것이라고 지적한다. 인터넷 아카이브는 상업적 AI 시스템을 구축하는 조직이 아니라, 역사의 기록을 보존하는 기관이다. 비영리 기록 보존 기관의 접근을 차단하는 것은 AI와 전혀 상관없는 도서관이 시작하지도 않은 싸움에 수십 년의 역사 기록물을 불태우는 것과 같다는 비판이 제기된다.

EFF는 또한 아카이브의 활동이 법적으로도 보호받는다는 점을 강조했다. 검색 및 색인화를 위한 복제는 오래 전부터 공정 이용(fair use)으로 인정받아왔다. 구글이 도서 전체를 복제해 검색 데이터베이스를 구축했을 때도 법원은 이를 변형적 목적에 해당하는 명백한 공정 이용으로 판단한 바 있다.

EFF는 이번 사태가 가져올 장기적 결과에 대해 우려를 표명했다. 주요 언론사들이 인터넷 아카이브의 접근을 계속 차단한다면, 미래의 연구자들은 웹 역사 기록의 상당 부분이 그냥 사라져 버린 현실과 마주할 수 있다.

AI 학습 데이터 사용을 둘러싼 저작권 논쟁은 법원에서 다뤄져야 할 문제라는 게 EFF의 입장이다. 그 싸움을 위해 공공 기록물을 희생시키는 것은 돌이킬 수 없는 실수라는 경고다. 언론사의 정당한 권리 보호와 공공 역사 기록 보존이라는 두 가지 가치 사이에서 어떤 균형점을 찾을지, 사회적 논의가 필요한 시점이다.

한국정보기술신문 방송통신분과 홍재진 기자 news@kitpa.org