정보기술 ·
GPL 코드로 학습한 AI 모델, GPL 적용되나...법적 논쟁 계속
코파일럿·챗GPT 소송서 라이선스 전파론 쟁점...주요 오픈소스 단체들도 신중한 입장
AI 모델 학습에 GPL 코드를 사용할 경우 모델 자체에 GPL 라이선스가 전파된다는 이론을 둘러싼 법적 논쟁이 계속되고 있다.
[한국정보기술신문] 2021년 깃허브 코파일럿이 출시되면서 촉발된 'GPL 전파론'이 2025년 현재까지도 법적으로 완전히 해소되지 않은 채 진행 중인 것으로 나타났다. GPL 코드로 학습한 AI 모델에 GPL 라이선스가 전파되어야 한다는 이 이론은 당시 많은 소프트웨어 엔지니어들 사이에서 자연스럽게 받아들여졌지만, 현재는 논의의 주류에서 다소 벗어난 상태다.
그러나 미국과 독일에서 진행 중인 두 건의 주요 소송이 이 이론을 완전히 부정하지 못하고 있어 향후 판결에 따라 업계에 큰 영향을 미칠 전망이다.
코파일럿 집단소송, 라이선스 위반 쟁점 여전히 유효
2022년 말 제기된 깃허브 코파일럿 집단소송에서 익명의 개발자들은 깃허브, 마이크로소프트, 오픈AI가 공개 저장소의 소스 코드를 무단으로 학습하여 대규모 라이선스 위반을 초래했다고 주장했다. 특히 코파일럿이 학습 소스의 일부를 재현할 때 MIT나 Apache-2.0 같은 라이선스가 요구하는 저작자 표시나 저작권 고지를 전혀 수행하지 않는 점을 문제 삼았다.
캘리포니아 북부지방법원은 DMCA 조항 위반, 개인정보 보호정책 위반, 부당이득, 불법행위 등 주변 청구 대부분을 기각했지만, 일부 DMCA 위반과 오픈소스 라이선스 위반 청구는 여전히 유효하다고 판단했다. 법원은 금전적 손해배상에 대해서는 원고들이 구체적인 손해액을 입증하지 못했다고 보았으나, 라이선스 위반 자체에 대한 금지명령 청구에는 충분한 근거가 있다고 판단했다.
현재까지 법원은 모델 자체를 GPL 라이선스로 공개하라는 직접적인 판결을 내리지 않았지만, 학습 데이터의 라이선스 조건이 무시될 경우 모델 제공 행위가 불법이 될 수 있다는 논리를 완전히 배제하지 않은 상태다.
독일 법원, AI 모델 내부 기억을 저작권법상 복제로 인정
2025년 11월 뮌헨 제1지방법원은 독일 음악 저작권 단체 GEMA가 오픈AI를 상대로 제기한 소송에서 주목할 만한 판결을 내렸다. 법원은 챗GPT 모델이 유명 독일 노래 9곡의 가사를 기억하고 재현한 행위에 대해, 모델 내부의 기억 자체가 독일 저작권법 제16조상 복제 행위에 해당한다고 판단했다.
법원은 원고가 관리하는 가사가 챗GPT의 GPT-4와 4o 모델에 고정되었으며, 간단한 프롬프트만으로 거의 그대로 출력되는 상황을 근거로 모델이 내부적으로 저작물을 기억한 매개변수를 포함하고 있다고 판단했다. 적절한 프롬프트를 통해 원저작물과 실질적으로 동일한 표현을 재현할 수 있다면, 그 기억 자체가 복제에 해당한다는 것이다.
이 판결의 핵심은 저작물이 재현 가능한 형태로 모델 내부에 기록되어 있다면, 그 상태 자체가 저작권 침해를 구성할 수 있다는 점을 명확히 인정했다는 것이다. 법원은 EU 정보사회 지침의 복제는 어떤 형태나 방식의 사본도 포함하며, 인간에게 직접 지각될 필요가 없다는 취지를 인용하며, 가사가 모델의 매개변수 내에 인코딩되어 있더라도 복제물 생성에 해당한다고 밝혔다.
다만 이 판결은 1심이며 오픈AI가 항소 의사를 밝혀 논쟁은 계속될 전망이다. 또한 법원은 이 판결이 완전 일치 출력이 얻어진 극단적인 사례에 한정된다고 강조했다.
두 소송이 시사하는 GPL 전파론의 가능성
만약 이 두 소송이 원고 승소로 확정된다면, AI 모델에 GPL 라이선스가 전파되는 이론이 사실상 사법부에 의해 인준될 가능성이 있다. 코파일럿 소송에서 모델 제공자가 학습 소스 코드의 라이선스 조건을 준수해야 한다는 법리가 확립되고, GEMA 소송에서 모델이 저작물의 복제물을 포함한다는 법리가 확립될 경우, 이 둘이 교차하면 GPL 코드를 포함한 AI 모델은 GPL 코드의 복제물 또는 파생저작물이므로 GPL의 조건이 직접 적용된다는 결론이 이론적으로 도출된다.
구체적으로 모델이 GPL 코드 단편을 내부적으로 기억하고 포함하고 있다면, 그 모델을 제3자에게 배포하거나 제공하는 행위는 GPL 코드의 복제물 배포로 간주될 수 있다. 이 경우 GPL이 아닌 조건으로 배포하는 행위는 GPL 라이선스 위반으로 평가될 수 있으며, 일반 소프트웨어의 경우처럼 금지명령이나 손해배상 청구는 물론, 모델 전체를 동일 라이선스로 공개하라는 강제적 GPL 준수 요구가 제기될 여지가 있다.
일본 저작권법상 정리와 한계
일본의 경우 2018년 개정으로 도입된 저작권법 제30조의4가 기계학습에 수반되는 복제 행위를 포괄적으로 적법화하고 있다. 2024년 3월 문화청 저작권분과회는 생성형 AI와 저작권에 관한 사고 정리 문서를 발표하여, AI 학습 단계와 생성·이용 단계로 나누어 법적 정리를 제시했다.
이 문서에 따르면 AI 학습 목적의 복제는 기본적으로 제30조의4에서 정의한 정보 분석 목적으로서 적법하다. 그러나 특정 저작물의 창작적 표현을 의도적으로 재현하려는 목적이 섞인 학습은 저작물 향유 목적이 병존하는 것으로 평가되어 제30조의4의 적용이 배제된다. 특히 과적합을 통해 특정 저작물군을 기억시켜 유사한 것을 출력하게 만드는 행위는 향유 목적이 있다고 판단된다.
다만 이러한 정리는 엄밀히 저작권법상 권리제한규정의 적용 범위 논의이며, 계약이나 라이선스 조항의 유효성에는 언급하지 않았다. 문화청 문서는 저작권 침해 여부 관점에서만 논의하고 있으며, 학습 행위가 적법하더라도 별도로 이용약관이나 오픈소스 라이선스를 위반할 경우 계약상 책임이 발생할 가능성을 부정하지 않는다.
일본 저작권법에는 제30조의4 같은 권리제한규정이 계약 조건보다 우선한다는 override 조항이 없으며, 경제산업성의 AI·데이터 이용 계약 가이드라인은 당사자 간 데이터 이용을 금지하는 계약이 있다면 그 계약이 우선될 가능성을 시사한다. 따라서 라이선스가 유효한 계약으로 간주된다면, 저작권법 제30조의4로 학습이 적법하더라도 계약법상 라이선스 조건 위반이 되는 리스크가 남는다.
GPL 전파론에 대한 반론들
GPL 전파론이 법적으로 완전히 부정된 것은 아니지만, 많은 법률 전문가와 엔지니어들은 이 이론이 심각한 폐해를 가져온다고 지적한다.
저작권법 층위에서 AI 모델을 학습 소스 저작물의 파생저작물이나 복제물로 간주하는 것은 무리가 있다는 주장이다. 대부분의 경우 모델 내부에는 특정 저작물의 표현이 인간이 인식 가능한 형태로 저장되어 있지 않다. 모델은 단지 텍스트와 코드가 가중치 매개변수로 변환된 통계적 추상물을 보유하고 있을 뿐이며, 그 자체는 인간에게 전혀 창작적 표현이 아니다.
GPL 텍스트 층위에서도 의문이 제기된다. GPLv2의 텍스트에서 카피레프트의 대상은 GPL로 제공된 원래 코드의 파생저작물과 프로그램을 포함하는 저작물로 한정된다. AI 모델의 경우 원래 GPL 코드의 어느 부분을 모델이 포함하고 있는지가 극히 불명확하다. 설령 모델이 학습에 사용된 GPL 코드의 단편을 기억할 수 있다 해도, 모델 전체에서 보면 극히 일부이며 대부분은 GPL 코드와 무관한 매개변수로 점유되어 있다.
기술적 층위에서도 강력한 반론이 있다. AI 모델, 특히 대규모 언어 모델은 기본적으로 거대한 통계적 경향을 내부에 보유하고 있으며, 원래 코드나 텍스트를 데이터베이스처럼 그대로 저장하지 않는다. 특정 입력에 대해 특정 출력을 돌려주는 것은 단지 확률 분포에 따른 생성일 뿐이며, 학습 데이터와 동일한 출력이 항상 얻어진다는 보증은 없다.
OSI와 FSF의 입장
오픈소스 이니셔티브(OSI)는 2024년 오픈소스 AI 정의(OSAID)를 제정하여 AI 시스템이 오픈소스라 불리기 위한 요건을 정의했다. 이 정의는 소프트웨어와 유사하게 네 가지 자유가 보장되어야 한다고 명시하며, 데이터 정보, 코드, 매개변수의 세 가지 요소 공개를 요구한다.
주목할 점은 OSI가 학습에 사용된 코드와 학습 데이터에 관한 정보가 모델 가중치 외에 필수불가결하다고 밝히면서도, 학습 데이터 자체의 완전한 공개는 의무화하지 않았다는 것이다. 이는 예를 들어 개인정보 보호나 기밀 유지로 인해 원시 데이터를 공개할 수 없는 경우, 그 사실을 명확히 하여 데이터의 성질을 설명하면 대체할 수 있다는 유연한 입장이다.
한편 자유소프트웨어재단(FSF)과 FSF 유럽(FSFE)은 보다 원칙에 충실한 입장을 취한다. FSFE는 2021년 기준으로 AI 애플리케이션이 자유롭기 위해서는 학습 코드와 학습 데이터 양쪽이 자유 소프트웨어 라이선스로 공개되어야 한다고 선언했다. FSF 자체도 2024년 성명에서 현재의 이해에 따르면 머신러닝 애플리케이션이 자유롭다고 불리기 위해서는 모든 학습 데이터와 그것을 처리하는 스크립트가 네 가지 자유를 만족해야 한다고 밝혔다.
그러나 FSF는 동시에 비자유 머신러닝 애플리케이션이 윤리적으로 부당한지는 경우에 따라 다르다는 취지를 밝히며, 예를 들어 의료 진단 AI의 학습 데이터를 공개할 수 없는 정당한 도덕적 이유가 있을 수 있다고 언급했다. FSF의 이상과 현실 사이에서 타협점을 모색하는 태도를 엿볼 수 있다.
여전히 미결된 문제
GPL 전파론은 현재 예전만큼 크게 주장되지는 않지만 완전히 사라지지 않은 중간 위치에 있다. 코파일럿 집단소송과 GEMA 대 오픈AI 같은 소송에서 학습 데이터의 라이선스 위반과 모델 내부의 복제가 검토되기 시작한 결과, 침해 인정의 허들이 낮아지는 것처럼 보이기도 한다.
그러나 다른 한편으로 GPL 같은 라이선스의 전파를 위한 허들은 여전히 높다. 침해가 인정되는 것과 모델 전체를 GPL로 공개해야 한다는 결론 사이에는 큰 간극이 있다. 현재 소송들이 추구하는 것도 금지명령과 손해배상이지, 모델의 강제적 GPL화가 아니다. 사법부가 GPL 전파론 자체를 지지한 사례는 제로이며, 법적으로는 미개척 영역이다.
중요한 것은 카피레프트의 철학을 AI에 무작정 적용하려 하기보다, AI 고유의 기술적 성질과 산업 구조를 고려하면서 자유를 최대화하기 위해 무엇이 최선인지 생각하는 것이다. 다행히 대규모 AI 모델의 오픈 공개, 데이터셋 정제 방법, 라이선스 표시 자동 부착 등 실무적 문제에 대한 해결책은 이미 오픈소스 커뮤니티에 의해 모색되고 있다. 이러한 자발적 노력을 촉진하고 필요에 따라 법적 틀로 뒷받침하는 것이 자유와 발전의 균형을 맞추는 열쇠가 될 것으로 보인다.
한국정보기술신문 정보기술분과 유상헌 기자 news@kitpa.org