인공지능 ·
위키백과, AI 기업과 유료 파트너십 체결...메타·MS·아마존 등 대가 지불
25주년 맞은 위키백과, AI 훈련 데이터 무단 수집 문제 해결 위해 유료 API 서비스 도입
[한국정보기술신문] 위키백과를 운영하는 위키미디어 재단이 창립 25주년을 맞아 주요 인공지능 기업들과 유료 파트너십을 공식 발표했다. 1월 15일 발표에 따르면 아마존, 메타, 마이크로소프트, 펄플렉시티, 미스트랄 AI 등이 위키미디어 엔터프라이즈 프로그램에 가입해 위키백과 데이터에 대한 유료 접근권을 확보했다.
이번 계약은 AI 기업들이 대규모 언어 모델 훈련을 위해 무단으로 위키백과 데이터를 수집하면서 발생한 서버 부담 문제를 해결하기 위한 조치다. 위키미디어 재단은 지난해 인간 방문자 트래픽이 8% 감소한 반면, 봇 트래픽이 급증하면서 인프라 비용이 크게 증가했다고 밝혔다.
구조화된 데이터 접근으로 서버 부담 완화
위키미디어 엔터프라이즈는 2021년 출범한 상업 부문으로, 기업들에게 구조화된 위키백과 데이터를 최적화된 방식으로 제공한다. 레인 베커 위키미디어 재단 수익 담당 선임 이사는 상업용 및 AI 기업을 위한 맞춤형 위키백과 버전을 제공하며, 기업의 요구사항에 맞춰 데이터를 구조화한다고 설명했다.
구글은 2022년 첫 고객으로 계약을 체결했으며, 인터넷 아카이브는 서비스 수수료 없이 가입했다. 마이크로소프트, 펄플렉시티, 미스트랄 AI는 지난 1년간 파트너로 합류했고, 메타와 아마존은 기존 파트너였으나 이번에 공식적으로 발표됐다.
지미 웨일스 창립자, AI 훈련 환영하되 비용 분담 촉구
위키백과 창립자 지미 웨일스는 AI 모델이 위키백과 데이터로 훈련받는 것을 환영한다고 밝혔다. 그는 위키백과가 인간이 큐레이션한 데이터이기 때문에 AI 훈련에 적합하다며, 엘론 머스크의 소셜 미디어 플랫폼 X만으로 훈련된 AI는 원하지 않는다고 언급했다.
다만 웨일스는 AI 기업들이 서버 비용의 공정한 몫을 부담해야 한다고 강조했다. 위키미디어 재단 CEO 마리아나 이스칸더는 위키백과 인프라 유지에 비용이 들며, 800만 개인 기부자들이 거대 AI 기업을 보조하기 위해 기부하는 것이 아니라고 설명했다.
위키백과, AI 시대 핵심 데이터 소스로 부상
위키백과는 전 세계 9번째로 방문자가 많은 웹사이트로, 300개 언어로 작성된 6500만 개 이상의 기사를 보유하고 있다. 약 25만 명의 자원봉사 편집자들이 콘텐츠를 관리하며, 월 150억 페이지뷰를 기록한다.
프라운드의 연구에 따르면 ChatGPT가 인용하는 상위 10개 출처 중 47.9%가 위키백과인 것으로 나타났다. 생성형 AI 모델들은 질문에 답변할 때 위키백과 콘텐츠를 요약하지만, 출처를 명시하거나 링크를 제공하지 않는 경우가 많았다.
위키미디어 재단은 지난해 AI 개발자들에게 적절한 출처 표시와 유료 API 사용을 권장하는 성명을 발표한 바 있다. 출처 표시는 정보의 출처를 명확히 하고, 위키백과 접근 감소 및 콘텐츠를 풍부하게 하는 자원봉사자 감소를 방지하는 데 도움이 된다.
위키백과의 AI 활용 계획
웨일스는 AI가 위키백과 편집자들의 반복적인 작업을 줄이는 도구로 활용될 수 있다고 전망했다. 예를 들어 죽은 링크를 업데이트할 때 AI가 주변 텍스트를 스캔하고 온라인에서 대체 출처를 찾을 수 있다. 또한 위키백과 검색이 전통적인 키워드 방식에서 챗봇 스타일로 진화할 수 있다고 덧붙였다.
셀레나 데켈만 위키미디어 재단 최고제품기술책임자는 지식은 인간적이며 인간이 필요하다고 강조하며, AI 시대에 위키백과의 인간 주도 지식이 그 어느 때보다 중요하다고 밝혔다.
한편 펄플렉시티는 위키백과 25주년을 기념해 자원봉사 편집자들에게 2500개의 엔터프라이즈 시트를 기부했다.
한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org