인공지능 · 교육 ·
위키교육재단, AI 생성 콘텐츠 67% 검증 실패 밝혀...위키피디아 신뢰성 위협
2025년 조사 결과 AI로 작성된 위키피디아 문서 대부분이 출처 검증 실패로 확인됐다.
[한국정보기술신문] 위키교육재단이 2025년 한 해 동안 진행한 대규모 조사를 통해 생성형 인공지능으로 작성된 위키피디아 콘텐츠의 심각한 문제점을 발견했다고 1월 29일 공식 블로그를 통해 밝혔다. 이번 조사는 영문 위키피디아 신규 활성 편집자의 19%를 담당하는 위키교육재단이 자체 프로그램 참가자들의 편집 내용을 분석한 것으로, 생성형 AI 도구가 위키피디아의 신뢰성에 미치는 영향을 종합적으로 평가했다.
위키교육재단의 최고기술책임자 세이지 로스는 팽그램이라는 AI 탐지 도구를 활용해 2022년 이후 작성된 3,078개의 신규 문서를 전수 조사했다. 그 결과 178개 문서가 AI로 작성된 것으로 확인됐으며, 챗GPT가 출시된 2022년 11월 이전에는 AI 탐지 사례가 전혀 없었으나 이후 학기마다 지속적으로 증가하는 추세를 보였다.
조사팀은 2025년 여름 한 달 동안 전 직원의 절반을 투입해 178개 문서를 정밀 검토했다. 당초 AI 환각 현상으로 인한 허위 출처 인용을 우려했으나, 실제로 존재하지 않는 출처를 사용한 경우는 7%에 불과했다. 그러나 더 심각한 문제가 발견됐다. 검토 대상 문서의 67% 이상이 검증에 실패한 것이다. 이는 문서에 인용된 출처는 실제로 존재하고 관련성도 있어 보이지만, 해당 출처를 직접 확인하면 위키피디아에 기재된 정보가 그 출처에는 존재하지 않는다는 의미다.
실시간 탐지로 AI 사용률 5%로 감소
이러한 발견을 바탕으로 위키교육재단은 2025년 하반기부터 팽그램과의 협력을 통해 참가자들의 위키피디아 편집 내용을 거의 실시간으로 분석하는 시스템을 구축했다. 세이지 로스가 개발한 대시보드 코스 관리 플랫폼은 편집 내용을 추적하고 온위키 편집을 기반으로 위키 전문가들에게 티켓을 생성하는 방식으로 작동한다.
재단은 위키피디아와 생성형 AI 도구 사용이라는 새로운 교육 모듈을 제작했다. 이 교육 과정은 참가자들이 어떤 작업에서 생성형 AI 도구를 사용할 수 있고 어떤 경우에는 사용해서는 안 되는지를 강조한다. 핵심 메시지는 명확하다. 생성형 AI 챗봇의 출력물을 위키피디아에 복사해 붙여넣지 말 것.
팽그램이 생성형 AI로 작성된 텍스트를 추가한 것으로 탐지한 참가자들에게는 다양한 자동 이메일이 발송됐다. 세이지 로스는 텍스트보다 영상으로 학습하는 데 익숙한 젊은 세대를 위해 교육 영상도 제작했다. 또한 프로그램 참가자들과의 대화와 참여 기회도 제공했다.
2025년 하반기 동안 총 1,406건의 AI 편집 경고가 발생했지만, 이 중 위키피디아의 실제 문서 네임스페이스에 해당하는 경우는 314건으로 22%에 불과했다. 대부분의 경우 팽그램은 참가자들이 초기 연습 단계에서 샌드박스에 생성형 AI를 사용한 것을 탐지했다. 이러한 초기 단계는 문서 선택, 문서 평가, 참고문헌 작성, 기여 내용 개요 작성 등의 작업을 포함한다.
위키교육재단은 2025년 가을학기에 6,357명의 신규 편집자를 지원했으며, 이 중 여러 번 AI 경고를 받은 사람은 217명으로 3%에 불과했다. 지원한 참가자 중 실제 위키피디아 문서에 AI로 생성된 콘텐츠를 추가한 경우는 5%에 그쳤다. 추세선을 고려할 때 약 25%의 참가자가 AI로 생성된 콘텐츠를 위키피디아 문서에 추가할 것으로 예상했으나, 실제로는 5%에 불과했으며 직원들이 모든 문제가 있는 콘텐츠를 되돌릴 수 있었다.
AI의 긍정적 활용 가능성
위키교육재단은 생성형 AI의 부정적 측면만 있는 것은 아니라고 강조했다. 재단의 교육 모듈은 기관 정책이 허용하는 경우 편집자들이 다음과 같은 용도로 생성형 AI 도구 사용을 고려할 것을 권장한다. 문서의 공백 식별, 출처에 대한 접근 찾기, 관련 출처 찾기 등이다.
이러한 사용 시나리오의 성공을 평가하기 위해 위키교육재단은 2025년 가을 위키피디아 학생 프로그램에서 지원한 7개 수업과 직접 협력했다. 학생들에게 위키피디아 작업에 생성형 AI 도구를 사용할 때마다 익명으로 설문조사를 작성하도록 요청했다. 사용한 도구, 프롬프트, 출력 활용 방법, 유용성 여부 등을 물었다.
102개의 응답 중 87%가 해당 작업에서 생성형 AI가 도움이 됐다고 답했다. 가장 인기 있는 도구는 단연 챗GPT였으며, 그래머리가 먼 2위였고 나머지는 한 자릿수 사용률을 보였다.
학생들은 AI 도구가 다음과 같은 경우에 매우 유용하다고 보고했다. 수강 중인 과정과 관련된 작업할 문서 식별, 기존 문서 내 누락된 섹션이나 최신 정보 등 공백 강조, 이미 찾지 못한 신뢰할 수 있는 출처 찾기, 특정 학술지 논문을 찾을 수 있는 데이터베이스 지정, 작성한 초안을 요구사항 체크리스트와 비교하여 평가, 편집한 문서에 추가할 수 있는 카테고리 식별, 문법 및 철자 오류 수정 등이다.
중요한 것은 어떤 참가자도 과제용 텍스트 초안 작성에 AI 도구를 사용했다고 보고하지 않았다는 점이다. 한 학생은 이렇게 말했다. 샌드박스의 모든 글을 붙여넣고 이것을 캐주얼하고 덜 학술적인 톤으로 바꿔달라고 했다. 시도해 봤지만 평소 쓰는 글 같지 않았고 전달하려던 내용을 담아내지 못한 것 같아서 폐기했다.
이것이 비공식 연구 프로젝트였지만, 챗GPT 및 기타 도구가 편집자들이 출력 결과를 맹목적으로 받아들이지 않고 비판적으로 평가한다면 연구 단계에서 도움이 될 수 있다고 믿을 만큼 충분한 긍정적 피드백을 받았다. AI가 도움이 된다고 생각한 참가자들조차도 일부는 관련성이 없어 모든 것을 사용하지는 않았다고 보고했다. 의심할 여지 없이 전 과정에서 인간의 사고 요소를 유지하는 것이 중요하다.
위키피디아의 미래를 위한 제언
위키교육재단의 리안나 데이비스는 현재로서는 챗GPT와 같은 생성형 AI 챗봇을 위키피디아용 텍스트 생성에 절대 사용해서는 안 된다고 결론지었다. 너무 많은 내용이 단순히 검증 불가능하기 때문이다. 직원들이 AI로 생성된 문서의 사실을 검증하려고 시도하는 데 소요되는 시간이 직접 조사하고 작성하는 것보다 훨씬 더 많다는 것이다.
그렇다고 해서 AI 도구가 연구 과정에서 도움이 되지 않는다는 의미는 아니다. 특히 콘텐츠 공백이나 출처를 식별하는 데 도움이 될 수 있으며, 정보를 신중하게 평가하는 인간의 두뇌와 함께 사용할 때 그렇다. 편집자들은 챗봇의 제안을 단순히 받아들여서는 안 되며, 챗봇을 사용하고 싶다면 문서에 대한 계획을 생각하는 데 도움을 주는 브레인스토밍 파트너로 사용해야 한다.
현재까지 프로그램 참가자들이 위키피디아를 편집할 때 위키교육재단의 개입은 검증 불가능한 AI로 작성된 콘텐츠를 위키피디아에서 차단하는 데 효과를 보이고 있다. 가을 학기 경험을 바탕으로 재단은 적어도 위키피디아 문서에 대해서는 팽그램을 AI 콘텐츠 탐지기로서 높은 신뢰를 갖고 있다. 2026년에도 현재 전략을 계속할 예정이며, 시스템을 최대한 신뢰할 수 있도록 소규모 조정을 할 것이다.
보다 일반적으로 참가자들의 AI 문해력이 대중적 담론이 시사하는 것보다 낮다는 것을 발견했다. 이 때문에 재단은 모든 참가자를 위한 선택 모듈로 제공하는 대규모 언어 모델 보충 교육을 만들었다. 많은 참가자들이 AI 도구가 만들어낸 새로운 복잡성을 헤쳐나가려고 시도할 때 AI에 관한 재단의 지침이 환영받고 도움이 된다고 밝혔다.
데이비스는 이번 심층 조사가 위키피디아를 미래로 보호하기 위해 필요한 변화에 대한 대화를 촉발하는 데 도움이 되기를 희망한다고 밝혔다. 위키피디아는 최근 25번째 생일을 축하했다. 미래로 살아남기 위해서는 주변 기술이 변화함에 따라 적응해야 할 것이다. 위키피디아는 자원봉사 편집자 군단 없이는 아무것도 아니다. 위키피디아의 합의 기반 의사결정 모델은 변화가 빠르게 오지 않는다는 것을 의미하지만, 이번 조사가 필요한 변화에 대한 대화를 촉발하는 데 도움이 되기를 바란다고 전했다.
한국정보기술신문 인공지능분과 이준 기자 news@kitpa.org