정부, AI 학습용 데이터 100종 발굴 추진...과기정통부·NIA, 공공기관 보유 데이터 전수조사 실시

발행: 2026년 4월 10일

[한국정보기술신문] 정부가 공공기관이 보유한 AI 학습용 데이터를 체계적으로 발굴하고 제공하기 위한 전수조사에 착수했다. 과학기술정보통신부는 한국지능정보사회진흥원과 함께 'AI 학습용 데이터 센서스' 프로젝트를 추진 중이라고 10일 밝혔다.

100종 데이터 발굴 목표

과기정통부는 이번 조사를 통해 AI 학습 활용 가능성이 높은 데이터 100종을 발굴할 계획이다. 이는 60억원 규모의 'AI 학습용데이터 통합제공체계' 운영의 일환으로 추진된다.

현재 운영 중인 'AI허브'에는 903종의 데이터가 개방돼 있다. 정부는 이를 개편해 공공과 민간 데이터를 통합 집적하는 플랫폼으로 확대할 방침이다.

김경만 과기정통부 인공지능정책실장은 "AI 성능의 핵심은 활용 가능한 풍부한 데이터"라며 "공공부문의 데이터 자산을 체계적으로 발굴하겠다"고 말했다.

이번 조사가 필요한 이유는 현재 공공기관의 AI 학습용 데이터가 기관별로 분산 관리되고 있기 때문이다. 이로 인해 전체 현황 파악이 어렵고 AI 기업들의 활용도 제한적인 상황이다.

조사는 AI기본법 제15조를 법적 근거로 진행된다. 조사 항목으로는 데이터 유형과 구조, 구축 목적, 제공 범위 등이 포함된다. AI 학습용 데이터뿐만 아니라 가공 가능한 데이터도 조사 범위에 들어간다.

선정된 100종의 데이터는 품질 보완과 비식별조치를 거친 후 제공될 예정이다. 온라인 공개가 어려운 경우에는 '데이터 안심구역'을 통해 제공하는 방안이 검토되고 있다.

데이터 안심구역은 민감한 정보가 포함된 데이터를 안전한 환경에서 연구·분석할 수 있도록 하는 시설이다. 이를 통해 개인정보보호와 데이터 활용의 균형을 맞출 수 있을 것으로 기대된다.

정부의 이번 조치는 AI 산업 생태계 활성화에 중요한 역할을 할 것으로 전망된다. 양질의 학습 데이터 부족은 국내 AI 기업들이 글로벌 경쟁력을 확보하는 데 주요 걸림돌로 작용해왔다.

특히 공공데이터의 특성상 다양한 분야의 대용량 데이터를 포함하고 있어, 민간에서 구하기 어려운 희귀 데이터에 대한 접근성이 크게 개선될 것으로 보인다.

정부는 이번 프로젝트를 통해 국내 AI 기업들의 데이터 접근성을 높이고, 궁극적으로 국가 AI 경쟁력 강화에 기여할 것으로 기대하고 있다.

한국정보기술신문 유관기관분과 한재현 기자 news@kitpa.org