한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 · 유관기관 ·

방송영상, 인공지능 학습용 데이터로 재탄생—과기정통부 “미디어 AI 전환 가속화” 193억 원 공모

발행일
읽는 시간3분 41초

[한국정보기술신문] 과학기술정보통신부(장관 유상임)와 한국전파진흥협회가 국내 방송영상을 인공지능(AI) 학습용 데이터로 전환하는 대규모 사업에 착수했다. 6월 5일부터 한 달간 공모가 진행되는 ‘방송영상 AI 학습용 데이터 구축사업’은 방송‧미디어 분야의 AI 전환을 본격화하는 신호탄으로 평가된다. 올해 1차 추경으로 확보된 200억 원을 투입해 국내 방송영상 1만 시간 이상을 데이터로 정제·가공하는 것이 골자다.

과기정통부는 “70년에 이르는 방송사가 보유한 콘텐츠는 한국형 인공지능 모델을 학습시키는 최적의 재료”라며 “방송영상 데이터가 AI 산업의 핵심 자원으로 쓰일 수 있도록 적극 지원할 것”이라고 밝혔다. 이번 사업은 방송사, AI 기업, 데이터 가공업체가 한 팀을 이룬 4개 컨소시엄을 선정해 연합체당 48억 3,000만원을 지원한다. 사업 기간은 8월 초 협약 체결 이후 연말까지다.

image.png
방송영상 인공지능 학습용 데이터 구축 및 활용 절차, 과학기술정보통신부 제공

데이터 구축 방식은 원본 영상 확보 → 데이터 정제 → 데이터 가공 → AI 학습용 데이터 구축 → 데이터 검증 → AI 모델 활용의 6단계를 따른다. 컨소시엄별로 5,000 시간 이상의 학습용 데이터를 가공해야 하며, 저작권·개인정보 논란이 없는 영상으로 한정된다. 수집·가공된 데이터는 방송·미디어 특화 AI 모델 개발뿐 아니라 ‘세계 최고 대형언어모델(World Best LLM·WBL)’ 사업에도 제공될 예정이라 범용성이 높다.

뿐만 아니라 정부는 데이터 품질 확보를 위해 전문기관의 단계별 검증을 의무화하고, 검증용 AI 모델을 통해 정확성을 점검하기로 했다. 이는 기존 데이터 구축 사업에서 반복돼 온 ‘품질 저하’ 문제를 사전에 차단하려는 목적이다. 구축된 데이터 일부는 AI 허브 등 공공 플랫폼에서 연구‧교육용으로 개방돼 학계와 스타트업도 혜택을 누린다.

공모 조건과 참여 절차

공모 기간은 6월 5일부터 7월 4일 오후 3시까지다. 주관기관은 방송법상 방송사업자로 한정되지만, 참여기관에는 AI 기업과 데이터 가공사, 인프라 기업, 대학·연구소 등 폭넓은 주체가 포함될 수 있다. 과제 선정 절차는 사전검토, 서면·대면 평가, 심의·조정을 거쳐 7월 마지막 주에 최종 발표된다.

선정된 컨소시엄은 사업계획서에 ▲방송콘텐츠 AI 활용 시나리오 ▲데이터 구축·검증 로드맵 ▲AI 모델 개발 전략 ▲저작권‧개인정보 이슈 해소 방안을 구체적으로 담아야 한다. 특히 방송사가 제공하는 영상뿐 아니라 자막, 음성, 장면전환 정보 등 메타데이터를 함께 가공해 다층적 학습데이터를 마련해야 한다.

사업 설명회는 6월 13일에 열려 지원 요건, 평가 기준, 예산 편성 방법 등이 상세히 안내될 예정이다. 관계자는 “이번 공모는 방송사와 AI 기업 간 협업 경험이 거의 없던 국내 현실을 바꾸는 계기가 될 것”이라며 “데이터를 중심으로 한 신(新)미디어 산업 지형이 열릴 것”이라고 전망했다.

AI 전략의 세 갈래: 인프라‧모델‧전환

image.png
인공지능 디지털 기술사업화 전략대화 행사 사진, 과학기술정보통신부 제공

이번 사업은 과기정통부가 추진하는 ‘AI 컴퓨팅 인프라 확충–차세대 AI 모델 개발–AI 전환 가속화’ 3대 축 전략 가운데 ‘데이터·모델’ 부문을 실질적으로 뒷받침한다. 정부는 2030년까지 국산 AI 반도체 비중을 50%로 끌어올리고, WBL 프로젝트로 세계 톱 수준의 대형언어모델을 확보한다는 목표를 세웠다. 방송영상 데이터는 WBL 학습에도 투입돼 한국어·한국 문화에 최적화된 AI 모델을 만드는 토대가 된다.

강도성 방송진흥정책관은 “방송영상은 한국인의 자연스러운 언어, 행동, 문화가 총망라된 데이터”라며 “AI가 한국인의 콘텐츠를 정확하게 이해하고 생성하도록 돕는 핵심 자원”이라고 강조했다. 실제로 방송영상은 자연어 처리, 음성 합성, 영상 이해‧생성 등 다방면에서 활용 가능성이 높다.

데이터 거래 시장도 연다

사업단은 데이터 구축뿐 아니라 거래도 염두에 뒀다. 전문가 협의체를 꾸려 데이터 현황을 공개하고, 거래 기준과 표준계약서를 마련해 민간에서도 자유롭게 사고팔 수 있는 생태계를 조성한다. 기존에는 방송영상 AI 데이터 거래가 저작권 문제가 얽혀 활성화되지 못했지만, 정부 주도 협의체를 통해 해법을 찾겠다는 구상이다.

협의체는 방송사, 데이터 수요기관, 학계, 스타트업 등이 참여해 ‘데이터 상품화’ 로드맵과 가격 산정 모델을 논의한다. 이로써 영상 AI 데이터가 한정된 연구 영역을 넘어 상업적 서비스로 이어지는 길을 열어줄 전망이다.

방송업계 “제작·편집 혁신 기대”

방송사들은 이번 사업을 반기는 분위기다. 한 지상파 관계자는 “AI 기반 자막 자동 생성, 하이라이트 편집, 음성 합성 내레이션 등 기술을 시범 적용 중이지만 데이터 부족이 가장 큰 장벽이었다”고 토로했다. 케이블 방송사도 “AI로 편성표를 자동 작성하거나 광고 타깃팅을 정교화할 수 있다”며 기대감을 드러냈다.

AI 업계는 “방송영상은 대용량·다양성·문화 특이성이 잘 결합된 이상적인 학습셋”이라며 “넷플릭스·유튜브 같은 글로벌 플랫폼도 자체 영상 데이터를 활용해 AI 경쟁력을 높여왔는데, 국내도 동등한 무기를 확보하게 됐다”고 평가했다.

과제와 전망

전문가들은 데이터 품질과 저작권 관리가 성공의 열쇠라고 지적한다. 특히 인물 이미지와 음성에는 초상권·퍼블리시티권이 걸려 있어 세밀한 필터링이 필요하다. 개인정보 보호도 필수 요건이다. 정부는 “방송사·제작사와의 사전 협의, 가명 처리, 법률 검토를 통해 분쟁 소지를 차단할 것”이라고 밝혔다.

또 다른 과제는 모델 활용의 확산이다. 데이터 구축에만 그치면 의미가 반감되기 때문에 AI 편집 도구, 음성·영상 합성 서비스, 인터랙티브 콘텐츠 제작 플랫폼 등 실제 제품·서비스로 이어지는 성과가 요구된다. 업계에서는 “정부 지원 데이터가 스타트업과 중소 방송사에도 개방돼야 생태계 전체가 성장한다”는 의견이 나온다.

방송영상 AI 학습용 데이터 구축사업은 국내 미디어 산업의 체질 개선과 AI 산업 경쟁력 제고를 동시에 노린다. 방송사가 ‘데이터 공급자’로 변모하고, AI 기업이 ‘콘텐츠 혁신 파트너’로 자리잡으면 한국형 미디어 AI 생태계가 탄력을 받을 것으로 기대된다.

이번 사업의 결과물이 AI 기반 제작 효율성, 시청자 맞춤형 콘텐츠, 글로벌 시장 진출로 이어질 수 있을지 주목된다. 데이터와 알고리즘이 만나 미래 미디어 패러다임을 바꿀 실험이 막을 올렸다. 과기정통부는 향후 성과를 분석해 지원 규모를 확대하거나 후속 과제를 발굴할 계획이다.

한국정보기술신문 유관기관분과 김류빈 기자 news@kitpa.org