인공지능

엔비디아, 한국 맞춤형 AI 학습 데이터셋 공개...700만 페르소나 포함한 네모트론 한국 데이터셋 무료 공개

2026년 4월 27일
2분
엔비디아가 한국의 인구통계와 문화를 반영한 700만 개의 AI 페르소나 데이터셋을 공개했다.
[한국정보기술신문] 엔비디아가 한국형 AI 모델 개발을 위한 대규모 데이터셋을 공개했다. '네모트론 페르소나 코리아'는 100만 개의 레코드에 700만 개의 합성 페르소나를 담고 있다. 지난 4월 20일 공개된 이 데이터셋은 한국의 실제 인구통계, 지역 특성, 문화적 특징을 모두 반영했다.
image.png
우리나라 실제 분포에 기반한 합성 페르소나를 위한 복합 AI 시스템 | 엔비디아 허깅페이스 Nemotron-Personas-Korea 데이터셋 제공

17개 시도 252개 시군구 완전 커버

이 데이터셋의 가장 큰 특징은 지역 다양성이다. 한국의 모든 17개 시도와 252개 시군구를 포함했다. 각 지역의 문화적 특색과 지역민의 특성까지 담아냈다. 데이터는 26개 분야에 걸쳐 총 17억 개의 토큰을 포함한다. 이 중 10억 개는 페르소나 데이터다.

풍부한 페르소나 다양성으로 편향성 감소

데이터셋은 7가지 페르소나 유형을 제공한다. 직업인, 스포츠 애호가, 예술가, 여행객, 미식가, 가족 중심인, 그리고 간단한 요약 형태까지 포함되어 있다. 이름도 현실성 높게 구성되었다. 대법원 데이터를 기반으로 209개의 성씨와 2만 1400개의 이름을 담았다. 이는 세대별 명명 패턴까지 반영한 것이다.

실제 통계 기반의 신뢰성 높은 데이터

엔비디아는 한국의 여러 공식 통계를 기반으로 데이터를 구성했다. 통계청의 KOSIS 데이터, 대법원의 인구 데이터, 국민건강보험공단의 보건 정보, 한국농촌경제연구원의 식생활 조사 자료 등을 활용했다. NAVER Cloud의 도메인 전문성 정보도 포함되었다. 이런 다중 출처 활용으로 신뢰성이 높다.

인구 변화 추세를 정확히 반영

데이터셋은 한국의 인구 문제를 잘 드러낸다. 저출산의 결과로 50세에서 64세 인구층이 가장 많은 분포를 보인다. 세대별 교육 격차도 명확하다. 20대에서 34세 인구의 75%가 고등교육을 받았지만, 80세 이상에서는 단 10%에 불과하다. 이런 세대별 특징이 데이터에 정확히 반영되었다.

다양한 활용 가치 높아

이 데이터셋의 활용 분야는 광범위하다. 한국 맞춤형 주권 AI 개발에 사용될 수 있다. LLM 학습을 위한 합성 데이터 생성도 가능하다. AI 모델의 편향성을 줄이고 응답 다양성을 높이는 데도 유용하다. 무엇보다 실제 인구 분포를 반영해 정확한 AI 응답을 만들 수 있다.

누구나 자유롭게 활용 가능

이 데이터셋은 CC BY 4.0 라이선스로 공개되었다. 상업용과 비상업용 모두 자유롭게 사용할 수 있다. 엔비디아가 한국 AI 생태계 발전을 위해 무료로 공개한 것이다. 국내 개발자와 연구자들이 한국의 문화적 특성을 반영한 AI 시스템 개발에 활용할 수 있다.
한국정보기술신문 인공지능분과 성연주 기자 news@kitpa.org