엔비디아, 한국 맞춤형 AI 학습 데이터셋 공개...700만 페르소나 포함한 네모트론 한국 데이터셋 무료 공개

발행: 2026년 4월 27일

엔비디아가 한국의 인구통계와 문화를 반영한 700만 개의 AI 페르소나 데이터셋을 공개했다.

[한국정보기술신문] 엔비디아가 한국형 AI 모델 개발을 위한 대규모 데이터셋을 공개했다. '네모트론 페르소나 코리아'는 100만 개의 레코드에 700만 개의 합성 페르소나를 담고 있다. 지난 4월 20일 공개된 이 데이터셋은 한국의 실제 인구통계, 지역 특성, 문화적 특징을 모두 반영했다.

우리나라 실제 분포에 기반한 합성 페르소나를 위한 복합 AI 시스템 | 엔비디아 허깅페이스 Nemotron-Personas-Korea 데이터셋 제공

17개 시도 252개 시군구 완전 커버

이 데이터셋의 가장 큰 특징은 지역 다양성이다. 한국의 모든 17개 시도와 252개 시군구를 포함했다. 각 지역의 문화적 특색과 지역민의 특성까지 담아냈다. 데이터는 26개 분야에 걸쳐 총 17억 개의 토큰을 포함한다. 이 중 10억 개는 페르소나 데이터다.

풍부한 페르소나 다양성으로 편향성 감소

데이터셋은 7가지 페르소나 유형을 제공한다. 직업인, 스포츠 애호가, 예술가, 여행객, 미식가, 가족 중심인, 그리고 간단한 요약 형태까지 포함되어 있다. 이름도 현실성 높게 구성되었다. 대법원 데이터를 기반으로 209개의 성씨와 2만 1400개의 이름을 담았다. 이는 세대별 명명 패턴까지 반영한 것이다.

실제 통계 기반의 신뢰성 높은 데이터

엔비디아는 한국의 여러 공식 통계를 기반으로 데이터를 구성했다. 통계청의 KOSIS 데이터, 대법원의 인구 데이터, 국민건강보험공단의 보건 정보, 한국농촌경제연구원의 식생활 조사 자료 등을 활용했다. NAVER Cloud의 도메인 전문성 정보도 포함되었다. 이런 다중 출처 활용으로 신뢰성이 높다.

인구 변화 추세를 정확히 반영

데이터셋은 한국의 인구 문제를 잘 드러낸다. 저출산의 결과로 50세에서 64세 인구층이 가장 많은 분포를 보인다. 세대별 교육 격차도 명확하다. 20대에서 34세 인구의 75%가 고등교육을 받았지만, 80세 이상에서는 단 10%에 불과하다. 이런 세대별 특징이 데이터에 정확히 반영되었다.

다양한 활용 가치 높아

이 데이터셋의 활용 분야는 광범위하다. 한국 맞춤형 주권 AI 개발에 사용될 수 있다. LLM 학습을 위한 합성 데이터 생성도 가능하다. AI 모델의 편향성을 줄이고 응답 다양성을 높이는 데도 유용하다. 무엇보다 실제 인구 분포를 반영해 정확한 AI 응답을 만들 수 있다.

누구나 자유롭게 활용 가능

이 데이터셋은 CC BY 4.0 라이선스로 공개되었다. 상업용과 비상업용 모두 자유롭게 사용할 수 있다. 엔비디아가 한국 AI 생태계 발전을 위해 무료로 공개한 것이다. 국내 개발자와 연구자들이 한국의 문화적 특성을 반영한 AI 시스템 개발에 활용할 수 있다.

참고 링크: https://huggingface.co/datasets/nvidia/Nemotron-Personas-Korea

한국정보기술신문 인공지능분과 성연주 기자 news@kitpa.org

엔비디아, 한국 맞춤형 AI 학습 데이터셋 공개...700만 페르소나 포함한 네모트론 한국 데이터셋 무료 공개

17개 시도 252개 시군구 완전 커버

풍부한 페르소나 다양성으로 편향성 감소

실제 통계 기반의 신뢰성 높은 데이터

인구 변화 추세를 정확히 반영

다양한 활용 가치 높아

누구나 자유롭게 활용 가능

함께 읽으면 좋은 기사

미 정부, 앤트로픽 '미토스 5' 재배포 일부 허용...핵심 인프라 100여 곳에만 다시 연다...수출통제 2주 만에 부분 완화, 페이블 5는 결정문서 빠져 일반 공개 복귀 협의 중

오픈AI, 차세대 모델 'GPT-5.6 솔' 프리뷰 공개...코딩·과학·보안 끌어올렸다...플래그십 솔·균형형 테라·경량 루나 3종 선보이며 역대 최강 안전장치 적용, 미국 정부와 조율해 신뢰 파트너에 우선 제공

구글 "AI로 자연재해 미리 알린다"...홍수·산불·지진 예측 한자리에...현지시간 6월 23일 'AI for the Planet' 행사서 10년간 위기 대응 성과 공개, 150여 개국 20억 명에 홍수 예보

엔비디아, 특화 AI '에이전트 툴킷' 공개...모델·도구·런타임 한데 묶었다...기업이 직접 다듬어 쓰는 오픈·모듈형 기반으로 안전·저비용 'AI 동료' 구축 겨냥, 생명과학·의료·보안 등 산업별 적용 확산

한국산업인력공단, OECD서 'AI 기반 직무능력표준 혁신' 사례 공유...GPT 활용한 'NCS 체크메이트'로 표준 형식 자동 점검...23일 OECD 국제 웨비나 패널 참여, 직업교육훈련에 AI 활용한 10개국 사례로 소개

보안 연구자 발소르다 "취약점 신고는 더 이상 특별하지 않다"...AI가 흔든 보안 제보의 위상...LLM이 누구나 비슷한 취약점을 찾아내며 '귀한 통찰·기밀 유지'라는 전제가 무너져, 분류·신속 패치·예방이 새 과제로

마이크로소프트, 타입스크립트 7.0 RC 공개...컴파일러 'Go'로 다시 짜 속도 10배 끌어올렸다

구글, 제미나이 통합 인터페이스 '인터랙션 API' 정식 출시...모델·에이전트 한 창구로 다룬다...자율 작업 수행 '관리형 에이전트'·백그라운드 실행 추가, 지난해 12월 베타 거쳐 기본 개발 도구로

교육부·평가원, 2025년 국가수준 학업성취도 평가 결과 6월 24일 발표...전반적 성취수준·학교생활은 지난해와 비슷, '중3 수학' 1수준 학생 비율은 전년보다 늘어

삼성전자, 업계 최고 성능 'UFS 5.0' 메모리 개발...온디바이스 AI 최적의 솔루션 제시...10.8GB/s 데이터 전송 대역폭으로 차세대 스마트폰 등 모바일 기기에 탑재 예정, AI 모델·데이터 빠르게 RAM에 전달

문체부, '케이-게임' IP 키운다...1,200억 원 게임 펀드 결성...넥슨 588억 원 참여, 문화계정 역대 최대 규모로 초기 개발부터 국제 지식재산 성장까지 뒷받침

엔비디아, 과학 연구 가속 AI 소프트웨어 공개...우주 관측 데이터 처리 최대 1만4900배 빨라져...현지시간 6월 22일 ISC 콘퍼런스서 '쿠다-X' 신규 라이브러리·서비스 발표, 화학·신소재부터 암흑물질 탐색까지 적용