한국정보기술진흥원한국인공지능올림피아드 (KOAI) 2026 개최안내

구글, 합성데이터 생성 프레임워크 'Simula' 공개...기계설계 원리 기반 AI 데이터셋 생성 방법론 제시

thumbnail.webp
기존 수작업 대비 비용 효율성과 정확성 크게 개선한 혁신 기술
[한국정보기술신문] 구글 리서치가 AI 모델 훈련용 합성데이터 생성 혁신 프레임워크 'Simula'를 공개했다. 기계설계 원리를 바탕으로 한 이 기술은 기존 수작업 데이터 생성의 한계를 극복할 대안으로 주목받고 있다.

기존 데이터 생성의 3대 한계 극복

팀 데이비슨 구글 학생연구원과 함자 하르쿠스 시니어 스태프 연구과학자가 주도한 연구팀은 기존 데이터셋 생성의 핵심 문제점을 분석했다. 전문화된 데이터셋의 수작업 생성이 금전적으로 비효율적이며 시간 소모가 크고 오류 발생률이 높다는 점을 지적했다.
또한 정적인 실제 데이터의 운영 경직성과 안전성 관련 사후 대응의 위험성도 핵심 해결 과제로 제시했다. Simula는 이러한 문제들을 체계적으로 해결하는 새로운 접근법을 제안한다.

4단계 체계적 생성 프로세스

Simula 프레임워크는 합성데이터 생성을 4단계로 체계화했다. 첫 번째는 계층적 분류법을 통한 전역 다양성 확보다. 개념 영역을 매핑해 포괄적인 데이터 범위를 보장한다.
두 번째는 국소 다양성 구현이다. 동일 시나리오에서 다양한 표현을 생성해 모델 학습의 견고성을 높인다. 세 번째는 복잡도 조정 기능으로, 난이도를 독립적으로 제어할 수 있다.
네 번째는 이중 검증 루프를 통한 품질 검증이다. 생성된 데이터의 정확성과 일관성을 보장하는 핵심 단계다.

혁신적 평가 방식 도입

기존 메트릭의 한계를 인식한 연구팀은 새로운 평가 지표를 개발했다. 분류학적 커버리지와 캘리브레이션된 복잡도 점수라는 추론 기반 지표를 도입해 데이터 품질을 정량적으로 측정한다.
이 평가 방식은 단순한 수치적 정확도를 넘어 데이터의 실용성과 다양성을 종합적으로 평가한다. 연구팀은 이를 통해 보다 과학적이고 신뢰할 수 있는 데이터 생성이 가능하다고 설명했다.

5개 분야 실험서 우수성 입증

사이버보안, 법률 추론, 수학, 다국어 지식 등 5개 분야에서 실시한 실험 결과 Simula의 우수성이 입증됐다. 완전한 Simula 시스템이 모든 도메인에서 단순 기준선을 능가했다.
특히 맥락의 중요성이 확인됐다. 수학 추론에서는 높은 복잡도가 10% 정확도 향상을 가져왔으나, 법률 추론에서는 오히려 성능 저하가 나타났다. 이는 각 분야별 최적화 전략이 필요함을 시사한다.
연구팀은 데이터 품질이 수량보다 중요하다는 결론도 도출했다. 적은 양이라도 높은 품질의 합성데이터가 더 효과적이라는 점을 확인했다.

구글 내부 광범위 활용

Simula는 이미 구글 내부에서 실전 활용되고 있다. ShieldGemma, FunctionGemma, MedGemma 등 특화 모델 개발에 핵심 기술로 사용된다.
Android 통화 사기 탐지와 Gmail 스팸 필터링에도 적용돼 실용성을 검증받았다. 특히 기업 보안 분야에서 현실적인 공격 시나리오 생성에 활용돼 보안 시스템 강화에 기여하고 있다.

AI 발전의 핵심 역할 전망

연구팀은 합성데이터가 차세대 AI 발전의 핵심 역할을 할 것이라고 전망했다. 다만 엄밀한 방식으로만 그 가능성이 실현될 수 있다고 강조했다.
Simula 프레임워크는 데이터 생성을 과학적으로 제어 가능한 과정으로 변화시키는 청사진을 제시한다. 이는 AI 모델의 성능과 안전성을 동시에 확보할 수 있는 새로운 길을 열었다는 평가다.
한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org

함께 읽으면 좋은 기사

미 정부, 앤트로픽 '미토스 5' 재배포 일부 허용...핵심 인프라 100여 곳에만 다시 연다...수출통제 2주 만에 부분 완화, 페이블 5는 결정문서 빠져 일반 공개 복귀 협의 중

미 정부, 앤트로픽 '미토스 5' 재배포 일부 허용...핵심 인프라 100여 곳에만 다시 연다...수출통제 2주 만에 부분 완화, 페이블 5는 결정문서 빠져 일반 공개 복귀 협의 중

인공지능 4
오픈AI, 차세대 모델 'GPT-5.6 솔' 프리뷰 공개...코딩·과학·보안 끌어올렸다...플래그십 솔·균형형 테라·경량 루나 3종 선보이며 역대 최강 안전장치 적용, 미국 정부와 조율해 신뢰 파트너에 우선 제공

오픈AI, 차세대 모델 'GPT-5.6 솔' 프리뷰 공개...코딩·과학·보안 끌어올렸다...플래그십 솔·균형형 테라·경량 루나 3종 선보이며 역대 최강 안전장치 적용, 미국 정부와 조율해 신뢰 파트너에 우선 제공

인공지능 4
구글 "AI로 자연재해 미리 알린다"...홍수·산불·지진 예측 한자리에...현지시간 6월 23일 'AI for the Planet' 행사서 10년간 위기 대응 성과 공개, 150여 개국 20억 명에 홍수 예보

구글 "AI로 자연재해 미리 알린다"...홍수·산불·지진 예측 한자리에...현지시간 6월 23일 'AI for the Planet' 행사서 10년간 위기 대응 성과 공개, 150여 개국 20억 명에 홍수 예보

인공지능 · 정보기술 4
엔비디아, 특화 AI '에이전트 툴킷' 공개...모델·도구·런타임 한데 묶었다...기업이 직접 다듬어 쓰는 오픈·모듈형 기반으로 안전·저비용 'AI 동료' 구축 겨냥, 생명과학·의료·보안 등 산업별 적용 확산

엔비디아, 특화 AI '에이전트 툴킷' 공개...모델·도구·런타임 한데 묶었다...기업이 직접 다듬어 쓰는 오픈·모듈형 기반으로 안전·저비용 'AI 동료' 구축 겨냥, 생명과학·의료·보안 등 산업별 적용 확산

인공지능 4
한국산업인력공단, OECD서 'AI 기반 직무능력표준 혁신' 사례 공유...GPT 활용한 'NCS 체크메이트'로 표준 형식 자동 점검...23일 OECD 국제 웨비나 패널 참여, 직업교육훈련에 AI 활용한 10개국 사례로 소개

한국산업인력공단, OECD서 'AI 기반 직무능력표준 혁신' 사례 공유...GPT 활용한 'NCS 체크메이트'로 표준 형식 자동 점검...23일 OECD 국제 웨비나 패널 참여, 직업교육훈련에 AI 활용한 10개국 사례로 소개

인공지능 · 유관기관 2
보안 연구자 발소르다 "취약점 신고는 더 이상 특별하지 않다"...AI가 흔든 보안 제보의 위상...LLM이 누구나 비슷한 취약점을 찾아내며 '귀한 통찰·기밀 유지'라는 전제가 무너져, 분류·신속 패치·예방이 새 과제로

보안 연구자 발소르다 "취약점 신고는 더 이상 특별하지 않다"...AI가 흔든 보안 제보의 위상...LLM이 누구나 비슷한 취약점을 찾아내며 '귀한 통찰·기밀 유지'라는 전제가 무너져, 분류·신속 패치·예방이 새 과제로

정보보안 3
마이크로소프트, 타입스크립트 7.0 RC 공개...컴파일러 'Go'로 다시 짜 속도 10배 끌어올렸다

마이크로소프트, 타입스크립트 7.0 RC 공개...컴파일러 'Go'로 다시 짜 속도 10배 끌어올렸다

정보기술 4
구글, 제미나이 통합 인터페이스 '인터랙션 API' 정식 출시...모델·에이전트 한 창구로 다룬다...자율 작업 수행 '관리형 에이전트'·백그라운드 실행 추가, 지난해 12월 베타 거쳐 기본 개발 도구로

구글, 제미나이 통합 인터페이스 '인터랙션 API' 정식 출시...모델·에이전트 한 창구로 다룬다...자율 작업 수행 '관리형 에이전트'·백그라운드 실행 추가, 지난해 12월 베타 거쳐 기본 개발 도구로

인공지능 · 정보기술 4
교육부·평가원, 2025년 국가수준 학업성취도 평가 결과 6월 24일 발표...전반적 성취수준·학교생활은 지난해와 비슷, '중3 수학' 1수준 학생 비율은 전년보다 늘어

교육부·평가원, 2025년 국가수준 학업성취도 평가 결과 6월 24일 발표...전반적 성취수준·학교생활은 지난해와 비슷, '중3 수학' 1수준 학생 비율은 전년보다 늘어

교육 4
삼성전자, 업계 최고 성능 'UFS 5.0' 메모리 개발...온디바이스 AI 최적의 솔루션 제시...10.8GB/s 데이터 전송 대역폭으로 차세대 스마트폰 등 모바일 기기에 탑재 예정, AI 모델·데이터 빠르게 RAM에 전달

삼성전자, 업계 최고 성능 'UFS 5.0' 메모리 개발...온디바이스 AI 최적의 솔루션 제시...10.8GB/s 데이터 전송 대역폭으로 차세대 스마트폰 등 모바일 기기에 탑재 예정, AI 모델·데이터 빠르게 RAM에 전달

반도체 · 인공지능 4
문체부, '케이-게임' IP 키운다...1,200억 원 게임 펀드 결성...넥슨 588억 원 참여, 문화계정 역대 최대 규모로 초기 개발부터 국제 지식재산 성장까지 뒷받침

문체부, '케이-게임' IP 키운다...1,200억 원 게임 펀드 결성...넥슨 588억 원 참여, 문화계정 역대 최대 규모로 초기 개발부터 국제 지식재산 성장까지 뒷받침

유관기관 · 실감형콘텐츠 4
엔비디아, 과학 연구 가속 AI 소프트웨어 공개...우주 관측 데이터 처리 최대 1만4900배 빨라져...현지시간 6월 22일 ISC 콘퍼런스서 '쿠다-X' 신규 라이브러리·서비스 발표, 화학·신소재부터 암흑물질 탐색까지 적용

엔비디아, 과학 연구 가속 AI 소프트웨어 공개...우주 관측 데이터 처리 최대 1만4900배 빨라져...현지시간 6월 22일 ISC 콘퍼런스서 '쿠다-X' 신규 라이브러리·서비스 발표, 화학·신소재부터 암흑물질 탐색까지 적용

인공지능 4