인공지능

구글, MaxText에 단일 TPU 기반 AI 훈련 기능 추가...감독학습·강화학습 지원으로 모델 미세조정 접근성 확대

2026년 4월 18일

1

thumbnail.webp
단일 호스트 TPU v5p-8, v6e-8에서 고급 AI 모델 훈련 가능
[한국정보기술신문] 구글이 자사 AI 훈련 프레임워크 MaxText에 감독형 미세조정과 강화학습 기능을 단일 호스트 TPU에서 지원한다고 발표했다. 이로써 개발자들은 대규모 클러스터 없이도 고급 AI 모델 훈련이 가능해졌다.

단일 TPU로 고급 훈련 가능

이번 업데이트는 TPU v5p-8과 v6e-8 등 단일 호스트 TPU에서 감독형 미세조정과 강화학습을 지원한다. 기존에는 대규모 멀티호스트 환경이 필요했던 고급 AI 모델 훈련이 단일 장비에서도 가능해진 것이다.
구글은 향후 멀티호스트 확장도 계획하고 있어 규모 확대 경로도 제시했다. 이를 통해 개발자들은 프로토타이핑부터 대규모 배포까지 일관된 환경에서 작업할 수 있다.

감독형 미세조정 기능 강화

새로 추가된 감독형 미세조정 기능은 사전학습된 모델을 특정 작업에 맞게 조정하는 방식이다. Hugging Face 데이터셋을 네이티브로 지원해 개발자들이 다양한 오픈소스 데이터를 쉽게 활용할 수 있다.
특히 Gemma 3 등 오픈소스 모델을 직접 변환해 사용할 수 있어 편의성이 크게 향상됐다. JAX 기반 Tunix 라이브러리로 최적화된 실행 성능을 제공해 효율적인 훈련이 가능하다.

혁신적 강화학습 알고리즘 도입

MaxText는 두 가지 새로운 강화학습 알고리즘을 도입했다. GRPO는 별도 가치함수 모델이 필요 없는 Group Relative Policy Optimization이다. 프롬프트당 다중 응답 생성으로 메모리 효율성을 극대화했다.
GSPO는 Group Sequence Policy Optimization으로 시퀀스 수준의 정책 최적화를 제공한다. 특히 GSM8K 같은 수학 문제 해결 벤치마크에서 성능 향상을 보였다고 구글은 설명했다.

개발자 접근성 크게 개선

이번 업데이트의 가장 큰 의미는 AI 모델 미세조정의 진입장벽이 낮아진 것이다. 기존에는 대규모 하드웨어 인프라가 필요했던 고급 훈련 기법을 단일 TPU로 수행할 수 있게 됐다.
중소 규모 연구팀이나 개발자 개인도 최신 AI 훈련 기법을 실험하고 활용할 수 있는 환경이 마련됐다. 이는 AI 기술 민주화와 혁신 가속화에 기여할 것으로 예상된다.

오픈소스 생태계 확산 기대

MaxText가 오픈소스 모델들과의 호환성을 강화한 것도 주목할 점이다. Hugging Face와의 긴밀한 통합으로 기존 오픈소스 AI 생태계와의 연결성이 향상됐다.
개발자들은 이제 다양한 오픈소스 모델을 MaxText 환경에서 쉽게 미세조정할 수 있다. 이는 오픈소스 AI 모델의 실용성을 높이고 활용 범위를 확대하는 효과를 가져올 것으로 기대된다.
한국정보기술신문 인공지능분과 김주호 기자 news@kitpa.org