구글 Gemma 4 다중 토큰 예측 공개...추론 속도 3배 향상...스펙큘레이티브 디코딩으로 지연시간 단축
2026년 5월 6일
1분
구글이 Gemma 4 모델의 다중 토큰 예측 기능을 공개했으며, 출력 품질을 유지하면서 추론 속도를 3배 향상시켰다.
[한국정보기술신문] 구글이 'Gemma 4' AI 모델에 다중 토큰 예측 드래프터를 추가했다. 이 기능은 출력 품질을 유지하면서 추론 속도를 3배까지 빠르게 한다. 스펙큘레이티브 디코딩 기술을 활용한 이번 업그레이드는 개발자들의 애플리케이션 성능을 크게 개선할 것으로 기대된다.

다중 토큰 예측의 작동 원리
다중 토큰 예측은 대규모 기본 모델과 경량 드래프터 모델을 함께 운영한다. 기존 방식은 한 번에 한 개의 토큰만 생성했지만, 새 방식은 드래프터가 여러 미래 토큰을 동시에 예측한다. 기본 모델은 이 예측된 토큰들을 병렬로 검증한다.
기본 모델이 드래프터의 예측을 승인하면 전체 시퀀스가 한 번의 포워드 패스로 처리된다. 이 과정에서 추가 토큰도 생성할 수 있다. 이러한 효율적인 처리로 지연시간이 크게 줄어든다.
실제 응용 분야 확대
이 기술은 실시간 채팅과 음성 애플리케이션의 반응성을 향상시킨다. 개인용 컴퓨터와 소비자급 GPU에서 빠른 처리가 가능해진다. 엣지 기기에서도 배터리 소비를 늘리지 않으면서도 가속화된 추론이 가능하다.
개방형 라이선스로 배포
구글은 다중 토큰 예측 드래프터를 Apache 2.0 라이선스로 공개했다. Hugging Face, Kaggle, MLX, vLLM, SGLang, Ollama 등 주요 프레임워크에서 접근할 수 있다. 개발자들은 이 도구를 자유롭게 활용해 자신의 애플리케이션에 통합할 수 있다.
생성된 결과의 품질은 기본 모델이 최종 검증하므로 기존 방식과 동일하게 유지된다. 더 나은 모델이 나올수록 성능 개선 효과는 더욱 커질 것으로 예상된다.
한국정보기술신문 인공지능분과 김주호 기자 news@kitpa.org



