한국정보기술진흥원한국인공지능올림피아드 (KOAI) 2026 개최안내

구글, 텍스트 4배 빠르게 짓는 실험 모델 '디퓨전젬마' 공개...토큰 하나씩 잇는 대신 256개 한꺼번에 생성, 26B MoE 구조로 소비자용 GPU서 구동

구글이 텍스트를 4배 빠르게 만드는 실험 모델을 내놨다.
[한국정보기술신문] 구글(Google)이 텍스트를 한 글자씩 차례로 만들지 않고 여러 글자를 한꺼번에 생성하는 새로운 방식의 인공지능(AI) 언어모델 '디퓨전젬마(DiffusionGemma)'를 공개했다. 구글은 6월 10일(현지시간) 공식 블로그를 통해 이 실험용 공개 모델을 소개하며, 전용 그래픽처리장치(GPU)에서 기존 방식보다 최대 4배 빠르게 텍스트를 만들어 낸다고 밝혔다. 이 모델은 누구나 무료로 쓰고 고칠 수 있는 아파치 2.0 라이선스로 배포된다.
디퓨전젬마는 구글의 공개 AI 모델 계열인 '젬마 4(Gemma 4)'와 확산 기반 연구인 '제미나이 디퓨전(Gemini Diffusion)' 연구를 바탕으로 만들어졌다. 구글에 따르면 이 모델은 빠른 생성 속도를 끌어내기 위한 새로운 '확산 헤드'를 갖췄으며, 인라인 편집이나 빠른 반복 작업처럼 속도가 중요한 대화형 작업을 탐구하는 연구자와 개발자를 위해 설계됐다. 다만 구글은 최고 수준의 품질이 필요한 작업에는 기존 젬마 4 모델을 쓰도록 권했다.
image.png
구글 제공

토큰 하나씩 잇는 '타자기'에서 한 번에 찍는 '인쇄기'로

대다수 언어모델은 글을 왼쪽에서 오른쪽으로 한 단어씩 이어 붙이는 방식으로 작동한다. 구글은 이를 글자를 하나씩 치는 타자기에 비유했다. 챗봇 등에 쓰이는 이런 모델을 '자기회귀(autoregressive) 모델'이라 부르며, 앞서 만든 단어를 보고 다음 단어를 예측하는 식으로 문장을 완성한다.
구글에 따르면 이 방식은 클라우드 서버에서는 효율적이다. 서버가 수천 명의 요청을 한데 묶어 처리하면서 하드웨어를 빈틈없이 쓸 수 있기 때문이다. 그러나 개인이 자신의 컴퓨터에서 혼자 쓸 때는 사정이 다르다. 한 단어씩 만드는 동안 GPU가 다음 입력을 기다리며 대부분의 시간을 놀게 돼, 비싼 장비의 성능을 제대로 활용하지 못한다는 것이다.
디퓨전젬마는 이 비효율을 뒤집는다. 단어를 차례로 예측하는 대신 256개의 토큰으로 이뤄진 문단 하나를 한꺼번에 그려 낸다. 토큰은 AI가 글을 다루는 최소 단위로, 단어나 단어 조각에 해당한다. 구글은 이를 글 전체를 한 번에 찍어 내는 인쇄기에 빗대며, 컴퓨터 처리장치에 더 큰 일감을 한꺼번에 맡겨 하드웨어를 최대한 활용한다고 설명했다.

그림 그리듯 '흐릿한 초안'을 다듬어 완성

디퓨전젬마의 핵심은 이름에 담긴 '확산(diffusion)' 기법이다. 확산은 본래 흐릿한 잡음에서 시작해 조금씩 다듬어 또렷한 그림을 만들어 내는 이미지 생성 AI의 방식으로, 디퓨전젬마는 이를 텍스트에 적용했다.
구글의 설명에 따르면 그 과정은 세 단계로 이뤄진다. 먼저 모델은 의미 없는 임시 토큰으로 채운 '빈 캔버스'에서 출발한다. 이어 여러 차례 검토를 반복하며 맞는 토큰을 확정하고, 그 토큰을 단서 삼아 나머지를 다듬는다. 마지막으로 이 글자들이 점점 맞아떨어지며 완성된 문장으로 수렴한다. 구글은 이 모델이 스스로 잘못을 바로잡는 능력도 갖춰, 글 전체를 한눈에 보며 오류를 실시간으로 고칠 수 있다고 덧붙였다.
이렇게 글 전체를 보면서 만드는 방식은 단어를 차례로 잇는 모델이 어려워하던 작업에서 강점을 보인다. 모든 토큰이 서로를 참고하는 '양방향 주의(attention)' 덕분이다. 구글은 코드의 빈 곳을 채워 넣거나, 복잡한 서식을 빠짐없이 닫거나, 순서가 정해지지 않은 글을 다루는 작업에 유리하다고 밝혔다. 글을 만드는 동안 문단 전체를 살필 수 있어, 복잡한 마크다운 서식을 완벽하게 닫거나 코드를 만들어 거의 실시간으로 화면에 띄우는 일도 가능하다는 것이 구글의 설명이다. 실제로 외부 개발사 언슬로스(Unsloth)는 디퓨전젬마를 추가 학습시켜 스도쿠 퍼즐을 풀게 했는데, 이는 각 숫자가 뒤에 올 숫자에 좌우돼 자기회귀 모델이 어려워하는 작업이라고 구글은 설명했다.

26B 모델이지만 38억 개만 작동...소비자용 GPU도 OK

디퓨전젬마는 260억 개(26B)의 매개변수를 가진 '전문가 혼합(MoE)' 모델이다. 전문가 혼합이란 여러 전문가 모듈을 두고 입력에 따라 필요한 일부만 골라 쓰는 구조를 말한다. 구글에 따르면 디퓨전젬마는 전체 260억 개 가운데 실제 작동 시에는 38억 개의 매개변수만 활성화한다. 매개변수는 모델이 학습으로 익힌 값으로, 모델의 크기와 성능을 가늠하는 기준이 된다.
이 덕분에 모델 크기를 줄이는 양자화를 거치면 고성능 소비자용 GPU의 18기가바이트(GB) 그래픽 메모리 안에서도 돌릴 수 있다고 구글은 밝혔다. 양자화란 모델이 쓰는 숫자의 정밀도를 낮춰 용량과 계산 부담을 줄이는 기법이다. 속도 면에서는 엔비디아(NVIDIA)의 고성능 가속기 H100에서는 초당 1,000개 이상, 소비자용 그래픽카드 지포스 RTX 5090에서는 초당 700개 이상의 토큰을 만들어 낸다고 구글은 설명했다.
구글은 엔비디아와 협력해 지포스 RTX 5090·4090 등 소비자용 장비부터 기업용 시스템까지 폭넓게 최적화했다고 밝혔다. 특히 4비트 부동소수점 방식인 'NVFP4'를 기본으로 지원해, 정확도를 거의 잃지 않으면서도 계산 처리량을 높여 더 빠르게 돌아가도록 했다고 설명했다. 4비트 부동소수점은 숫자를 더 적은 자릿수로 표현해 계산 부담을 줄이는 방식이다.
모델 가중치는 AI 모델 공유 사이트 허깅페이스(Hugging Face)에서 내려받을 수 있으며, 구글 클라우드의 모델 가든이나 엔비디아 NIM을 통해서도 쓸 수 있다. 구글은 또 개발자가 자신의 용도에 맞게 모델을 추가 학습시킬 수 있도록 'MLX', 'vLLM', '허깅페이스 트랜스포머스' 등 여러 도구에서 모델을 돌릴 수 있게 했으며, 빠른 실험을 위한 추가 학습 안내서도 함께 내놨다고 밝혔다. 널리 쓰이는 경량 실행 도구인 '라마(llama).cpp' 지원도 곧 추가될 예정이다.

속도 얻는 대신 품질·범용성은 양보

다만 디퓨전젬마는 속도를 위해 여러 가지를 양보한 실험적 모델이다. 구글은 속도와 병렬 생성에 무게를 둔 탓에 전체적인 출력 품질은 기존 젬마 4보다 낮다고 분명히 밝혔다. 또 이 속도 향상은 개인용·소규모 환경에 맞춰진 것으로, 수많은 요청이 한꺼번에 몰리는 클라우드 환경에서는 자기회귀 모델이 더 효율적이어서 오히려 비용이 더 들 수 있다고 설명했다.
하드웨어에 따른 차이도 있다. 구글은 이 속도 향상이 계산 능력을 집중적으로 쓰는 가속기의 특성에 기댄 것이어서, 애플 실리콘(Apple Silicon) 맥처럼 메모리 대역폭에 좌우되는 구조에서는 기존 모델만큼의 속도 향상을 보지 못할 수 있다고 덧붙였다. 결국 디퓨전젬마는 당장 모든 작업을 대체하는 모델이라기보다, 텍스트 생성의 새로운 접근법을 연구자와 개발자가 직접 시험해 보도록 개방한 실험 무대에 가깝다. 구글의 자체 발표 자료인 만큼 실제 성능과 활용 가치에 대한 외부의 독립적 평가는 앞으로 지켜볼 대목으로 남는다.
한국정보기술신문 인공지능분과 이세정 기자 news@kitpa.org

함께 읽으면 좋은 기사

[백준 서비스 종료 ⑫] 데이원컴퍼니, 같은 날 'BOJ 부활'과 '개인정보 유출' 동시에...코딩 테스트 명소 백준 온라인 저지 되살리며 보안 사고로 신뢰 시험대

[백준 서비스 종료 ⑫] 데이원컴퍼니, 같은 날 'BOJ 부활'과 '개인정보 유출' 동시에...코딩 테스트 명소 백준 온라인 저지 되살리며 보안 사고로 신뢰 시험대

정보기술 5
유니티 게임 끊김의 주범은 '가비지 컬렉션'...힙 할당 줄여야 프레임 멈춤 막는다

유니티 게임 끊김의 주범은 '가비지 컬렉션'...힙 할당 줄여야 프레임 멈춤 막는다

실감형콘텐츠 5
넥슨, '크레이지 아케이드' 8월 13일 서비스 종료...25년 만에 막 내려, 환불 신청은 9월 16일까지

넥슨, '크레이지 아케이드' 8월 13일 서비스 종료...25년 만에 막 내려, 환불 신청은 9월 16일까지

정보기술 · 실감형콘텐츠 2
구글, 텍스트 4배 빠르게 짓는 실험 모델 '디퓨전젬마' 공개...토큰 하나씩 잇는 대신 256개 한꺼번에 생성, 26B MoE 구조로 소비자용 GPU서 구동

구글, 텍스트 4배 빠르게 짓는 실험 모델 '디퓨전젬마' 공개...토큰 하나씩 잇는 대신 256개 한꺼번에 생성, 26B MoE 구조로 소비자용 GPU서 구동

인공지능 4
앤트로픽, 미토스급 모델에 30일 데이터 보관·검토 도입...6월 9일 시행, 오용 패턴 탐지 위한 안전 조치

앤트로픽, 미토스급 모델에 30일 데이터 보관·검토 도입...6월 9일 시행, 오용 패턴 탐지 위한 안전 조치

인공지능 3
구글, 학생·학부모 기말시험 대비 위한 'AI 학습 도구 5가지' 소개...자료 한데 모아 학습 가이드·맞춤 퀴즈 만들고 유튜브엔 사용시간 제한·자녀 보호 기능까지

구글, 학생·학부모 기말시험 대비 위한 'AI 학습 도구 5가지' 소개...자료 한데 모아 학습 가이드·맞춤 퀴즈 만들고 유튜브엔 사용시간 제한·자녀 보호 기능까지

교육 · 정보기술 · 인공지능 3
기후에너지환경부, 전기차 공공충전 봄철 주말 할인 실적 공개...17일간 7만9천여 건 충전·7천5백만 원 환원, 낮 시간대 이용 9.2% 늘어

기후에너지환경부, 전기차 공공충전 봄철 주말 할인 실적 공개...17일간 7만9천여 건 충전·7천5백만 원 환원, 낮 시간대 이용 9.2% 늘어

유관기관 2
설치 없이 브라우저로 돌리는 오픈소스 지리정보시스템 'GeoLibre' 공개...PC·웹·모바일서 같은 화면으로 위성·드론 지도 다루고 공간 SQL·파이썬 연동까지

설치 없이 브라우저로 돌리는 오픈소스 지리정보시스템 'GeoLibre' 공개...PC·웹·모바일서 같은 화면으로 위성·드론 지도 다루고 공간 SQL·파이썬 연동까지

정보기술 4
구글, 크롬 AI 비서 '제미나이' 신흥 시장으로 확대...중남미·아프리카·중동 등 데스크톱·iOS 이용자에 적용, 이미지 변환·맞춤형 답변 기능도 추가

구글, 크롬 AI 비서 '제미나이' 신흥 시장으로 확대...중남미·아프리카·중동 등 데스크톱·iOS 이용자에 적용, 이미지 변환·맞춤형 답변 기능도 추가

인공지능 · 정보기술 2
일부 참여자만 '적대적 훈련'해도 AI 방어력 오른다...공주대·조선대 연구팀, 연합학습 강건성 실험 결과 공개

일부 참여자만 '적대적 훈련'해도 AI 방어력 오른다...공주대·조선대 연구팀, 연합학습 강건성 실험 결과 공개

인공지능 · 정보보안 4
컴퓨터 비전 라이브러리 'OpenCV 5' 정식 출시...DNN 엔진 새로 짜 ONNX 80% 넘기고 LLM·VLM까지 직접 구동

컴퓨터 비전 라이브러리 'OpenCV 5' 정식 출시...DNN 엔진 새로 짜 ONNX 80% 넘기고 LLM·VLM까지 직접 구동

인공지능 · 정보기술 4
신경망을 반도체 회로로 직접 새긴다...FPGA에 'KAN' 올려 나노초급 추론·실시간 학습 구현...연구진 "기존 KAN-FPGA보다 2700배 빨라"

신경망을 반도체 회로로 직접 새긴다...FPGA에 'KAN' 올려 나노초급 추론·실시간 학습 구현...연구진 "기존 KAN-FPGA보다 2700배 빨라"

인공지능 · 정보통신 4