구글, 텍스트 4배 빠르게 짓는 실험 모델 '디퓨전젬마' 공개...토큰 하나씩 잇는 대신 256개 한꺼번에 생성, 26B MoE 구조로 소비자용 GPU서 구동
구글이 텍스트를 4배 빠르게 만드는 실험 모델을 내놨다.
[한국정보기술신문] 구글(Google)이 텍스트를 한 글자씩 차례로 만들지 않고 여러 글자를 한꺼번에 생성하는 새로운 방식의 인공지능(AI) 언어모델 '디퓨전젬마(DiffusionGemma)'를 공개했다. 구글은 6월 10일(현지시간) 공식 블로그를 통해 이 실험용 공개 모델을 소개하며, 전용 그래픽처리장치(GPU)에서 기존 방식보다 최대 4배 빠르게 텍스트를 만들어 낸다고 밝혔다. 이 모델은 누구나 무료로 쓰고 고칠 수 있는 아파치 2.0 라이선스로 배포된다.
디퓨전젬마는 구글의 공개 AI 모델 계열인 '젬마 4(Gemma 4)'와 확산 기반 연구인 '제미나이 디퓨전(Gemini Diffusion)' 연구를 바탕으로 만들어졌다. 구글에 따르면 이 모델은 빠른 생성 속도를 끌어내기 위한 새로운 '확산 헤드'를 갖췄으며, 인라인 편집이나 빠른 반복 작업처럼 속도가 중요한 대화형 작업을 탐구하는 연구자와 개발자를 위해 설계됐다. 다만 구글은 최고 수준의 품질이 필요한 작업에는 기존 젬마 4 모델을 쓰도록 권했다.

토큰 하나씩 잇는 '타자기'에서 한 번에 찍는 '인쇄기'로
대다수 언어모델은 글을 왼쪽에서 오른쪽으로 한 단어씩 이어 붙이는 방식으로 작동한다. 구글은 이를 글자를 하나씩 치는 타자기에 비유했다. 챗봇 등에 쓰이는 이런 모델을 '자기회귀(autoregressive) 모델'이라 부르며, 앞서 만든 단어를 보고 다음 단어를 예측하는 식으로 문장을 완성한다.
구글에 따르면 이 방식은 클라우드 서버에서는 효율적이다. 서버가 수천 명의 요청을 한데 묶어 처리하면서 하드웨어를 빈틈없이 쓸 수 있기 때문이다. 그러나 개인이 자신의 컴퓨터에서 혼자 쓸 때는 사정이 다르다. 한 단어씩 만드는 동안 GPU가 다음 입력을 기다리며 대부분의 시간을 놀게 돼, 비싼 장비의 성능을 제대로 활용하지 못한다는 것이다.
디퓨전젬마는 이 비효율을 뒤집는다. 단어를 차례로 예측하는 대신 256개의 토큰으로 이뤄진 문단 하나를 한꺼번에 그려 낸다. 토큰은 AI가 글을 다루는 최소 단위로, 단어나 단어 조각에 해당한다. 구글은 이를 글 전체를 한 번에 찍어 내는 인쇄기에 빗대며, 컴퓨터 처리장치에 더 큰 일감을 한꺼번에 맡겨 하드웨어를 최대한 활용한다고 설명했다.
그림 그리듯 '흐릿한 초안'을 다듬어 완성
디퓨전젬마의 핵심은 이름에 담긴 '확산(diffusion)' 기법이다. 확산은 본래 흐릿한 잡음에서 시작해 조금씩 다듬어 또렷한 그림을 만들어 내는 이미지 생성 AI의 방식으로, 디퓨전젬마는 이를 텍스트에 적용했다.
구글의 설명에 따르면 그 과정은 세 단계로 이뤄진다. 먼저 모델은 의미 없는 임시 토큰으로 채운 '빈 캔버스'에서 출발한다. 이어 여러 차례 검토를 반복하며 맞는 토큰을 확정하고, 그 토큰을 단서 삼아 나머지를 다듬는다. 마지막으로 이 글자들이 점점 맞아떨어지며 완성된 문장으로 수렴한다. 구글은 이 모델이 스스로 잘못을 바로잡는 능력도 갖춰, 글 전체를 한눈에 보며 오류를 실시간으로 고칠 수 있다고 덧붙였다.
이렇게 글 전체를 보면서 만드는 방식은 단어를 차례로 잇는 모델이 어려워하던 작업에서 강점을 보인다. 모든 토큰이 서로를 참고하는 '양방향 주의(attention)' 덕분이다. 구글은 코드의 빈 곳을 채워 넣거나, 복잡한 서식을 빠짐없이 닫거나, 순서가 정해지지 않은 글을 다루는 작업에 유리하다고 밝혔다. 글을 만드는 동안 문단 전체를 살필 수 있어, 복잡한 마크다운 서식을 완벽하게 닫거나 코드를 만들어 거의 실시간으로 화면에 띄우는 일도 가능하다는 것이 구글의 설명이다. 실제로 외부 개발사 언슬로스(Unsloth)는 디퓨전젬마를 추가 학습시켜 스도쿠 퍼즐을 풀게 했는데, 이는 각 숫자가 뒤에 올 숫자에 좌우돼 자기회귀 모델이 어려워하는 작업이라고 구글은 설명했다.
26B 모델이지만 38억 개만 작동...소비자용 GPU도 OK
디퓨전젬마는 260억 개(26B)의 매개변수를 가진 '전문가 혼합(MoE)' 모델이다. 전문가 혼합이란 여러 전문가 모듈을 두고 입력에 따라 필요한 일부만 골라 쓰는 구조를 말한다. 구글에 따르면 디퓨전젬마는 전체 260억 개 가운데 실제 작동 시에는 38억 개의 매개변수만 활성화한다. 매개변수는 모델이 학습으로 익힌 값으로, 모델의 크기와 성능을 가늠하는 기준이 된다.
이 덕분에 모델 크기를 줄이는 양자화를 거치면 고성능 소비자용 GPU의 18기가바이트(GB) 그래픽 메모리 안에서도 돌릴 수 있다고 구글은 밝혔다. 양자화란 모델이 쓰는 숫자의 정밀도를 낮춰 용량과 계산 부담을 줄이는 기법이다. 속도 면에서는 엔비디아(NVIDIA)의 고성능 가속기 H100에서는 초당 1,000개 이상, 소비자용 그래픽카드 지포스 RTX 5090에서는 초당 700개 이상의 토큰을 만들어 낸다고 구글은 설명했다.
구글은 엔비디아와 협력해 지포스 RTX 5090·4090 등 소비자용 장비부터 기업용 시스템까지 폭넓게 최적화했다고 밝혔다. 특히 4비트 부동소수점 방식인 'NVFP4'를 기본으로 지원해, 정확도를 거의 잃지 않으면서도 계산 처리량을 높여 더 빠르게 돌아가도록 했다고 설명했다. 4비트 부동소수점은 숫자를 더 적은 자릿수로 표현해 계산 부담을 줄이는 방식이다.
모델 가중치는 AI 모델 공유 사이트 허깅페이스(Hugging Face)에서 내려받을 수 있으며, 구글 클라우드의 모델 가든이나 엔비디아 NIM을 통해서도 쓸 수 있다. 구글은 또 개발자가 자신의 용도에 맞게 모델을 추가 학습시킬 수 있도록 'MLX', 'vLLM', '허깅페이스 트랜스포머스' 등 여러 도구에서 모델을 돌릴 수 있게 했으며, 빠른 실험을 위한 추가 학습 안내서도 함께 내놨다고 밝혔다. 널리 쓰이는 경량 실행 도구인 '라마(llama).cpp' 지원도 곧 추가될 예정이다.
속도 얻는 대신 품질·범용성은 양보
다만 디퓨전젬마는 속도를 위해 여러 가지를 양보한 실험적 모델이다. 구글은 속도와 병렬 생성에 무게를 둔 탓에 전체적인 출력 품질은 기존 젬마 4보다 낮다고 분명히 밝혔다. 또 이 속도 향상은 개인용·소규모 환경에 맞춰진 것으로, 수많은 요청이 한꺼번에 몰리는 클라우드 환경에서는 자기회귀 모델이 더 효율적이어서 오히려 비용이 더 들 수 있다고 설명했다.
하드웨어에 따른 차이도 있다. 구글은 이 속도 향상이 계산 능력을 집중적으로 쓰는 가속기의 특성에 기댄 것이어서, 애플 실리콘(Apple Silicon) 맥처럼 메모리 대역폭에 좌우되는 구조에서는 기존 모델만큼의 속도 향상을 보지 못할 수 있다고 덧붙였다. 결국 디퓨전젬마는 당장 모든 작업을 대체하는 모델이라기보다, 텍스트 생성의 새로운 접근법을 연구자와 개발자가 직접 시험해 보도록 개방한 실험 무대에 가깝다. 구글의 자체 발표 자료인 만큼 실제 성능과 활용 가치에 대한 외부의 독립적 평가는 앞으로 지켜볼 대목으로 남는다.
한국정보기술신문 인공지능분과 이세정 기자 news@kitpa.org
![[백준 서비스 종료 ⑫] 데이원컴퍼니, 같은 날 'BOJ 부활'과 '개인정보 유출' 동시에...코딩 테스트 명소 백준 온라인 저지 되살리며 보안 사고로 신뢰 시험대](/_next/image?url=https%3A%2F%2Fkitpa.org%2Fstorage%2F102aa3a4-5f5e-46cf-a247-43636a0c3ec9.png%23w%3D667%26h%3D282&w=750&q=75)










