구글, 노트북서 구동되는 멀티모달 AI '젬마 4 12B' 공개...인코더 없는 통합 구조로 음성·이미지 직접 처리

발행: 2026년 6월 4일

구글이 16GB 메모리로 작동하는 멀티모달 AI '젬마 4 12B'를 공개했다.

[한국정보기술신문] 구글이 노트북 등 일반 소비자용 기기에서 직접 구동할 수 있는 멀티모달 인공지능(AI) 모델 '젬마 4 12B(Gemma 4 12B)'를 지난 3일(현지시간) 공개했다. 이 모델은 별도의 인코더 없이 음성과 이미지를 직접 처리하는 통합 구조를 채택해, 적은 메모리만으로도 고성능 추론을 수행할 수 있는 것이 특징이다.

젬마 4 12B는 구글 딥마인드가 개발한 오픈소스 모델로, 기존 경량 모델인 E4B와 고성능 모델인 26B 전문가 혼합(MoE) 모델 사이의 공백을 메우기 위해 설계됐다. 구글은 이 모델이 강력한 성능을 갖추면서도 메모리 사용량을 줄였으며, 중간 규모 모델 중 처음으로 음성 입력을 자체적으로 지원한다고 설명했다.

올리비에 라콩브 구글 딥마인드 제품 관리 담당 디렉터와 구스 마르틴스 제품 관리자는 블로그를 통해 "젬마 4 12B는 모바일 환경에 최적화된 효율성과 고급 추론 능력을 결합해 고성능 멀티모달 지능을 노트북에 직접 구현하도록 설계됐다"고 밝혔다.

Hero_Visual_G4_12B_1.width-1200.format-webp.webp — 구글 제공

인코더 없앤 통합 구조로 메모리 부담 줄여

젬마 4 12B의 가장 큰 특징은 시각·음성 정보를 처리하는 방식이다. 기존 멀티모달 모델은 이미지와 음성을 언어 모델에 전달하기 전에 이를 변환하는 별도의 인코더를 사용해 왔다. 그러나 이 같은 인코더는 지연 시간을 늘리고 메모리 사용량을 증가시키는 단점이 있다.

구글은 이러한 문제를 해결하기 위해 젬마 4 12B를 인코더가 없는 구조로 학습시켰다. 시각 정보 처리의 경우 기존 시각 인코더를 단일 행렬 곱셈과 위치 임베딩, 정규화로 구성된 가벼운 임베딩 모듈로 대체했다. 음성 처리는 더 단순화해 인코더를 완전히 제거하고, 음성 신호를 텍스트 토큰과 동일한 차원의 공간으로 직접 변환하도록 했다.

이를 통해 시각·음성 입력이 언어 모델의 중심부로 곧바로 흘러 들어가는 구조가 완성됐다. 구글은 이러한 설계가 일상적인 하드웨어에서도 속도나 추론 능력을 떨어뜨리지 않으면서 고급 멀티모달 기능을 제공한다고 강조했다.

26B 모델 근접 성능...16GB 메모리로 로컬 구동

성능 면에서 젬마 4 12B는 표준 벤치마크 기준으로 더 큰 26B MoE 모델에 근접한 성능을 보이면서도, 전체 메모리 사용량은 절반 이하에 그친다. 16기가바이트(GB)의 램(RAM)이나 통합 메모리만 갖춘 소비자용 노트북에서도 로컬로 구동할 수 있어, 사용자의 기기에서 직접 멀티모달 및 에이전트 기능을 활용할 수 있다.

별도의 서버나 클라우드에 연결하지 않고 기기 자체에서 AI를 실행하는 이른바 '온디바이스 AI'는 응답 속도가 빠르고 데이터가 외부로 전송되지 않아 보안과 개인정보 보호 측면에서 유리하다는 평가를 받는다. 젬마 4 12B는 이러한 흐름에 맞춰 고성능 모델을 개인 기기 수준으로 끌어내린 사례로 볼 수 있다.

또한 젬마 4 12B는 지연 시간을 줄이기 위한 다중 토큰 예측(MTP) 드래프터를 기본 탑재했다. 모델은 아파치 2.0 라이선스로 공개돼 개발자들이 자유롭게 내려받아 활용하고 미세 조정할 수 있다.

젬마 4 다운로드 1억5천만 건 돌파

구글에 따르면 젬마 4 모델은 현재까지 누적 다운로드 1억5천만 건을 넘어섰다. 개발자 커뮤니티는 이 모델을 활용해 신체 보조용 웨어러블 로봇 팔부터 기업용 AI 보안 솔루션까지 다양한 결과물을 만들어 왔다.

젬마 4 12B는 LM 스튜디오와 올라마(Ollama), 구글 AI 엣지 갤러리 앱 등에서 곧바로 체험할 수 있다. 사전 학습 및 명령어 튜닝 모델의 가중치는 허깅페이스와 캐글에서 내려받을 수 있으며, 허깅페이스 트랜스포머스와 llama.cpp, vLLM 등 주요 개발 도구와도 연동된다. 운영 환경에서는 구글 클라우드의 모델 가든과 클라우드 런, 구글 쿠버네티스 엔진(GKE)을 통해 배포할 수 있다.

구글은 에이전트 개발을 지원하기 위해 젬마 모델용 공식 '스킬 저장소(Skills Repository)'도 함께 공개했다. 이는 AI 에이전트가 젬마 모델을 기반으로 다양한 작업을 수행할 수 있도록 돕는 기능 모음이다.

한국정보기술신문 인공지능분과 박연호 기자 news@kitpa.org

구글, 노트북서 구동되는 멀티모달 AI '젬마 4 12B' 공개...인코더 없는 통합 구조로 음성·이미지 직접 처리

인코더 없앤 통합 구조로 메모리 부담 줄여

26B 모델 근접 성능...16GB 메모리로 로컬 구동

젬마 4 다운로드 1억5천만 건 돌파

함께 읽으면 좋은 기사

정부, '전력감독원' 신설 추진...22일 국회서 전력 거버넌스 혁신 토론회...하반기 '전기사업법' 개정 앞두고 국회·전문가 공감대 형성, '전기국가' 도약 뒷받침

오픈 AI 모델, '최고 성능' 넘본다...美 리서치사 "앤트로픽 사업모델 흔들릴 수 있어"...무료 공개 '키미 K3'·'큐원 3.8'이 최전선 위협, 데이터센터·전력 안 가진 모델 중심 기업의 수익구조 취약성 지적

엔비디아 '베라 루빈' AI 시스템, 전 세계로 확산...전력당 성능·토큰당 비용 앞세워 대형 클라우드에 도입...코어위브·구글 클라우드·MS·오라클서 가동, 30개국 350여 공장서 생산 이어져

샤오미, 로봇 기초모델 '샤오미-로보틱스-1' 공개...10만 시간 실제 조작 데이터로 학습...로봇 없이 모은 데이터로 사전학습해 '데이터 장벽' 넘어

구글, 이모지 약 4,000개 '3D'로 통째 재설계...세계 이모지의 날 맞아 'Noto 3D' 공개...표현력·접근성 높이고 다크모드용 고대비 옵션 더해, 3D 모델은 오픈소스로 개방

세계유산 안동 하회마을 침수 위험, 실시간으로 감시한다...국가유산청·국립재난안전연구원, 문화유산에 첫 침수계측장비 시범 설치...계측 데이터를 침수모니터링시스템 'RAINSYS'와 실시간 연동해 상시 예측

미국 제약사 BMS, 세계 최강 '생명과학 AI 공장' 짓는다...엔비디아 '베라 루빈'으로 신약 개발 가속...모든 연구원에게 슈퍼컴 개방, 표적 발굴·분자 설계에 AI 전면 도입

한-아세안, 'AI 교통' 미래 함께 그린다...22일 서울서 제16차 교통협력포럼 개막...동티모르 첫 참여 등 아세안 11개 회원국 고위급 참석, 자율주행 실증·AI 교통신호 등 한국 미래 교통정책 사례 공유

MPEG-4 비주얼 마지막 특허 만료...30년 만에 전 세계서 완전 무료화...브라질에 홀로 남아 있던 특허 7월 19일 소멸, DivX·Xvid 등 영상 코덱 자유롭게 쓸 수 있어

삼성전자, '삼성 계정' 하나로 기기·서비스 잇는다...월렛·파인드·스마트싱스 아우르고 '가족 단위' 경험으로 확대

구글, "제미나이로 부업 창업하세요"...AI 하나로 사업계획부터 가격 책정까지...사업 구상·시장 조사·브랜드 디자인·업무 자동화·가격 설계 등 다섯 가지 활용법 제시, 24시간 일하는 AI 대리인 '스파크'도 소개