한국정보기술진흥원한국인공지능올림피아드 (KOAI) 2026 개최안내

구글, 노트북서 구동되는 멀티모달 AI '젬마 4 12B' 공개...인코더 없는 통합 구조로 음성·이미지 직접 처리

구글이 16GB 메모리로 작동하는 멀티모달 AI '젬마 4 12B'를 공개했다.
[한국정보기술신문] 구글이 노트북 등 일반 소비자용 기기에서 직접 구동할 수 있는 멀티모달 인공지능(AI) 모델 '젬마 4 12B(Gemma 4 12B)'를 지난 3일(현지시간) 공개했다. 이 모델은 별도의 인코더 없이 음성과 이미지를 직접 처리하는 통합 구조를 채택해, 적은 메모리만으로도 고성능 추론을 수행할 수 있는 것이 특징이다.
젬마 4 12B는 구글 딥마인드가 개발한 오픈소스 모델로, 기존 경량 모델인 E4B와 고성능 모델인 26B 전문가 혼합(MoE) 모델 사이의 공백을 메우기 위해 설계됐다. 구글은 이 모델이 강력한 성능을 갖추면서도 메모리 사용량을 줄였으며, 중간 규모 모델 중 처음으로 음성 입력을 자체적으로 지원한다고 설명했다.
올리비에 라콩브 구글 딥마인드 제품 관리 담당 디렉터와 구스 마르틴스 제품 관리자는 블로그를 통해 "젬마 4 12B는 모바일 환경에 최적화된 효율성과 고급 추론 능력을 결합해 고성능 멀티모달 지능을 노트북에 직접 구현하도록 설계됐다"고 밝혔다.
Hero_Visual_G4_12B_1.width-1200.format-webp.webp
구글 제공

인코더 없앤 통합 구조로 메모리 부담 줄여

젬마 4 12B의 가장 큰 특징은 시각·음성 정보를 처리하는 방식이다. 기존 멀티모달 모델은 이미지와 음성을 언어 모델에 전달하기 전에 이를 변환하는 별도의 인코더를 사용해 왔다. 그러나 이 같은 인코더는 지연 시간을 늘리고 메모리 사용량을 증가시키는 단점이 있다.
구글은 이러한 문제를 해결하기 위해 젬마 4 12B를 인코더가 없는 구조로 학습시켰다. 시각 정보 처리의 경우 기존 시각 인코더를 단일 행렬 곱셈과 위치 임베딩, 정규화로 구성된 가벼운 임베딩 모듈로 대체했다. 음성 처리는 더 단순화해 인코더를 완전히 제거하고, 음성 신호를 텍스트 토큰과 동일한 차원의 공간으로 직접 변환하도록 했다.
이를 통해 시각·음성 입력이 언어 모델의 중심부로 곧바로 흘러 들어가는 구조가 완성됐다. 구글은 이러한 설계가 일상적인 하드웨어에서도 속도나 추론 능력을 떨어뜨리지 않으면서 고급 멀티모달 기능을 제공한다고 강조했다.

26B 모델 근접 성능...16GB 메모리로 로컬 구동

성능 면에서 젬마 4 12B는 표준 벤치마크 기준으로 더 큰 26B MoE 모델에 근접한 성능을 보이면서도, 전체 메모리 사용량은 절반 이하에 그친다. 16기가바이트(GB)의 램(RAM)이나 통합 메모리만 갖춘 소비자용 노트북에서도 로컬로 구동할 수 있어, 사용자의 기기에서 직접 멀티모달 및 에이전트 기능을 활용할 수 있다.
별도의 서버나 클라우드에 연결하지 않고 기기 자체에서 AI를 실행하는 이른바 '온디바이스 AI'는 응답 속도가 빠르고 데이터가 외부로 전송되지 않아 보안과 개인정보 보호 측면에서 유리하다는 평가를 받는다. 젬마 4 12B는 이러한 흐름에 맞춰 고성능 모델을 개인 기기 수준으로 끌어내린 사례로 볼 수 있다.
또한 젬마 4 12B는 지연 시간을 줄이기 위한 다중 토큰 예측(MTP) 드래프터를 기본 탑재했다. 모델은 아파치 2.0 라이선스로 공개돼 개발자들이 자유롭게 내려받아 활용하고 미세 조정할 수 있다.

젬마 4 다운로드 1억5천만 건 돌파

구글에 따르면 젬마 4 모델은 현재까지 누적 다운로드 1억5천만 건을 넘어섰다. 개발자 커뮤니티는 이 모델을 활용해 신체 보조용 웨어러블 로봇 팔부터 기업용 AI 보안 솔루션까지 다양한 결과물을 만들어 왔다.
젬마 4 12B는 LM 스튜디오와 올라마(Ollama), 구글 AI 엣지 갤러리 앱 등에서 곧바로 체험할 수 있다. 사전 학습 및 명령어 튜닝 모델의 가중치는 허깅페이스와 캐글에서 내려받을 수 있으며, 허깅페이스 트랜스포머스와 llama.cpp, vLLM 등 주요 개발 도구와도 연동된다. 운영 환경에서는 구글 클라우드의 모델 가든과 클라우드 런, 구글 쿠버네티스 엔진(GKE)을 통해 배포할 수 있다.
구글은 에이전트 개발을 지원하기 위해 젬마 모델용 공식 '스킬 저장소(Skills Repository)'도 함께 공개했다. 이는 AI 에이전트가 젬마 모델을 기반으로 다양한 작업을 수행할 수 있도록 돕는 기능 모음이다.
한국정보기술신문 인공지능분과 박연호 기자 news@kitpa.org

함께 읽으면 좋은 기사

무료 인증서기관 '렛츠인크립트', 양자내성 웹 보안 전환 청사진 공개...'머클트리 인증서'로 접속 데이터 안 늘리고 양자 위협 대비, 2027년 정식 도입 목표

무료 인증서기관 '렛츠인크립트', 양자내성 웹 보안 전환 청사진 공개...'머클트리 인증서'로 접속 데이터 안 늘리고 양자 위협 대비, 2027년 정식 도입 목표

인공지능 · 정보보안 4
구글, 노트북서 구동되는 멀티모달 AI '젬마 4 12B' 공개...인코더 없는 통합 구조로 음성·이미지 직접 처리

구글, 노트북서 구동되는 멀티모달 AI '젬마 4 12B' 공개...인코더 없는 통합 구조로 음성·이미지 직접 처리

인공지능 2
UC버클리 컴퓨터과학 수업서 낙제율 급등...교수들 "AI 과의존·수학 기초 부족이 원인"...CS 10 낙제 35%로 학과 기준 5배, 한 강의는 AI·인터넷 허용 시험까지

UC버클리 컴퓨터과학 수업서 낙제율 급등...교수들 "AI 과의존·수학 기초 부족이 원인"...CS 10 낙제 35%로 학과 기준 5배, 한 강의는 AI·인터넷 허용 시험까지

교육 · 인공지능 4
프로그래밍 언어 '엘릭서' 1.20 공개...타입 표기 없이도 모든 코드 자동 검사해 '확정 버그' 잡아낸다...개발자가 따로 손댈 일 없이 오탐도 적어, 4년 연구의 첫 결실

프로그래밍 언어 '엘릭서' 1.20 공개...타입 표기 없이도 모든 코드 자동 검사해 '확정 버그' 잡아낸다...개발자가 따로 손댈 일 없이 오탐도 적어, 4년 연구의 첫 결실

정보기술 4
호주 연구진, 격자 지도 경로 탐색 'A*' 최대 수십 배 빠르게 하는 '점프 포인트' 기법 발표...최적 경로 보장하면서 사전 작업도 추가 메모리도 필요 없어

호주 연구진, 격자 지도 경로 탐색 'A*' 최대 수십 배 빠르게 하는 '점프 포인트' 기법 발표...최적 경로 보장하면서 사전 작업도 추가 메모리도 필요 없어

인공지능 5
한국어로 AI 쓰면 토큰 3~5배 더 소비…같은 구독료에 받는 서비스는 3분의 1, "영어로 묻고 한국어로 받아라"

한국어로 AI 쓰면 토큰 3~5배 더 소비…같은 구독료에 받는 서비스는 3분의 1, "영어로 묻고 한국어로 받아라"

인공지능 · 오피니언 4
마이크로소프트, 상시 작동 AI 에이전트 '스카우트' 공개...오토파일럿 첫 제품으로 팀즈·아웃룩 등 M365 전반 연동, 프런티어 통해 실험 출시

마이크로소프트, 상시 작동 AI 에이전트 '스카우트' 공개...오토파일럿 첫 제품으로 팀즈·아웃룩 등 M365 전반 연동, 프런티어 통해 실험 출시

인공지능 3
게임 트리 알고리즘, 인공지능 의사결정의 뼈대로 주목...미니맥스·알파베타 가지치기가 핵심 원리

게임 트리 알고리즘, 인공지능 의사결정의 뼈대로 주목...미니맥스·알파베타 가지치기가 핵심 원리

인공지능 2
정부, 8천억대 국산 '온디바이스 AI반도체' 개발 국책사업 확정...자동차·가전·로봇·방산 4대 업종에 풀스택 지원, 6월 공고해 7월 착수

정부, 8천억대 국산 '온디바이스 AI반도체' 개발 국책사업 확정...자동차·가전·로봇·방산 4대 업종에 풀스택 지원, 6월 공고해 7월 착수

인공지능 · 반도체 · 유관기관 3
구글, 자사 AI로 'I/O 2026' 행사 직접 제작...제미나이·나노 바나나 전면 투입

구글, 자사 AI로 'I/O 2026' 행사 직접 제작...제미나이·나노 바나나 전면 투입

인공지능 2
애플, 접근성 기능 이유로 받아쓰기 앱 등록 거부...손 부상 개발자, 앱 두 버전으로 갈라 대응

애플, 접근성 기능 이유로 받아쓰기 앱 등록 거부...손 부상 개발자, 앱 두 버전으로 갈라 대응

정보기술 2
엔비디아, AI·RTX 그래픽 합친 'RTX 스파크 슈퍼칩' 공개...슬림 노트북·소형 데스크톱 겨냥

엔비디아, AI·RTX 그래픽 합친 'RTX 스파크 슈퍼칩' 공개...슬림 노트북·소형 데스크톱 겨냥

정보기술 · 인공지능 3