구글, 최초 멀티모달 임베딩 모델 '제미나이 임베딩 2' 공개...텍스트·이미지·영상·음성 단일 공간 통합
2026년 3월 11일
2분

[한국정보기술신문] 구글 딥마인드가 지난 10일(현지시간) 텍스트, 이미지, 영상, 음성, 문서를 단일 임베딩 공간에 통합하는 최초의 네이티브 멀티모달 임베딩 모델 '제미나이 임베딩 2(Gemini Embedding 2)'를 퍼블릭 프리뷰로 공개했다. 해당 모델은 제미나이 API와 버텍스 AI(Vertex AI)를 통해 즉시 이용 가능하다.
임베딩이란 데이터의 의미를 수치 벡터로 변환해 컴퓨터가 유사도를 비교하고 검색할 수 있게 만드는 기술이다. 기존 임베딩 모델은 텍스트 중심으로 설계돼 다양한 미디어 형식을 다루려면 별도의 모델을 조합해야 했다. 제미나이 임베딩 2는 이러한 한계를 극복해 여러 미디어 형식을 하나의 통합된 벡터 공간에서 처리할 수 있도록 설계됐다.
5가지 미디어 형식 단일 공간 통합
이번 모델이 지원하는 입력 형식은 크게 다섯 가지다. 텍스트는 최대 8,192개 토큰까지 처리하며, 이미지는 PNG 및 JPEG 형식으로 요청당 최대 6장을 지원한다. 영상은 MP4 및 MOV 형식으로 최대 120초까지 처리 가능하고, 음성은 중간 텍스트 변환 없이 오디오 데이터를 직접 임베딩한다. 문서의 경우 최대 6페이지 분량의 PDF를 직접 처리할 수 있다.
특히 주목할 점은 서로 다른 형식의 데이터를 혼합해 단일 요청으로 처리하는 인터리빙(interleaving) 기능이다. 예를 들어 이미지와 텍스트를 함께 입력하면 두 미디어 간의 복잡하고 미묘한 관계를 모델이 하나의 맥락으로 이해할 수 있다. 아울러 100개 이상의 언어에 걸쳐 의미를 파악하는 다국어 지원 기능도 갖추고 있다.
마트료시카 기법으로 유연한 차원 조정
제미나이 임베딩 2는 이전 임베딩 모델과 마찬가지로 마트료시카 표현 학습(Matryoshka Representation Learning, MRL) 기법을 적용했다. 이 기법은 러시아 전통 인형 마트료시카처럼 정보를 계층적으로 '중첩'시켜 저장하는 방식으로, 기본 3,072차원에서 시작해 1,536, 768차원 등으로 동적으로 축소할 수 있다.
이를 통해 개발자는 서비스 요구사항에 따라 검색 정확도와 저장 비용 사이의 균형을 자유롭게 조정할 수 있다. 구글은 최고 품질을 위해 3,072차원 사용을 권장하되, 인프라 비용 절감이 필요한 경우 낮은 차원도 활용 가능하다고 설명했다.
RAG, 시맨틱 검색 등 다양한 AI 응용에 활용
구글은 제미나이 임베딩 2가 검색 증강 생성(RAG), 시맨틱 검색, 감성 분석, 데이터 클러스터링 등 다양한 멀티모달 다운스트림 작업에 활용될 수 있다고 밝혔다. 특히 RAG 파이프라인에서 임베딩이 핵심적인 역할을 한다는 점을 강조하며, 복잡한 멀티미디어 데이터를 다루는 개발자들에게 파이프라인 구성을 크게 단순화할 것이라고 설명했다.
성능 면에서도 이전 세대 모델을 뛰어넘는다고 구글은 주장했다. 텍스트, 이미지, 영상 등의 평가 지표에서 경쟁 모델 대비 높은 성능을 보였으며, 특히 음성 임베딩 분야에서 새로운 기준을 제시했다고 밝혔다.
주요 AI 프레임워크와 즉시 연동 가능
제미나이 임베딩 2는 현재 퍼블릭 프리뷰 단계로, 개발자들은 제미나이 API 또는 버텍스 AI를 통해 즉시 이용할 수 있다. 주요 AI 개발 프레임워크인 랭체인(LangChain), 라마인덱스(LlamaIndex), 헤이스택(Haystack) 등과도 연동을 지원한다. 벡터 데이터베이스 측면에서는 위비에이트(Weaviate), 큐드런트(QDrant), 크로마DB(ChromaDB) 등과도 호환된다.
구글 딥마인드의 제품 관리자 민 최(Min Choi)와 수석 엔지니어 톰 듀리그(Tom Duerig)는 "다양한 데이터에 의미를 부여함으로써 제미나이 임베딩 2가 차세대 고급 AI 경험의 필수적인 멀티모달 기반이 될 것"이라고 밝혔다. 모델의 동작을 직접 확인하고 싶은 이용자는 구글이 제공하는 멀티모달 시맨틱 검색 데모 페이지에서 체험해볼 수 있다.
한국정보기술신문 인공지능분과 김주호 기자 news@kitpa.org



