구글, AI 모델 메모리 6분의 1로 줄이는 압축 알고리즘 'TurboQuant' 공개...정확도 손실 제로
2026년 3월 27일
2분

구글 리서치가 AI 메모리 병목을 획기적으로 줄이는 새 압축 기술을 선보였다.
[한국정보기술신문] 구글 리서치가 대규모 언어 모델(LLM)과 벡터 검색 엔진에서 발생하는 메모리 병목 문제를 해결하는 새로운 양자화 압축 알고리즘 'TurboQuant'를 공개했다. 이번 연구는 구글 리서치 소속 아미르 잔디에 연구 과학자와 바하브 미로크니 구글 펠로우가 주도했으며, 오는 2026년 ICLR(국제 학습 표현 학술대회)에서 정식 발표될 예정이다.
TurboQuant란 무엇인가
TurboQuant는 AI 모델이 연산 과정에서 빈번하게 참조하는 정보를 저장해두는 핵심 구조인 키-값(KV) 캐시의 압축 문제를 해결하기 위해 설계된 알고리즘이다. 기존의 벡터 양자화 기법은 데이터를 압축하는 과정에서 추가적인 메모리 오버헤드가 발생하는 구조적 한계를 안고 있었다. 블록 단위 데이터마다 양자화 상수를 별도로 계산하고 저장해야 했기 때문에, 압축 효과의 상당 부분이 상쇄되곤 했다.
TurboQuant는 두 단계로 이 문제에 접근한다. 첫째, 함께 공개된 PolarQuant 기법을 활용해 데이터 벡터를 무작위로 회전시킨 뒤 극 좌표계로 변환해 압축한다. 이 방식은 기존 직교 좌표 기반 압축에서 필수적이던 데이터 정규화 단계를 생략할 수 있게 해 메모리 오버헤드를 원천 차단한다. 둘째, QJL(양자화 존슨-린덴슈트라우스) 알고리즘을 적용해 1비트만으로 압축 오차를 수학적으로 교정함으로써 정확도를 보존한다.
성능 실험 결과
구글 리서치 팀은 Gemma와 Mistral 등 오픈소스 LLM을 대상으로 LongBench, Needle In A Haystack, RULER 등 표준 장문 맥락 벤치마크에서 세 알고리즘을 종합 평가했다.
실험 결과, TurboQuant는 KV 캐시를 3비트까지 압축하면서도 추가적인 학습이나 미세 조정 없이 모델 정확도를 완전히 유지하는 데 성공했다. 특히 방대한 텍스트 속에서 특정 정보를 찾아내는 '바늘 찾기' 형식의 장문 맥락 테스트에서 KV 메모리를 최소 6분의 1 수준으로 줄이면서 완벽한 정확도를 달성했다.
속도 측면에서도 두드러진 성과를 보였다. 엔비디아 H100 GPU 환경에서 4비트 TurboQuant는 32비트 비압축 방식 대비 어텐션 로짓 연산 속도를 최대 8배까지 끌어올렸다.
벡터 검색 분야로의 확장
TurboQuant의 활용 범위는 LLM 압축에만 국한되지 않는다. 구글은 이 기술이 수십억 개 규모의 벡터 데이터베이스에서 의미적으로 유사한 항목을 찾는 벡터 검색 분야에도 핵심적인 역할을 할 수 있다고 밝혔다. 최신 기준 방법들(PQ, RabbiQ)과 비교한 실험에서 TurboQuant는 GloVe 데이터셋 기준으로 데이터 의존적 학습 없이도 더 높은 검색 재현율을 기록했다.
구글 리서치 팀은 "이 기법들은 실용적 공학 해법을 넘어 이론적 하한선에 근접한 수준의 효율을 갖춘 알고리즘"이라며 "Gemini를 포함한 대형 모델의 KV 캐시 병목 해소와 구글 규모의 시맨틱 검색 고도화에 기여할 것"이라고 설명했다.
연구에는 구글 리서치의 프라니스 카참·라스 고테스뷰렌·라제시 자야람, 구글 딥마인드의 마지드 하디안, 한국과학기술원(KAIST)의 한인수 교수, 뉴욕대학교의 마지드 달리리 박사 과정생이 공동 참여했다.
한국정보기술신문 인공지능분과 김주호 기자 news@kitpa.org



