인공지능 · 클라우드

구글, Gemini API에 비용-성능 최적화 새 추론 계층 도입...Flex와 Priority 옵션으로 개발자 선택의 폭 확대

2026년 4월 3일

1

thumbnail.webp
구글이 다양한 개발자 요구사항에 맞춘 맞춤형 API 서비스 계층을 새롭게 출시했다.
[한국정보기술신문] 구글이 Gemini API에 'Flex'와 'Priority' 두 가지 새로운 추론 계층을 도입한다고 3일 발표했다. 이는 비용과 신뢰성의 균형을 맞추려는 개발자들의 다양한 요구사항을 충족하기 위한 조치다.
Flex 계층은 비용 효율성을 우선시하는 개발자들을 대상으로 설계됐다. 이 계층은 더 낮은 가격대를 제공하면서도 안정적인 성능을 유지한다. 예산 제약이 있는 스타트업이나 실험적 프로젝트에 적합한 선택지다.
Priority 계층은 낮은 지연시간과 높은 신뢰성이 필수적인 애플리케이션을 위해 최적화됐다. 빠른 응답 속도가 중요한 프로덕션 환경에서 운영되는 서비스에 특히 유용하다.
두 계층의 도입으로 개발자들은 자신의 사용 사례와 예산에 맞는 최적의 선택을 할 수 있게 됐다. 비용 제약이 있는 프로젝트부터 성능이 최우선인 미션 크리티컬 서비스까지 폭넓은 요구사항을 수용한다.
업계는 이번 조치를 구글이 개발자 커뮤니티의 다양한 필요를 인식하고 API 접근성을 높인 혁신적 접근법으로 평가하고 있다. 상황에 맞는 선택지를 제공함으로써 더 많은 개발자들이 AI 기술을 활용할 수 있는 기회를 확대했다는 분석이다.
한 개발자는 "프로젝트 단계별로 다른 계층을 선택할 수 있어 개발 효율성이 크게 향상될 것"이라고 기대감을 표했다.
한국정보기술신문 클라우드분과 이준호 기자 news@kitpa.org