구글, 제미나이 통합 인터페이스 '인터랙션 API' 정식 출시...모델·에이전트 한 창구로 다룬다...자율 작업 수행 '관리형 에이전트'·백그라운드 실행 추가, 지난해 12월 베타 거쳐 기본 개발 도구로
구글이 제미나이 모델·에이전트용 통합 API를 정식 출시했다.
[한국정보기술신문] 구글(Google)이 자사 인공지능(AI) 모델 '제미나이(Gemini)'와 AI 에이전트를 하나의 창구로 다룰 수 있는 '인터랙션 API(Interactions API)'를 정식 출시했다고 현지시간 6월 22일 자사 블로그를 통해 밝혔다. 구글은 이번 정식 출시(GA)와 함께 인터랙션 API를 제미나이 모델·에이전트와 주고받는 기본(primary) 통로로 삼았다고 설명했다. API는 한 프로그램이 다른 프로그램의 기능을 가져다 쓰도록 미리 정해 둔 약속을 말하며, 정식 출시(GA·General Availability)는 시험용 단계를 마치고 누구나 안정적으로 쓸 수 있게 정식으로 공개하는 것을 뜻한다.
여기서 에이전트(agent)는 사람이 일일이 지시하지 않아도 목표를 받아 여러 단계의 일을 스스로 처리하는 AI를 가리킨다. 단순히 질문에 답하는 모델과 달리, 코드를 실행하거나 웹을 뒤지고 파일을 다루는 등 실제 작업을 대신 수행하는 것이 특징이다. 구글은 인터랙션 API를 통해 이런 모델과 에이전트를 같은 방식으로 불러 쓸 수 있게 했다고 밝혔다.

12월 베타 거쳐 정식 출시...스키마 고정·새 기능 추가
인터랙션 API는 지난해 12월 시험용 공개 베타로 처음 선보인 뒤, 개발자들이 제미나이로 프로그램을 만들 때 즐겨 쓰는 방식으로 빠르게 자리 잡았다고 구글은 전했다. 베타(beta)는 정식 출시 전에 일부 기능을 미리 공개해 사용자 의견을 받는 시험 단계를 말한다.
이번 정식 출시로 API의 '스키마'가 안정적으로 고정됐다고 구글은 밝혔다. 스키마(schema)는 데이터를 어떤 형식과 구조로 주고받을지 미리 정해 둔 틀을 말한다. 스키마가 고정되면 개발자가 한 번 맞춰 둔 프로그램을 이후에도 큰 수정 없이 계속 쓸 수 있다. 구글은 정식 출시에 맞춰 개발자들이 요청해 온 여러 기능을 새로 더했다고 덧붙였다.
모델이든 에이전트든 '한 번의 호출'로
구글이 내세우는 인터랙션 API의 강점은 쓰임이 단순하다는 점이다. 모델을 부를 때는 모델의 고유 번호(모델 ID)를, 에이전트에게 자율 작업을 맡길 때는 에이전트의 고유 번호(에이전트 ID)를 넘겨 주면 된다. 시간이 오래 걸리는 작업은 'background=True(백그라운드 참)'라는 설정값 하나만 붙이면 처리할 수 있다. 호출(call)은 프로그램이 API에 일을 요청하는 것을 말한다.
새로 추가된 기능 가운데 눈에 띄는 것은 '관리형 에이전트(Managed Agents)'다. API를 한 번 호출하면 원격에 리눅스 기반 '샌드박스'가 마련되고, 그 안에서 에이전트가 스스로 판단해 코드를 실행하고 웹을 검색하며 파일을 관리한다. 샌드박스(sandbox)는 본 시스템과 분리된 채 프로그램을 안전하게 돌려 볼 수 있도록 격리해 둔 공간을 뜻한다. 기본으로는 '안티그래비티(Antigravity)' 에이전트가 제공되며, 개발자가 직접 지시사항과 기능, 참고 자료를 정해 자신만의 에이전트를 만들 수도 있다.
오래 걸리는 작업을 뒤에서 처리하는 '백그라운드 실행' 기능도 추가됐다. 어떤 요청이든 백그라운드 설정값을 켜 두면, 서버가 그 작업을 뒤에서 비동기로 처리한다. 비동기(asynchronous)는 작업이 끝날 때까지 기다리지 않고 다른 일을 함께 진행하는 방식을 말한다. 결과가 나올 때까지 화면이 멈춰 있지 않아도 된다는 의미다.
도구 조합·딥 리서치·미디어 생성도 강화
도구를 함께 쓰는 기능도 손봤다. 구글 검색이나 구글 지도 같은 기본 제공 도구를, 개발자가 만든 자체 기능과 한 번의 요청 안에서 섞어 쓸 수 있게 됐다. 또 도구가 내놓는 결과에 글과 함께 이미지를 같이 담아 돌려줄 수 있도록 바뀌었다.
여러 자료를 깊이 조사해 정리해 주는 '딥 리서치(Deep Research)' 기능은 속도를 중시한 버전과 깊이를 중시한 버전 두 가지로 나뉘었다. 조사 계획을 함께 세우고, 표와 정보 그림(인포그래픽)을 직접 만들며, 이미지와 PDF·음성 자료까지 근거로 활용하는 기능도 더해졌다.
콘텐츠를 만들어 내는 기능도 넓어졌다. 이미지 생성에는 '나노 바나나 2(Nano Banana 2)'와 구글 이미지 검색을 근거로 삼는 기능이, 음악 생성에는 '리리아 3(Lyria 3)'가 쓰인다. 음성 분야에서는 여러 사람이 말하는 것처럼 표현력 있는 음성을 만드는 기능(다중 화자 TTS)도 제공된다. TTS는 글자를 사람 목소리로 읽어 주는 기술(Text-to-Speech)을 말한다.
'역할'에서 '단계'로...스키마 단순화와 비용 최적화
데이터를 주고받는 구조도 단순해졌다. 종전에는 누가 말했는지를 '역할(role)'로 나눠 표시했지만, 이제는 사용자 입력, 생각, 함수 호출, 모델 출력 등 모든 동작을 저마다 하나의 '단계(step)'로 다룬다. 작업의 흐름을 단계별로 또렷하게 나타내, 에이전트가 여러 일을 순서대로 처리하는 과정을 다루기 쉬워졌다는 것이 구글의 설명이다.
비용과 편의를 위한 장치도 마련됐다. 비용을 아낄지 응답 속도를 높일지 고를 수 있도록 '플렉스(Flex)'와 '프라이어리티(Priority)' 두 등급이 도입됐는데, 플렉스 등급을 쓰면 비용을 절반(50%)까지 줄일 수 있다. 오류가 나면 어느 항목에서 문제가 생겼는지 정확히 짚어 주며, 지난 작업 내역은 요금을 내는 등급에서 55일간 보관돼 다시 불러올 수 있다.
새 기본 표준으로...기존 API는 계속 지원
구글은 인터랙션 API를 자사 개발 환경인 '구글 AI 스튜디오'와 제미나이 API, 그리고 모든 기술 문서의 기본 방식으로 삼았다고 밝혔다. 문서에는 예전 방식으로 되돌려 보는 전환 단추도 함께 두어, 새 프로젝트에는 인터랙션 API를 쓰도록 권장했다.
다만 기존에 쓰이던 'generateContent(제너레이트콘텐츠) API'도 계속 지원되며, 앞으로도 주요 제미나이 모델을 받게 된다고 구글은 설명했다. 그러나 오래 걸리는 작업이나 에이전트를 다루는 최신 기능은 점차 인터랙션 API에서만 제공될 것으로 본다고 덧붙였다. 인터랙션 API가 처음부터 상태를 기억하고 자율 작업을 처리하는 데 맞춰 설계됐기 때문이라는 것이다. 구글은 기존 방식에서 옮겨 오려는 개발자를 위해 항목을 하나하나 대응시켜 주는 안내서(마이그레이션 가이드)도 내놨다. 마이그레이션(migration)은 기존 방식에서 새 방식으로 옮겨 가는 작업을 말한다.
구글은 요즘 대다수 개발자가 코딩 에이전트로 프로그램을 만드는 점에 맞춰, 에이전트가 최신 사용법을 익히도록 돕는 'gemini-interactions-api 스킬'도 함께 마련했다고 밝혔다. 인터랙션 API는 파이썬(Python)과 자바스크립트(JavaScript) 개발 도구(SDK)로 쓸 수 있으며, 라이트LLM(LiteLLM)·아이전트(Eigent)·아그노(Agno) 등 협력사 환경에서도 바로 이용할 수 있다. SDK는 특정 환경에서 프로그램을 쉽게 만들도록 묶어 둔 개발 도구 모음을 뜻한다.
이번 발표는 구글이 자사 블로그를 통해 직접 알린 내용으로, 성능과 편의에 관한 설명은 회사 측 발표에 근거한 것이다. 새 기능이 실제 현장에서 얼마나 안정적으로 작동하고 개발자들에게 받아들여질지는 사용 사례가 쌓이면서 가려질 전망이다. 이번 글은 구글 딥마인드의 알리 체비크(Ali Çevik) 그룹 프로덕트 매니저와 필립 슈미트(Philipp Schmid) 개발자 관계 엔지니어가 함께 작성했다.
한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org











