인공지능 ·
구글, UI 제어 가능한 'Gemini 2.5 Computer Use' 공개...웹·모바일 벤치마크서 최고 성능
구글이 사용자 인터페이스를 직접 조작할 수 있는 새로운 AI 모델을 발표했다.
[한국정보기술신문] 구글이 웹 브라우저와 모바일 앱을 사람처럼 조작할 수 있는 AI 모델 'Gemini 2.5 Computer Use'를 공개했다. 이 모델은 Gemini API를 통해 개발자들에게 제공되며, Google AI Studio와 Vertex AI에서 접근할 수 있다.
이번에 공개된 모델은 Gemini 2.5 Pro의 시각적 이해와 추론 능력을 기반으로 구축됐다. 클릭, 타이핑, 스크롤과 같은 기본 조작뿐만 아니라 드롭다운 메뉴 조작, 필터 적용, 로그인 화면 통과 등 복잡한 UI 작업도 수행할 수 있다.
반복 루프 방식으로 작동
Gemini 2.5 Computer Use 모델은 반복 루프 방식으로 작동한다. 사용자의 요청, 화면 스크린샷, 최근 작업 기록을 입력받아 분석한 후 클릭이나 타이핑 같은 UI 동작을 함수 호출 형태로 반환한다. 구매와 같은 특정 작업의 경우 최종 사용자의 확인을 요청하는 응답도 생성할 수 있다.
클라이언트측 코드가 수신한 작업을 실행하면 새로운 화면 스크린샷과 현재 URL이 모델로 다시 전송되어 루프가 재시작된다. 이러한 반복 프로세스는 작업이 완료되거나 오류가 발생하거나 안전 응답 또는 사용자 결정에 의해 종료될 때까지 계속된다.
여러 벤치마크에서 선도적 성능
구글은 Gemini 2.5 Computer Use 모델이 여러 웹 및 모바일 제어 벤치마크에서 강력한 성능을 보인다고 밝혔다. Browserbase가 실행한 평가와 구글의 자체 평가 모두에서 기존 모델들을 앞서는 결과를 기록했다.
특히 Online-Mind2Web 벤치마크에서 측정한 결과, 이 모델은 브라우저 제어 분야에서 최고 품질을 제공하면서도 가장 낮은 지연 시간을 유지했다. 70퍼센트 이상의 정확도를 보이면서 약 225초의 지연 시간을 기록해 품질과 속도 두 가지 측면에서 모두 우수한 성능을 입증했다.
모델은 주로 웹 브라우저에 최적화되어 있지만 모바일 UI 제어 작업에서도 강력한 가능성을 보여주고 있다. 다만 데스크톱 OS 수준 제어에는 아직 최적화되지 않은 상태다.
안전성 우선 접근
구글은 컴퓨터를 제어하는 AI 에이전트가 사용자의 의도적 오용, 예기치 않은 모델 동작, 웹 환경에서의 프롬프트 주입 및 사기 등 고유한 위험을 초래할 수 있다고 판단하고 안전 기능을 모델에 직접 훈련시켰다.
개발자들을 위해 단계별 안전 서비스와 시스템 지침 등의 안전 제어 기능도 제공한다. 이를 통해 시스템 무결성 손상, 보안 침해, CAPTCHA 우회, 의료 기기 제어 등 잠재적으로 위험하거나 유해한 작업을 모델이 자동으로 완료하는 것을 방지할 수 있다.
다양한 분야에서 활용 시작
구글 팀들은 이미 이 모델을 UI 테스트 등의 용도로 프로덕션 환경에 배포했다. Project Mariner, Firebase Testing Agent, AI Mode in Search의 일부 에이전트 기능에도 이 모델의 버전이 적용됐다.
조기 액세스 프로그램 사용자들은 개인 비서, 워크플로 자동화, UI 테스트 분야에서 모델을 테스트하며 긍정적인 결과를 얻고 있다고 구글은 전했다.
이 모델은 현재 공개 프리뷰 상태로 제공되며, Gemini API를 통해 Google AI Studio와 Vertex AI에서 접근할 수 있다. 구글은 개발자들이 Playwright를 사용해 로컬에서 또는 Browserbase를 통해 클라우드 VM에서 자체 에이전트 루프를 구축할 수 있도록 참조 자료와 문서를 제공하고 있다.
한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org