인공지능 ·
구글, 차세대 AI 모델 'Gemini 3 Pro' 공개...코딩·추론 능력 대폭 강화
에이전트 코딩과 멀티모달 이해에 최적화...개발자 도구 생태계 전면 통합
구글이 가장 지능적인 AI 모델 Gemini 3 Pro를 발표하며 개발자 중심 AI 경쟁 본격화에 나섰다.
[한국정보기술신문] 구글이 차세대 AI 모델 'Gemini 3 Pro'를 공개하며 개발자 도구 시장 공략에 본격 나섰다. 구글은 19일 공식 블로그를 통해 Gemini 3 Pro가 모든 주요 AI 벤치마크에서 이전 버전인 Gemini 2.5 Pro를 능가하는 성능을 달성했다고 발표했다.
Gemini 3 Pro는 최첨단 추론 능력을 기반으로 구축됐으며, 특히 코딩 분야에서 에이전트 워크플로우와 복잡한 제로샷 작업 모두에서 뛰어난 성능을 보인다. 구글은 이 모델이 기존 프로덕션 에이전트 및 코딩 워크플로우에 바로 적용 가능하면서도 이전에는 불가능했던 새로운 사용 사례를 가능하게 한다고 설명했다.
가격 정책은 20만 토큰 이하 프롬프트 기준 입력 토큰 100만 개당 2달러, 출력 토큰 100만 개당 12달러로 책정됐다. Gemini API를 통해 Google AI Studio와 기업용 Vertex AI에서 프리뷰 버전으로 제공되며, Google AI Studio에서는 속도 제한이 있지만 무료로 사용할 수 있다.
에이전트 코딩의 새로운 기준
개발자들이 AI와 함께 소프트웨어를 개발하는 시간이 늘어나면서 Gemini 3 Pro는 에이전트 코딩 모델의 새로운 지능 기반으로 자리매김했다. 이 모델은 터미널을 통해 컴퓨터를 작동하는 모델의 도구 사용 능력을 테스트하는 Terminal-Bench 2.0에서 54.2점을 기록했다.
구글은 Gemini 3의 성능을 실증하기 위해 새로운 에이전트 개발 플랫폼인 'Google Antigravity'를 선보였다. 이는 개발자가 작업 중심의 상위 수준에서 작업하면서 워크스페이스 전반에 걸쳐 에이전트를 관리할 수 있도록 하면서도, 핵심에는 익숙한 AI IDE 경험을 유지한다.
Google Antigravity에서 개발자는 설계자 역할을 하며, 에디터, 터미널, 브라우저 전반에서 자율적으로 작동하는 지능형 에이전트와 협업한다. 이러한 에이전트는 복잡한 소프트웨어 작업을 계획하고 실행하며, 상세한 아티팩트를 통해 사용자와 작업 내용을 공유한다. 현재 MacOS, Windows, Linux용 퍼블릭 프리뷰를 무료로 다운로드할 수 있다.
Gemini API에는 클라이언트 측 bash 도구가 추가되어 로컬 파일시스템 탐색, 개발 프로세스 구동, 시스템 운영 자동화 등의 작업을 위한 에이전트 워크플로우의 일부로 셸 명령을 제안할 수 있다. 또한 다국어 코드 생성 및 안전한 프로토타이핑을 위한 호스팅 서버 측 bash 도구도 함께 제공된다.
자연어만으로 앱 개발 가능
Gemini 3 Pro는 자연어가 유일한 구문이 되는 '바이브 코딩'의 진정한 잠재력을 실현한다. 복잡한 지시 따르기와 심층 도구 사용을 크게 개선하여, 단일 프롬프트만으로 높은 수준의 아이디어를 완전한 대화형 앱으로 변환할 수 있다.
이 모델은 다단계 계획 및 코딩 세부 사항의 무거운 작업을 처리하여 더 풍부한 시각적 요소와 더 깊은 상호작용성을 제공하며, 개발자가 창의적 비전에 집중할 수 있도록 한다. Gemini 3 Pro는 WebDev Arena 리더보드에서 1487 Elo로 최고 점수를 기록했다.
Google AI Studio에서는 단일 프롬프트로 게임 구축, 구조화되지 않은 음성 메모에서 대화형 랜딩 페이지 제작, 냅킨 스케치에서 완전한 앱 개발 등이 가능하다. 구글은 단일 프롬프트 생성 기능을 그 어느 때보다 발전시켜 아이디어에서 AI 기반 앱까지 단일 프롬프트로 전환할 수 있다고 강조했다.
Google AI Studio는 프롬프트에서 AI 네이티브 앱까지 가장 빠른 경로로 구축됐다. 빌드 모드는 적절한 모델과 API를 자동으로 연결하여 AI 기능을 그 어느 때보다 빠르게 추가할 수 있게 하며, 주석과 같은 기능은 빠르고 직관적인 반복을 가능하게 한다.
멀티모달 이해 능력 세계 최고 수준
Gemini 3는 복잡한 멀티모달 이해 분야에서 세계 최고의 모델이며, 복잡한 이미지 추론을 위한 MMMU-Pro와 비디오 이해를 위한 Video MMMU에서 새로운 최고 기록을 세웠다. 지능과 100만 토큰 컨텍스트 윈도우를 결합하여 개발자는 주요 멀티모달 사용 사례를 구축하는 동안 상당한 개선을 확인할 수 있다.
지연 시간과 비용에 대한 더 많은 제어를 제공하기 위해 Gemini API에서 애플리케이션에 필요한 시각적 충실도에 따라 더 세밀하게 멀티모달 비전 처리를 구성할 수 있다.
Gemini 3 Pro는 문서 이해 분야에서 최고 수준이며, 단순한 OCR을 넘어 복잡한 문서 이해 및 추론을 지능적으로 처리한다. 모델의 향상된 공간 이해는 포인팅, 궤적 예측, 작업 진행과 같은 체화된 추론 작업에서 강력한 성능을 발휘하여 자율주행 차량, XR 기기, 로봇 공학 전반에 걸쳐 새로운 사용 사례를 실현한다.
공간 추론은 데스크톱, 모바일, OS 화면의 지능형 화면 이해를 지원하여 컴퓨터 사용 에이전트의 성능을 크게 향상시킨다. 또한 마우스 움직임과 화면 주석을 기반으로 사용자 작업의 의도를 이해하여 새로운 경험을 실현한다.
비디오 추론과 고속 액션 캡처
Gemini 3 Pro는 고프레임 속도 이해로 빠른 액션을 캡처하여 개발자가 빠르게 움직이는 장면에서 중요한 순간을 놓치지 않도록 보장한다. 속도를 넘어 장기 컨텍스트 회상을 통해 수시간의 연속 영상에서 내러티브를 종합하고 특정 세부 사항을 정확히 찾아낼 수 있다.
구글은 Gemini 3 Pro가 이미 많은 개발자 제품 및 도구에 통합되어 기존 워크플로우에 원활하게 적합하고 완전히 새로운 코딩 방식을 실현한다고 밝혔다. 구글은 모델의 심층 추론 기능을 지원하기 위해 API에 새로운 사고 수준과 더 세밀한 미디어 해상도 매개변수를 도입하고, 다회전 대화에서 모델의 사고를 보존하는 데 중요한 사고 서명에 대한 더 엄격한 검증을 추가했다.
구글은 AI가 누가 구축하고 어떻게 구축하는지를 변화시키면서 소프트웨어 환경이 변화하고 있다며, 가능한 것의 경계를 넓힐 수 있는 도구를 제공하는 데 전념하고 있다고 강조했다. 구글은 이것이 Gemini 3 시대의 시작에 불과하지만 개발자들이 Gemini 3 Pro로 무엇을 구축할지 기대된다고 덧붙였다.
한국정보기술신문 인공지능분과 김주호 기자 news@kitpa.org