인공지능 ·
구글, 이미지 이해 능동화하는 '에이전틱 비전' 공개...제미나이 3 플래시에 탑재
구글이 AI 모델의 시각적 추론 능력을 획기적으로 개선하는 새로운 기술을 발표했다.
[한국정보기술신문] 구글이 1월 27일 제미나이 3 플래시 모델에 에이전틱 비전 기능을 도입했다고 발표했다. 이 새로운 기술은 AI 모델이 이미지를 단순히 한 번 보고 처리하는 것이 아니라, 능동적으로 조사하고 분석할 수 있도록 한다.
구글 딥마인드의 프로덕트 매니저 로한 도시는 블로그를 통해 에이전틱 비전이 이미지 이해를 정적인 행위에서 능동적인 프로세스로 전환한다고 설명했다. 기존 AI 모델들은 이미지를 한 번 보고 판단하기 때문에 미세한 세부사항을 놓치는 경우가 많았지만, 새로운 기술은 이러한 한계를 극복할 수 있게 됐다.
사고-행동-관찰 루프로 작동
에이전틱 비전은 사고, 행동, 관찰의 세 단계로 구성된 루프 방식으로 작동한다. 먼저 모델이 사용자 질문과 초기 이미지를 분석해 다단계 계획을 수립한다. 그다음 파이썬 코드를 생성하고 실행해 이미지를 자르거나 회전하고 주석을 달거나 계산을 수행한다. 마지막으로 변환된 이미지를 모델의 컨텍스트 창에 추가해 더 나은 맥락으로 새로운 데이터를 검사한 후 최종 응답을 생성한다.
구글은 이 기능을 활성화하면 대부분의 비전 벤치마크에서 일관되게 5~10%의 성능 향상을 달성한다고 밝혔다. 시각적 추론과 코드 실행을 결합함으로써 모델이 답변을 시각적 증거에 근거할 수 있게 됐다.
다양한 활용 사례 제시
구글은 에이전틱 비전의 여러 활용 사례를 소개했다. 첫째, 확대 및 검사 기능을 통해 미세한 세부사항을 감지할 수 있다. 건축 계획 검증 플랫폼인 플랜체크솔버닷컴은 이 기능을 활용해 정확도를 5% 향상시켰다. 모델이 파이썬 코드를 생성해 고해상도 입력의 특정 부분을 반복적으로 검사하고 분석할 수 있기 때문이다.
둘째, 이미지 주석 기능을 통해 모델이 이미지에 직접 그림을 그릴 수 있다. 제미나이 앱에서 손가락 개수를 세는 예시에서 모델은 파이썬을 사용해 식별한 각 손가락 위에 경계 상자와 숫자 레이블을 그린다. 이러한 시각적 작업 공간을 통해 픽셀 단위의 정확한 이해를 바탕으로 최종 답변을 제공한다.
셋째, 시각적 수학 및 플로팅 기능으로 고밀도 표를 파싱하고 파이썬 코드를 실행해 결과를 시각화할 수 있다. 표준 언어 모델들은 다단계 시각적 산술 연산 중 종종 환각을 일으키지만, 제미나이 3 플래시는 계산을 파이썬 환경에 오프로드해 이를 우회한다.
API 및 앱 통해 이용 가능
에이전틱 비전은 현재 구글 AI 스튜디오와 버텍스 AI의 제미나이 API를 통해 사용할 수 있다. 제미나이 앱에서도 모델 드롭다운에서 씽킹을 선택하면 이용 가능하다. 개발자들은 구글 AI 스튜디오의 데모를 체험하거나 플레이그라운드에서 도구 아래의 코드 실행을 활성화해 기능을 실험할 수 있다.
구글은 향후 계획으로 더 많은 암묵적 코드 기반 동작, 웹 및 역이미지 검색과 같은 추가 도구, 그리고 플래시 외 다른 모델 크기로의 확대를 언급했다. 현재 제미나이 3 플래시는 작은 세부사항을 확대하는 것을 암묵적으로 잘 결정하지만, 이미지 회전이나 시각적 수학과 같은 다른 기능들은 명시적인 프롬프트가 필요하다. 구글은 향후 업데이트에서 이러한 동작들을 완전히 암묵적으로 만들 계획이라고 밝혔다.
플랜체크솔버닷컴을 비롯한 개발자들은 이미 이 기능을 통합해 건축 계획 검증과 같은 다양한 사용 사례를 활용하기 시작했다. 구글은 이번 발표가 에이전틱 비전의 시작에 불과하며, 더 많은 도구와 모델 크기로 확장할 계획이라고 강조했다.
한국정보기술신문 인공지능분과 이준 기자 news@kitpa.org