인공지능 ·
구글, 최첨단 이미지 생성 AI 모델 '나노 바나나 프로' 공개...추론 능력 대폭 강화
제미니 3 프로 기반 새 모델, 최대 14개 이미지 블렌딩·다국어 텍스트 렌더링 지원
[한국정보기술신문] 구글이 제미니(Gemini) 3 프로 기술을 기반으로 한 최신 이미지 생성 및 편집 모델 나노 바나나 프로(Nano Banana Pro)를 21일 공개했다. 이 모델은 기존 나노 바나나에서 대폭 업그레이드된 버전으로, 향상된 추론 능력과 실시간 정보 활용을 통해 보다 정확하고 맥락이 풍부한 시각 콘텐츠를 생성할 수 있다.
구글은 수개월 전 제미니 2.5 플래시 이미지 모델인 나노 바나나를 출시한 바 있다. 당시 이 모델은 오래된 사진 복원부터 미니 피규어 생성까지 다양한 이미지 편집 기능으로 일반 창작자들의 창의성 표현을 지원했다. 이번에 공개된 나노 바나나 프로는 제미니 3 프로의 최첨단 추론 및 실제 지식을 활용해 정보를 시각화하는 능력을 한층 더 발전시켰다.
향상된 추론 능력으로 정확한 시각 콘텐츠 생성
나노 바나나 프로의 가장 큰 특징은 제미니 3의 고급 추론 능력을 바탕으로 단순히 아름다운 이미지를 넘어 보다 유용한 콘텐츠를 생성할 수 있다는 점이다. 사용자는 정확한 교육용 설명 자료를 얻을 수 있으며, 제공한 콘텐츠나 실제 사실을 기반으로 한 맥락이 풍부한 인포그래픽과 다이어그램을 생성할 수 있다.
또한 이 모델은 구글 검색의 방대한 지식 기반에 연결되어 레시피에 대한 빠른 스냅샷을 생성하거나 날씨, 스포츠와 같은 실시간 정보를 시각화할 수 있다. 예를 들어 특정 식물에 대한 인포그래픽을 생성하거나, 엘라이치 차이(카다몬 차)를 만드는 방법을 단계별로 보여주는 인포그래픽을 만들 수 있다. 실시간 날씨 정보를 검색 기반으로 가져와 팝아트 스타일의 인포그래픽으로 제작하는 것도 가능하다.
다국어 텍스트 렌더링의 혁신
나노 바나나 프로는 이미지 내에서 정확하게 렌더링된 읽기 쉬운 텍스트를 생성하는 최고의 모델이다. 짧은 태그라인부터 긴 단락까지 다양한 형태의 텍스트를 지원한다. 제미니 3는 깊이와 뉘앙스를 이해하는 데 뛰어나며, 이는 이미지 편집 및 생성에서 특히 텍스트 관련 작업에 새로운 가능성을 열어준다.
사용자는 이제 더 다양한 질감, 글꼴, 서예를 사용해 목업이나 포스터에 더욱 세밀한 텍스트를 생성할 수 있다. 제미니의 향상된 다국어 추론 능력 덕분에 여러 언어로 텍스트를 생성하거나 콘텐츠를 현지화하고 번역할 수 있어, 국제적으로 확장하거나 친구 및 가족과 콘텐츠를 더 쉽게 공유할 수 있다.
예시로는 영화 장면을 위한 스토리보드 생성, 베를린 거리 풍경에서 건물이 BERLIN이라는 글자 형태를 이루는 이미지, 단어의 의미를 시각적으로 표현하는 미니멀리스트 로고 8개 생성, 영어 텍스트를 한국어로 번역한 음료 캠페인 콘셉트, 레트로 인쇄 미학을 구현한 타이포그래피 디자인 등이 있다.
고충실도 시각 콘텐츠 제작 능력
나노 바나나 프로는 업그레이드된 창작 기능을 통해 고충실도 시각 콘텐츠를 제작할 수 있다. 이전보다 더 많은 요소를 블렌딩할 수 있으며, 최대 14개의 이미지를 사용하고 최대 5명의 사람에 대한 일관성과 유사성을 유지할 수 있다. 스케치를 제품으로, 청사진을 사실적인 3D 구조로 변환하는 등 개념과 창작물 사이의 간극을 메울 수 있다.
원하는 시각적 룩앤필을 목업에 쉽게 적용할 수 있어, 모든 접점에서 브랜딩의 일관성을 유지할 수 있다. 예를 들어 14개의 캐릭터를 소파에 앉혀 TV를 보는 복잡한 구성에서도 일관성을 유지하거나, 여러 요소를 결합해 라이프스타일 장면이나 초현실적인 풍경을 만들 수 있다. 6개의 입력 사진에서 5명의 사람과 1마리의 개를 패션 에디토리얼 스타일의 단일 이미지로 합성하는 것도 가능하다.
스튜디오급 창작 제어 기능
나노 바나나 프로는 고급 창작 제어 기능을 사용자에게 직접 제공한다. 개선된 국소 편집을 통해 이미지의 특정 부분을 선택, 정제, 변환할 수 있다. 카메라 각도를 조정하고, 초점을 변경하고, 정교한 색상 그레이딩을 적용하거나, 장면 조명을 변환하는 것도 가능하다. 예를 들어 낮을 밤으로 바꾸거나 보케 효과를 만들 수 있다.
소셜 미디어부터 인쇄물까지 다양한 플랫폼을 위해 다양한 종횡비와 2K, 4K 해상도를 지원해 창작물을 바로 사용할 수 있다. 종횡비를 1대1로 변경하거나, 장면을 낮에서 밤으로 전환하거나, 강렬한 키아로스쿠로 효과를 적용하거나, 꽃에 초점을 맞춰 세부 사항을 강조하는 등의 작업이 가능하다.
다양한 플랫폼에서 이용 가능
나노 바나나 프로는 구글의 다양한 제품과 서비스에서 이용할 수 있다. 소비자와 학생은 제미니 앱에서 씽킹(Thinking) 모델로 이미지 생성을 선택하면 전 세계적으로 사용할 수 있다. 무료 사용자는 제한된 무료 할당량을 받으며, 이후에는 기존 나노 바나나 모델로 전환된다. 구글 AI 플러스, 프로, 울트라 구독자는 더 높은 할당량을 받는다.
전문가를 위해 구글 애즈(Google Ads)의 이미지 생성 기능이 나노 바나나 프로로 업그레이드되어 전 세계 광고주에게 최첨단 창작 및 편집 기능을 제공한다. 또한 워크스페이스 고객을 위해 구글 슬라이드와 비즈(Vids)에도 오늘부터 출시된다.
개발자와 기업은 제미니 API 및 구글 AI 스튜디오, 구글 앤티그래비티(Antigravity)에서 풍부한 UX 레이아웃과 목업을 생성할 수 있다. 기업은 버텍스 AI(Vertex AI)에서 오늘부터 대규모 창작 작업을 시작할 수 있으며, 제미니 엔터프라이즈에도 곧 제공될 예정이다. 창작자를 위해서는 AI 영화 제작 도구인 플로우(Flow)에 구글 AI 울트라 구독자를 대상으로 출시되어 프레임과 장면에 대한 더욱 정밀한 제어를 제공한다.
AI 생성 이미지 식별 기술 강화
구글은 이미지가 AI로 생성되었는지 알 수 있어야 한다고 강조하며, 자사 도구로 생성된 모든 미디어에 눈에 보이지 않는 신스ID(SynthID) 디지털 워터마크를 삽입하고 있다.
이번에 구글은 소비자가 직접 사용할 수 있는 강력한 검증 도구를 제공한다. 사용자는 제미니 앱에 이미지를 업로드하고 이것이 구글 AI로 생성되었는지 간단히 물어볼 수 있다. 이는 신스ID 기술 덕분에 가능하다. 현재 이미지부터 시작하지만 곧 오디오와 비디오로 확장할 예정이다.
신스ID 외에도 무료 및 구글 AI 프로 사용자가 생성한 이미지에는 보이는 워터마크(제미니 스파클)를 유지해 구글 AI로 생성된 이미지임을 더욱 쉽게 감지할 수 있도록 한다. 전문 작업을 위한 깨끗한 시각적 캔버스의 필요성을 인식해, 구글 AI 울트라 구독자와 구글 AI 스튜디오 개발자 도구 내에서 생성된 이미지에서는 보이는 워터마크를 제거한다.
이번 나노 바나나 프로의 출시로 구글은 AI 이미지 생성 분야에서 추론 능력, 다국어 지원, 창작 제어 기능 등을 크게 향상시키며 경쟁력을 강화했다. 특히 실시간 정보 활용과 다양한 요소의 블렌딩 기능은 전문가와 일반 사용자 모두에게 새로운 창작 가능성을 제공할 것으로 기대된다.
한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org