인공지능 ·
구글 딥마인드, 실시간 상호작용 가능한 '지니 3' 월드 모델 공개
텍스트 프롬프트만으로 720p 해상도 3D 가상환경 생성… AGI 구현 핵심 기술로 평가
[한국정보기술신문] 구글 딥마인드가 8월 5일(현지시간) 텍스트 프롬프트만으로 실시간 상호작용이 가능한 3D 가상환경을 생성하는 '지니 3(Genie 3)' 월드 모델을 공개했다고 발표했다. 이 시스템은 720p 해상도에서 초당 24프레임으로 동적인 가상세계를 생성하며, 수 분간 일관성을 유지할 수 있다.
지니 3는 기존의 비디오 생성 모델과 달리 사용자의 실시간 입력에 반응하여 가상환경을 지속적으로 생성하는 혁신적인 기술이다. 딥마인드 연구진은 이번 발표를 통해 AI가 생성하는 가상세계의 완전히 새로운 가능성을 제시했다고 평가했다.
지니 3의 가장 주목할 만한 특징 중 하나는 환경의 일관성을 수 분간 유지할 수 있으며, 시각적 메모리가 최대 1분 전까지 확장된다는 점이다. 사용자가 특정 장소를 떠났다가 1분 후 다시 돌아와도 모델은 해당 정보를 정확히 기억하고 일관된 환경을 제공한다.
딥마인드 연구팀은 "사용자가 1분 전에 방문했던 위치를 다시 찾는 경우, 모델은 1분 전의 관련 정보를 참조해야 한다"며 "실시간 상호작용을 위해서는 새로운 사용자 입력이 도착할 때마다 이러한 계산이 초당 여러 번 발생해야 한다"고 기술적 혁신의 복잡성을 설명했다.
다양한 물리적 현상과 상상의 세계 구현
지니 3는 물과 조명 같은 자연 현상과 복잡한 환경 상호작용을 경험할 수 있게 하며, 동물 행동부터 복잡한 식물 생명체까지 생동감 넘치는 생태계를 생성할 수 있다. 또한 환상적인 시나리오와 표현력 있는 애니메이션 캐릭터를 창조하는 상상력을 활용할 수 있다.
모델은 지리적, 시간적 경계를 초월하여 다양한 장소와 과거 시대를 탐험할 수 있는 환경도 제공한다. 아이슬란드의 좁은 협곡을 고속으로 비행하는 드론 시점부터 고대 건축물이 있는 환상적인 풍경까지 다양한 시나리오를 실시간으로 구현할 수 있다.
지니 3는 내비게이션 입력 외에도 '프롬프트 가능한 월드 이벤트'라고 불리는 텍스트 기반 상호작용 방식을 제공한다. 이 기능을 통해 사용자는 날씨 조건을 변경하거나 새로운 객체와 캐릭터를 도입하여 생성된 세계를 실시간으로 변화시킬 수 있다.
딥마인드의 연구 디렉터 슬로미 프루흐터는 "지니 3는 최초의 실시간 상호작용 범용 월드 모델"이라며 "이전에 존재했던 좁은 범위의 월드 모델을 뛰어넘어 특정 환경에 국한되지 않고 사실적이거나 상상의 세계, 그리고 그 사이의 모든 것을 생성할 수 있다"고 설명했다.
SIMA 에이전트와의 호환성 테스트 성공
딥마인드는 지니 3로 생성된 세계가 미래의 에이전트 훈련에 적합한지 테스트하기 위해 자사의 SIMA(Scalable Instructable Multiworld Agent) 에이전트의 최신 버전을 활용했다. 각 세계에서 에이전트에게 서로 다른 목표 달성을 지시했으며, 에이전트는 지니 3에 내비게이션 행동을 전송하여 목표를 달성하려고 시도했다.
딥마인드의 개방성 팀 연구 과학자 잭 파커홀더는 "창고 환경에서 '밝은 녹색 쓰레기 압축기에 접근하라' 또는 '포장된 빨간 지게차로 걸어가라'와 같은 작업을 에이전트에게 요청했다"며 "세 가지 경우 모두 SIMA 에이전트가 목표를 달성할 수 있었다"고 설명했다.
파커홀더는 "우리는 월드 모델이 AGI로 가는 길에서 핵심적이라고 생각하며, 특히 현실 세계 시나리오 시뮬레이션이 특히 어려운 구현 에이전트에게 중요하다"고 강조했다. 딥마인드는 지니 3가 에이전트들이 계획하고, 탐험하고, 불확실성을 추구하며, 시행착오를 통해 개선할 수 있도록 하는 자기 주도적이고 구현된 학습을 가능하게 한다고 설명했다.
파커홀더는 또한 "우리는 아직 구현 에이전트들을 위한 '무브 37' 순간을 경험하지 못했다"며 "하지만 이제 우리는 잠재적으로 새로운 시대를 열 수 있다"고 전망했다. 이는 2016년 딥마인드의 알파고가 이세돌과의 바둑 경기에서 보여준 혁신적인 수를 의미하는 것으로, 인간의 이해를 넘어선 AI의 새로운 전략 발견 능력을 상징한다.
기존 기술 대비 혁신적 개선사항
지니 3는 전신인 지니 2 대비 현저한 개선을 보여준다. 지니 2는 최대 60초 동안 '일관된' 세계를 생성할 수 있었지만, 대부분의 예시가 10-20초 정도에 그쳤고, 시간이 지날수록 아티팩트가 도입되고 이미지 품질이 저하되는 문제가 있었다.
반면 지니 3는 수 분간 시각적 일관성을 유지할 수 있으며, 실시간 24fps 상호작용을 지원한다. 또한 NeRF나 가우시안 스플래팅과 같은 기존 방법들과 달리 명시적인 3D 표현에 의존하지 않고도 일관된 탐색 가능한 3D 환경을 제공한다.
딥마인드는 지니 3의 현재 한계점들도 솔직히 인정했다. 에이전트가 직접 수행할 수 있는 행동의 범위가 현재 제한적이며, 공유 환경에서 여러 독립적인 에이전트 간의 복잡한 상호작용을 정확히 모델링하는 것은 여전히 연구 과제로 남아있다.
또한 실제 세계 위치를 완벽한 지리적 정확성으로 시뮬레이션하는 능력이 부족하고, 명확하고 읽기 쉬운 텍스트는 입력 세계 설명에 제공될 때만 생성되는 경우가 많다. 현재 모델은 연장된 시간이 아닌 수 분간의 지속적인 상호작용만을 지원할 수 있다.
책임감 있는 개발과 제한적 연구 미리보기
딥마인드는 지니 3의 개방형 실시간 기능이 안전과 책임에 대한 새로운 도전을 제기한다고 인정하고, 책임감 있는 개발 및 혁신 팀과 긴밀히 협력하고 있다고 밝혔다. 이에 따라 지니 3는 제한적 연구 미리보기로 발표되며, 소수의 학자와 창작자들에게만 초기 접근권을 제공한다.
이러한 접근 방식을 통해 중요한 피드백과 학제간 관점을 수집하여 이 새로운 영역을 탐험하고 위험과 적절한 완화 방안에 대한 이해를 지속적으로 구축해 나갈 계획이다. 딥마인드는 커뮤니티와 함께 이 기술을 책임감 있게 개발해 나가기를 기대한다고 전했다.
NVIDIA의 AI 디렉터 짐 팬은 지니 3를 '게임 엔진 2.0'의 미리보기로 평가하며 "언젠가는 언리얼 엔진의 모든 복잡성이 주의 가중치의 데이터 기반 덩어리에 흡수될 것"이라고 전망했다. 팬은 "게임 개발이 결국 정교한 형태의 프롬프트 엔지니어링이 될 것"이라며 대형 언어 모델의 최근 트렌드와 유사한 에이전트 워크플로우로 수렴할 것이라고 예측했다.
이는 게임 개발 산업에 혁명적 변화를 예고하는 것으로, 기존의 복잡한 3D 자산, 씬 그래프, 셰이더 기술 없이도 게임 컨트롤러 명령을 입력으로 받아 시공간 픽셀 덩어리를 직접 애니메이션화할 수 있는 시대가 올 수 있음을 시사한다.
한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org