한국정보기술진흥원
한국정보기술신문
thumbnail

정보통신 ·

웨이모, 초현실적 자율주행 시뮬레이션 'Waymo World Model' 공개...토네이도부터 코끼리까지 극한 상황 학습

발행일
읽는 시간2분 8초

구글 딥마인드 'Genie 3' 기반, 카메라·라이다 동시 생성하는 멀티모달 시뮬레이터 선보여

[한국정보기술신문] 자율주행 기업 웨이모(Waymo)가 6일(현지시간) 자율주행 시뮬레이션 기술의 새로운 지평을 여는 'Waymo World Model'을 공개했다. 이 모델은 구글 딥마인드의 최신 범용 월드 모델인 Genie 3를 기반으로 초현실적이고 대규모의 자율주행 환경을 생성할 수 있다.

웨이모는 실제 도로에서 약 2억 마일의 완전 자율주행 거리를 기록했지만, 가상 세계에서는 수십억 마일을 주행하며 복잡한 시나리오를 미리 학습해왔다. Waymo World Model은 이러한 시뮬레이션 환경을 생성하는 핵심 구성 요소로, 웨이모의 AI 생태계에서 중요한 역할을 담당한다.

광범위한 세계 지식 기반 극한 상황 시뮬레이션

대부분의 자율주행 업계 시뮬레이션 모델이 수집한 도로 데이터만으로 처음부터 학습하는 것과 달리, Waymo World Model은 Genie 3의 방대한 사전 학습 데이터를 활용한다. 이를 통해 실제로는 거의 포착할 수 없는 극히 드문 상황들을 시뮬레이션할 수 있다.

웨이모가 공개한 시뮬레이션 사례에는 토네이도 조우, 골든게이트 브리지의 적설 주행, 홍수로 완전히 침수된 주택가, 코끼리·롱혼·사자 등 야생동물과의 만남, 나무 가지로 돌진하는 선행 차량, 역주행 트럭 등이 포함된다. 심지어 티라노사우루스 복장을 한 보행자나 차 크기의 회전초까지 시뮬레이션할 수 있다.

멀티모달 출력과 강력한 제어성

Waymo World Model의 차별점은 카메라와 라이다 데이터를 동시에 생성하는 멀티모달 출력 능력이다. 카메라가 시각적 디테일을 제공한다면, 라이다 센서는 정밀한 깊이 정보를 제공한다. 웨이모는 특화된 후속 학습을 통해 Genie 3의 방대한 세계 지식을 2D 비디오에서 웨이모 하드웨어 고유의 3D 라이다 출력으로 전환했다.

이 모델은 세 가지 주요 메커니즘을 통해 강력한 시뮬레이션 제어성을 제공한다. 첫째, 주행 행동 제어를 통해 특정 주행 입력을 준수하는 반응형 시뮬레이터를 구현했다. 이를 통해 웨이모 드라이버가 특정 상황에서 양보하는 대신 더 자신 있게 주행할 수 있었는지 등의 반사실적 시나리오를 시뮬레이션할 수 있다.

둘째, 장면 레이아웃 제어를 통해 도로 레이아웃, 신호등 상태, 다른 도로 사용자의 행동을 맞춤 설정할 수 있다. 셋째, 언어 제어는 가장 유연한 도구로, 하루 중 시간대나 날씨 조건을 조정하거나 완전히 합성된 장면을 생성할 수 있다.

대시캠 영상 변환과 확장 가능한 추론

웨이모는 일반 카메라나 대시캠으로 촬영한 영상을 멀티모달 시뮬레이션으로 변환할 수 있는 기능도 선보였다. 노르웨이의 설경, 미국 유타주 아치스 국립공원, 캘리포니아 데스밸리 등에서 촬영한 실제 영상을 웨이모 드라이버가 해당 장면을 어떻게 인식하는지 보여주는 시뮬레이션으로 전환했다.

또한 효율적인 변형 모델을 통해 컴퓨팅을 대폭 줄이면서도 높은 사실성을 유지하며 더 긴 장면을 시뮬레이션할 수 있다. 좁은 차선에서의 통행 협상과 같이 더 오래 지속되는 장면도 대규모 시뮬레이션이 가능하다.

웨이모는 "불가능한 것을 시뮬레이션함으로써 웨이모 드라이버가 가장 희귀하고 복잡한 시나리오에 미리 대비할 수 있다"며 "이는 웨이모 드라이버가 실제 도로에서 마주치기 훨씬 전에 롱테일 문제를 해결할 수 있도록 보장하는 더 엄격한 안전 벤치마크를 만든다"고 설명했다.

업계 전문가들은 Waymo World Model이 자율주행 기술 발전에 중요한 이정표가 될 것으로 전망하고 있다. 실제로는 경험하기 어려운 극한 상황까지 가상으로 학습할 수 있다는 점에서 자율주행 안전성 향상에 크게 기여할 것으로 보인다.

한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org