인공지능 · 실감형콘텐츠 ·
메타, 2D 이미지를 3D로 변환하는 'SAM 3D' 공개...물리 세계 이해하는 AI 모델
메타가 일반 사진을 3D 객체로 재구성하는 AI 모델 SAM 3D를 발표하며 실제 환경에 대한 AI의 3D 이해 능력을 크게 향상시켰다.
[한국정보기술신문] 메타가 2D 이미지를 상세한 3D 재구성으로 변환하는 인공지능 모델 SAM 3D를 공개했다. 이번 발표는 AR/VR 연구자, 게임 개발자, 크리에이터들에게 새로운 가능성을 제시하며, AI 기반 3D 모델링의 새로운 장을 열었다는 평가를 받고 있다.
SAM 3D는 SAM 컬렉션에 추가된 첫 번째 3D 이해 모델로, 실제 세계 이미지에 대한 상식적인 3D 이해 능력을 갖추고 있다. 메타는 이번 발표를 통해 SAM 3D Objects와 SAM 3D Body라는 두 가지 모델을 선보였다. SAM 3D Objects는 객체 및 장면 재구성을 담당하며, SAM 3D Body는 인간의 신체 및 형태 추정에 특화되어 있다. 두 모델 모두 정적인 2D 이미지를 상세한 3D 재구성으로 변환하는 최첨단 성능을 제공한다.
메타는 이번 발표와 함께 SAM 3D 모델 체크포인트와 추론 코드를 공개했다. 또한 실제 세계 이미지에서 시각적으로 근거한 3D 재구성을 위한 새로운 평가 데이터세트인 SAM 3D Artist Objects(SA-3DAO)도 공개할 예정이다. 이 데이터세트는 다양한 페어링 이미지와 객체 메시를 특징으로 하며, 기존 3D 벤치마크를 능가하는 사실성과 난이도를 제공한다.
누구나 사용 가능한 세그먼트 애니띵 플레이그라운드
이러한 발전을 널리 접근 가능하게 만들기 위해 메타는 세그먼트 애니띵 플레이그라운드를 공개했다. 이는 최첨단 미디어 수정 모델을 실험할 수 있는 가장 간단한 방법으로, 누구나 자신의 이미지를 업로드하고 사람과 객체를 선택하여 상세한 3D 재구성을 생성할 수 있다. 플레이그라운드에는 이미지 및 비디오 이해를 발전시킨 최신 기반 모델인 SAM 3도 포함되어 있다.
메타는 이미 자사 제품에 이러한 발전을 활용하고 있다. SAM 3D와 SAM 3는 페이스북 마켓플레이스의 새로운 룸 인 뷰 기능을 지원하여, 사람들이 홈 데코 아이템을 구매하기 전에 자신의 공간에서 스타일과 적합성을 시각화할 수 있도록 돕고 있다.
물리 세계 데이터 장벽 극복한 SAM 3D Objects
과거의 3D 모델은 데이터 가용성으로 인해 크게 제한되었다. 텍스트나 이미지와 같은 다른 양식에 비해 풍부한 3D 실측 데이터의 가용성은 수십 배 더 적었으며, 존재하는 데이터는 주로 고립된 합성 3D 자산으로 구성되었다. 이로 인해 고품질의 고립된 3D 자산은 생성할 수 있었지만, 3D 재구성 모델은 합성 또는 무대화된 환경으로 제한되었다.
SAM 3D Objects의 혁신은 강력한 데이터 주석 엔진으로 물리 세계의 3D 데이터에 대한 오래된 장벽을 무너뜨리고, 이를 3D를 위한 새로운 다단계 훈련 레시피와 긴밀하게 결합한 데 있다. 대규모 언어 모델이 최근 개척한 현대 기술을 기반으로 구축된 SAM 3D Objects는 3D 인식을 위한 이러한 패러다임의 실행 가능성을 효과적으로 입증한다.
메타의 핵심 통찰력은 메시를 검증하거나 순위를 매기는 것이 더 접근 가능한 기술이라는 점이다. 따라서 루프에 있는 모델 제품군이 생성한 여러 옵션을 평가하도록 주석 작성자에게 요청하는 데이터 엔진을 구축하여 규모를 확장할 수 있으며, 가장 어려운 예제는 전문 3D 아티스트에게 전달하여 데이터 사각지대를 메운다. 이 데이터 엔진을 사용하여 메타는 약 100만 개의 고유 이미지에 3D 객체 형태, 텍스처 및 레이아웃을 3D에 대한 전례 없는 규모로 주석을 달았으며, 약 314만 개의 루프 내 모델 메시를 생성했다.
최근 대규모 언어 모델 훈련 레시피의 용어를 차용하여 합성 데이터로부터의 학습을 3D를 위한 사전 훈련으로 재구성했다. 자연 이미지에서 작동하려면 시뮬레이션에서 실제로의 격차를 극복하기 위한 정렬로서 후속 사후 훈련 단계가 필요하다. 데이터 엔진은 이 사후 훈련 프로세스를 촉진하는 데이터를 제공한다.
인간 선호도 테스트에서 5대 1 승률 달성
물리 세계 객체의 단일 이미지 3D 재구성을 위한 자연 이미지 분포 벤치마크가 부족하여 메타는 아티스트와 협력하여 SAM 3D Artist Objects 데이터세트를 구축했다. 이는 물리 세계 이미지의 시각적으로 근거한 3D 재구성을 위한 최초의 평가 데이터세트다. 기존 3D 벤치마크보다 훨씬 더 어려운 다양한 이미지와 객체를 갖춘 이 평가 세트는 3D 연구 진행 상황을 측정하는 새로운 방법을 제시하며, 무대화된 이미지와 합성 자산에서 벗어나 물리 세계 3D 인식으로 분야를 이끈다.
SAM 3D Objects는 기존 방법을 크게 능가하며 다양한 유형의 이미지에 걸쳐 잘 일반화되고 밀집 장면 재구성을 지원한다. 인간 선호도 일대일 테스트에서 다른 주요 모델에 비해 최소 5대 1의 승률을 달성했다. 이 모델은 확산 바로가기 및 기타 엔지니어링 최적화를 통해 몇 초 내에 비슷한 품질의 전체 텍스처 재구성을 반환할 수 있다. 이를 통해 로봇 공학을 위한 3D 인식 모듈로 작동하는 것과 같은 거의 실시간 3D 애플리케이션이 가능하다.
복잡한 상황에서도 정확한 인체 추정
SAM 3D Body는 단일 이미지에서 정확한 3D 인간 포즈 및 형태 추정에 대한 필요성을 해결한다. 비정상적인 자세, 이미지의 차단된 부분 또는 여러 사람이 포함된 복잡한 상황에서도 작동한다. SAM 3D Body는 프롬프트 가능하도록 설계되어 세그멘테이션 마스크 및 2D 키 포인트와 같은 대화형 입력을 지원하여 사람들이 모델이 예측하는 내용을 안내하고 제어할 수 있다.
이 모델은 Meta Momentum Human Rig(MHR)이라는 새로운 오픈 소스 3D 메시 형식을 활용한다. MHR은 인체의 골격 구조와 연조직 형태를 분리하여 향상된 해석 가능성을 제공한다. 트랜스포머 인코더-디코더 아키텍처를 기반으로 MHR 메시 매개변수를 예측하며, 이미지 인코더는 신체 부위의 고해상도 세부 사항을 캡처하기 위한 다중 입력 설계를 채택하고, 메시 디코더는 프롬프트 기반 예측을 지원하도록 확장되었다.
SAM 3D Body는 대규모 고품질 데이터와 강력한 훈련 전략을 활용하여 정확하고 강력한 3D 인간 포즈 및 형태 추정을 제공한다. 수십억 개의 이미지로 구성된 대규모 데이터세트로 시작하여 다양한 사진 컬렉션, 다양한 다중 카메라 캡처 시스템의 고품질 비디오, 전문적으로 구성된 합성 데이터의 이미지를 사용한다. 그런 다음 확장 가능한 자동화된 데이터 엔진을 사용하여 비정상적인 포즈와 희귀한 캡처 조건이 있는 이미지를 선택하여 고가치 이미지를 채굴한다. 약 800만 개의 이미지로 구성된 고품질 훈련 데이터세트를 구성했으며, 이는 차폐, 희귀한 자세 및 다양한 의복에 강건하도록 모델을 훈련하는 데 사용된다.
게임, 영화, 로봇 공학 분야에 파급 효과 기대
메타는 이번 발표와 함께 코덱 아바타와 같은 메타의 기술을 지원하는 파라메트릭 인간 모델인 MHR을 허용적 상업 라이선스로 공개했다. SAM 3D Body는 정확성과 강건성에서 단계적 변화를 보이며 여러 3D 벤치마크에서 이전 모델을 능가한다.
메타는 모든 사람이 플레이그라운드에서 SAM 3D의 기능을 탐색하도록 권장하며, 자신의 이미지를 업로드하고 인간과 객체를 3D로 재구성할 수 있다. 이 모델은 시각적 참여 및 공간 이해에 의존하는 산업의 작업을 향상시킬 잠재력을 가지고 있다. 특히 게임, 영화 및 로봇 공학 분야에서 영향이 클 것으로 예상된다. 메타는 SAM 3D가 크리에이터, 개발자 및 연구자 모두에게 새로운 가능성을 열어줄 것으로 기대하고 있다.
한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org