인공지능 ·
애플, 단일 이미지로 3D 뷰 합성하는 'SHARP' 공개...1초 이내 처리 가능
기존 대비 합성 시간 1000배 단축, 고해상도 사진 사실적 이미지 생성
[한국정보기술신문] 애플이 단일 사진에서 사실적인 3D 뷰를 합성하는 혁신적인 기술 'SHARP'를 공개했다. 이 기술은 한 장의 사진만으로도 1초 이내에 3차원 가우시안 표현을 생성하고, 이를 통해 다양한 각도에서 고해상도 이미지를 실시간으로 렌더링할 수 있다.
SHARP는 'Sharp Monocular View Synthesis in Less Than a Second'의 약자로, Lars Mescheder, Wei Dong 등 애플 연구진이 개발했다. 이 기술은 arXiv에 게재된 논문을 통해 학계에 공개되었으며, 관련 소프트웨어 프로젝트는 GitHub를 통해 오픈소스로 배포되고 있다.
1초 이내 3D 가우시안 표현 생성
SHARP의 핵심은 신경망의 단일 순전파를 통해 표준 GPU에서 1초 이내에 3D 가우시안 표현의 매개변수를 회귀하는 방식이다. 생성된 3D 가우시안 표현은 실시간으로 렌더링이 가능하며, 인접한 시점에서 고해상도의 사진 사실적 이미지를 생성할 수 있다.
이 표현은 절대 스케일을 가진 메트릭 방식으로, 메트릭 카메라 움직임을 지원한다. 좌표계는 OpenCV 규칙을 따르며, x축은 오른쪽, y축은 아래쪽, z축은 앞쪽을 향한다. 3D 가우시안 스플랫 파일은 다양한 공개 렌더러와 호환되는 PLY 형식으로 저장된다.
성능 평가에서 압도적 우위
실험 결과에 따르면 SHARP는 여러 데이터셋에서 강력한 제로샷 일반화 성능을 보였다. 기존 최고 모델과 비교했을 때 LPIPS 지표는 25~34% 감소했고, DISTS 지표는 21~43% 감소했다. 특히 주목할 점은 합성 시간이 기존 대비 3자릿수, 즉 1000배 이상 단축되었다는 것이다.
연구진은 정량적 평가와 정성적 평가 모두를 논문에 상세히 기록했으며, 프로젝트 웹사이트에서는 관련 연구와의 비디오 비교를 포함한 여러 정성적 예시를 제공하고 있다.
오픈소스로 공개, 손쉬운 사용 가능
애플은 SHARP를 오픈소스로 공개하여 누구나 활용할 수 있도록 했다. 파이썬 환경을 구성한 후 requirements.txt 파일을 통해 간단히 설치할 수 있으며, 커맨드라인 인터페이스를 통해 이미지를 입력하고 3D 가우시안 결과물을 얻을 수 있다.
모델 체크포인트는 첫 실행 시 자동으로 다운로드되어 로컬에 캐시되며, 사용자가 직접 다운로드하여 사용할 수도 있다. 가우시안 예측은 CPU, CUDA, MPS 모두에서 작동하지만, 카메라 궤적 비디오 렌더링은 현재 CUDA GPU에서만 지원된다.
다양한 오픈소스 기여 활용
SHARP의 코드베이스는 여러 오픈소스 기여를 기반으로 구축되었으며, 이에 대한 상세한 내용은 ACKNOWLEDGEMENTS 파일에 명시되어 있다. 프로젝트는 Apache 라이선스와 모델 라이선스를 통해 배포되고 있으며, 사용 전 라이선스 조건을 확인할 것을 권장한다.
이번 SHARP의 공개는 단일 이미지 기반 3D 뷰 합성 기술의 새로운 이정표를 제시했다는 평가를 받고 있다. 특히 처리 속도의 획기적인 개선과 높은 품질의 결과물은 증강현실, 가상현실, 3D 콘텐츠 제작 등 다양한 분야에서 실용적으로 활용될 가능성을 열었다.
한국정보기술신문 인공지능분과 김주호 기자 news@kitpa.org