인공지능 · 정보통신 ·

NVIDIA, 자율주행·음성 AI 위한 오픈소스 모델 대거 공개...세계 최초 추론 기반 자율주행 모델 'Alpamayo-R1' 주목

발행일2025년 12월 9일

읽는 시간3분 35초

NeurIPS 2025에서 디지털·물리적 AI 발전 위한 70여 편 연구 논문 발표, 독립 벤치마크 통해 오픈소스 투명성 인정받아

NVIDIA가 자율주행과 음성 처리를 위한 차세대 오픈소스 AI 모델을 공개하며 물리적 AI 생태계 확장에 나섰다.

[한국정보기술신문] 엔비디아가 세계 최대 AI 컨퍼런스 중 하나인 NeurIPS에서 디지털 및 물리적 AI를 위한 오픈소스 모델과 데이터셋을 대거 공개했다. 특히 자율주행을 위한 세계 최초 산업 규모 추론 비전 언어 액션 모델인 NVIDIA DRIVE Alpamayo-R1이 연구 커뮤니티의 주목을 받고 있다.

12월 1일 발표된 이번 릴리스는 음성 AI 및 AI 안전성을 위한 새로운 모델과 데이터셋을 포함하고 있으며, 엔비디아는 NeurIPS에서 70편 이상의 논문과 워크숍을 발표하며 AI 추론, 의료 연구, 자율주행 개발 등 다양한 분야의 혁신적인 프로젝트를 공유했다.

독립 AI 벤치마크 기관인 Artificial Analysis는 최근 공개한 오픈니스 지수를 통해 NVIDIA Nemotron 기술 제품군을 AI 생태계에서 가장 개방적인 기술 중 하나로 평가했다. 이 지수는 모델 라이선스의 허용성, 데이터 투명성, 기술적 세부 사항의 가용성을 기준으로 평가한다.

자율주행 연구의 새로운 지평 여는 'Alpamayo-R1'

NVIDIA DRIVE Alpamayo-R1은 자율주행 차량 연구를 위한 세계 최초 오픈 추론 비전 언어 액션 모델로, 생각의 연쇄를 활용한 AI 추론과 경로 계획을 통합했다. 이는 복잡한 도로 상황에서 자율주행 차량의 안전성을 향상시키고 레벨 4 자율주행을 구현하는 데 핵심적인 요소다.

기존 자율주행 모델들이 보행자가 많은 교차로, 차선 폐쇄 구간, 자전거 도로에 불법 주차된 차량 등 미묘한 상황에서 어려움을 겪었던 반면, 추론 기능은 자율주행 차량에 인간과 유사한 상식적 판단 능력을 부여한다.

AR1은 시나리오를 세분화하고 각 단계를 추론하는 방식으로 작동한다. 가능한 모든 경로를 고려한 후 상황에 맞는 데이터를 활용해 최적의 경로를 선택한다. 예를 들어 자전거 도로 옆 보행자가 많은 지역을 주행하는 자율주행 차량은 경로 데이터를 입력받고, 특정 행동을 취한 이유에 대한 추론 흔적을 통합해 자전거 도로에서 멀어지거나 무단횡단 가능성에 대비해 정지하는 등 미래 경로를 계획할 수 있다.

NVIDIA Cosmos Reason을 기반으로 한 AR1의 오픈 소스 특성은 연구자들이 비상업적 용도로 벤치마킹이나 실험적 자율주행 애플리케이션 구축을 위해 모델을 맞춤화할 수 있도록 한다. 강화학습은 AR1의 사후 학습에 특히 효과적인 것으로 입증되었으며, 연구자들은 사전 학습된 모델과 비교해 AR1의 추론 능력이 크게 향상된 것을 관찰했다.

NVIDIA DRIVE Alpamayo-R1은 현재 GitHub와 Hugging Face에서 사용할 수 있으며, 모델 학습 및 평가에 사용된 데이터의 일부는 NVIDIA Physical AI Open Datasets에서 제공된다. 엔비디아는 또한 AR1을 평가하기 위한 오픈소스 AlpaSim 프레임워크도 공개했다.

Cosmos 기반 물리적 AI 확장

개발자들은 이제 Cosmos Cookbook을 통해 단계별 레시피, 빠른 시작 추론 예제, 고급 사후 학습 워크플로우를 활용해 Cosmos 기반 모델을 사용하고 사후 학습하는 방법을 배울 수 있다. 이는 데이터 큐레이션, 합성 데이터 생성, 모델 평가 등 AI 개발의 모든 단계를 다루는 물리적 AI 개발자를 위한 종합 가이드다.

엔비디아가 공개한 최신 Cosmos 기반 애플리케이션에는 자율주행 시뮬레이션을 위한 라이다 데이터를 생성할 수 있는 최초의 월드 모델인 LidarGen, 신경망으로 재구성된 데이터의 아티팩트를 거의 즉시 해결하는 Omniverse NuRec Fixer, 대규모 사전 학습된 비디오 모델을 강력한 로봇 정책으로 전환하는 프레임워크인 Cosmos Policy, 물리적으로 시뮬레이션된 디지털 휴먼과 휴머노이드 로봇을 훈련하기 위한 오픈소스 GPU 가속 프레임워크인 ProtoMotions3 등이 포함된다.

디지털 AI 개발자 툴킷 강화하는 Nemotron

엔비디아는 또한 다중 화자 음성 AI 모델, 추론 기능을 갖춘 새로운 모델, AI 안전성을 위한 데이터셋과 함께 강화학습 및 도메인 특화 모델 커스터마이징을 위한 고품질 합성 데이터셋을 생성하는 오픈 도구를 공개했다.

새로 공개된 도구에는 중첩되거나 빠른 대화에서도 여러 화자를 이해할 수 있는 스트리밍 오디오용 자동 음성 인식 모델인 MultiTalker Parakeet, 오디오 스트림 내에서 여러 화자를 실시간으로 정확하게 구분할 수 있는 최첨단 모델인 Sortformer가 포함된다.

또한 도메인 전반에 걸쳐 맞춤형 정책을 동적으로 시행하는 추론 기반 AI 안전 모델인 Nemotron Content Safety Reasoning, 안전하지 않은 오디오 콘텐츠를 감지하는 모델 훈련을 돕는 합성 데이터셋인 Nemotron Content Safety Audio Dataset도 공개되었다.

이 외에도 LLM 훈련을 위한 강화학습 환경 개발을 가속화하고 단순화하는 오픈소스 라이브러리인 NeMo Gym과 생성형 AI 개발을 위한 고품질 합성 데이터셋을 생성, 검증, 정제하는 엔드 투 엔드 툴킷을 제공하는 NeMo Data Designer Library가 포함되었다.

CrowdStrike, Palantir, ServiceNow 등 엔비디아의 생태계 파트너들은 안전하고 전문화된 에이전트 AI를 구축하기 위해 NVIDIA Nemotron과 NeMo 도구를 사용하고 있다.

언어 AI 혁신 주도하는 연구 성과

엔비디아가 NeurIPS에 제출한 수십 편의 연구 논문 중 주목할 만한 성과로는 음성, 소리, 음악 전반에 걸쳐 추론할 수 있는 대규모 오디오 언어 모델인 Audio Flamingo 3, 하이브리드 모델을 압축할 수 있는 프루닝 방법을 소개하는 Minitron-SSM이 있다.

또한 실제 지연 시간을 중심으로 소형 언어 모델을 재설계해 최첨단 속도와 정확도를 달성한 Nemotron-Flash, 모델 훈련을 장기간에 걸쳐 확장하는 기법을 설명하는 ProRL 등이 발표되었다.

NeurIPS는 12월 7일 일요일까지 샌디에이고에서 진행된다. NeurIPS 첫날인 12월 1일 오후 4시부터 8시까지 열린 Nemotron Summit에서는 엔비디아 응용 딥러닝 연구 부사장 Bryan Catanzaro의 개회사와 함께 이러한 혁신 기술들이 소개되었다.

한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org