엔비디아가 공개한 Nemotron 3 Nano Omni 모델...비전, 오디오, 언어를 하나로 통합한 멀티모달 AI 모델
2026년 4월 29일
2분
엔비디아가 30B 파라미터의 멀티모달 AI 모델을 공개하며 AI 에이전트 성능을 9배 향상시켰다.
[한국정보기술신문] 엔비디아는 4월 28일 Nemotron 3 Nano Omni라는 새로운 멀티모달 AI 모델을 공개했다. 이 모델은 텍스트, 이미지, 오디오, 비디오, 문서, 차트, 그래픽 인터페이스 등 다양한 형태의 입력을 처리할 수 있다. 기존에는 각각의 입력 형식을 처리하기 위해 별도의 모델들이 필요했지만, 이제 하나의 모델로 모든 것을 통합해서 처리할 수 있다는 의미다.

강력한 성능, 9배 빠른 처리 속도
Nemotron 3 Nano Omni는 30B 파라미터를 가진 MoE 구조로 설계되었다. 혼합 전문가(MoE) 기술을 통해 필요한 부분만 활성화되도록 구성되어 있다. 모델은 256K 토큰의 긴 컨텍스트 윈도우를 지원한다. 이는 매우 길고 복잡한 문서나 대화 내용을 한 번에 처리할 수 있다는 뜻이다.
가장 주목할 만한 성능은 처리 속도다. 엔비디아에 따르면 이 모델은 다른 공개 멀티모달 모델들보다 9배 높은 처리량을 제공한다. 같은 수준의 상호작용성을 유지하면서도 훨씬 빠르게 작동한다. 또한 문서 이해와 오디오-비디오 분석 분야에서 6개의 리더보드 상위에 올랐다.
AI 에이전트의 지각 계층 역할
이 모델의 핵심 용도는 AI 에이전트 시스템에서 지각 계층 역할을 하는 것이다. 예를 들어 컴퓨터를 사용하는 AI 에이전트가 화면에 나타난 것들을 이해하려면 이 모델이 필요하다. 1920x1080 해상도의 그래픽 인터페이스를 자동으로 조작할 수 있다.
문서 분석에도 탁월하다. 회계 문서, 계약서, 보고서 같은 복잡한 시각적 정보와 텍스트가 섞인 자료들을 빠르게 이해할 수 있다. 고객 서비스나 시설 모니터링 같은 오디오-비디오 분석이 필요한 작업도 처리할 수 있다. 이러한 다양한 활용 사례는 기업들의 업무 자동화를 크게 앞당길 수 있다.
광범위한 플랫폼 지원
Nemotron 3 Nano Omni는 다양한 플랫폼에서 즉시 사용할 수 있다. Hugging Face, OpenRouter, 엔비디아의 build.엔비디아.com 서비스에서 접근할 수 있다. 또한 25개 이상의 파트너 플랫폼에서도 지원하고 있다.
배포 환경도 다양하게 지원한다. 엔비디아 Jetson 같은 엣지 디바이스부터 대규모 클라우드 인프라까지 모두 가능하다. 기업이 자신의 환경에 맞게 선택해서 사용할 수 있다.
이미 시작된 실제 도입
많은 기업들이 이미 이 모델을 실제로 사용하고 있다. Aible, Foxconn, Palantir 같은 유명 기업들이 모델을 구현하고 있다. 추가로 더 많은 기업들이 평가 단계에 있다고 한다.
이러한 빠른 도입은 모델의 실용적 가치를 보여준다. 기업들은 이 모델을 통해 기존에 복잡했던 자동화 작업들을 더 간단하게 처리할 수 있게 된다. 엔비디아는 계속해서 모델을 개선하고 지원할 계획이라고 밝혔다.
한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org



