엔비디아가 공개한 Nemotron 3 Nano Omni 모델...비전, 오디오, 언어를 하나로 통합한 멀티모달 AI 모델

2026년 4월 29일

2분

엔비디아가 30B 파라미터의 멀티모달 AI 모델을 공개하며 AI 에이전트 성능을 9배 향상시켰다.

[한국정보기술신문] 엔비디아는 4월 28일 Nemotron 3 Nano Omni라는 새로운 멀티모달 AI 모델을 공개했다. 이 모델은 텍스트, 이미지, 오디오, 비디오, 문서, 차트, 그래픽 인터페이스 등 다양한 형태의 입력을 처리할 수 있다. 기존에는 각각의 입력 형식을 처리하기 위해 별도의 모델들이 필요했지만, 이제 하나의 모델로 모든 것을 통합해서 처리할 수 있다는 의미다.

강력한 성능, 9배 빠른 처리 속도

Nemotron 3 Nano Omni는 30B 파라미터를 가진 MoE 구조로 설계되었다. 혼합 전문가(MoE) 기술을 통해 필요한 부분만 활성화되도록 구성되어 있다. 모델은 256K 토큰의 긴 컨텍스트 윈도우를 지원한다. 이는 매우 길고 복잡한 문서나 대화 내용을 한 번에 처리할 수 있다는 뜻이다.

가장 주목할 만한 성능은 처리 속도다. 엔비디아에 따르면 이 모델은 다른 공개 멀티모달 모델들보다 9배 높은 처리량을 제공한다. 같은 수준의 상호작용성을 유지하면서도 훨씬 빠르게 작동한다. 또한 문서 이해와 오디오-비디오 분석 분야에서 6개의 리더보드 상위에 올랐다.

AI 에이전트의 지각 계층 역할

이 모델의 핵심 용도는 AI 에이전트 시스템에서 지각 계층 역할을 하는 것이다. 예를 들어 컴퓨터를 사용하는 AI 에이전트가 화면에 나타난 것들을 이해하려면 이 모델이 필요하다. 1920x1080 해상도의 그래픽 인터페이스를 자동으로 조작할 수 있다.

문서 분석에도 탁월하다. 회계 문서, 계약서, 보고서 같은 복잡한 시각적 정보와 텍스트가 섞인 자료들을 빠르게 이해할 수 있다. 고객 서비스나 시설 모니터링 같은 오디오-비디오 분석이 필요한 작업도 처리할 수 있다. 이러한 다양한 활용 사례는 기업들의 업무 자동화를 크게 앞당길 수 있다.

광범위한 플랫폼 지원

Nemotron 3 Nano Omni는 다양한 플랫폼에서 즉시 사용할 수 있다. Hugging Face, OpenRouter, 엔비디아의 build.엔비디아.com 서비스에서 접근할 수 있다. 또한 25개 이상의 파트너 플랫폼에서도 지원하고 있다.

배포 환경도 다양하게 지원한다. 엔비디아 Jetson 같은 엣지 디바이스부터 대규모 클라우드 인프라까지 모두 가능하다. 기업이 자신의 환경에 맞게 선택해서 사용할 수 있다.

이미 시작된 실제 도입

많은 기업들이 이미 이 모델을 실제로 사용하고 있다. Aible, Foxconn, Palantir 같은 유명 기업들이 모델을 구현하고 있다. 추가로 더 많은 기업들이 평가 단계에 있다고 한다.

이러한 빠른 도입은 모델의 실용적 가치를 보여준다. 기업들은 이 모델을 통해 기존에 복잡했던 자동화 작업들을 더 간단하게 처리할 수 있게 된다. 엔비디아는 계속해서 모델을 개선하고 지원할 계획이라고 밝혔다.

한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org

엔비디아가 공개한 Nemotron 3 Nano Omni 모델...비전, 오디오, 언어를 하나로 통합한 멀티모달 AI 모델

강력한 성능, 9배 빠른 처리 속도

AI 에이전트의 지각 계층 역할

광범위한 플랫폼 지원

이미 시작된 실제 도입

함께 읽으면 좋은 기사

엔비디아가 공개한 Nemotron 3 Nano Omni 모델...비전, 오디오, 언어를 하나로 통합한 멀티모달 AI 모델

엔씨, 로블록스 코리아와 마케팅 MOU 체결...NCFZ PC방 협력

구글 번역 20주년...AI 기반 발음 연습 기능 추가...글로벌 소통 강화

Ghostty, 깃허브 떠난다...서비스 불안정성을 이유로 자체 서비스로 이전 예정