인공지능 · 정보통신 ·
엔비디아, AI 모델 파인튜닝 도구 '언슬로스' 최적화...네모트론 3 나노 모델 공개
엔비디아가 RTX GPU 및 DGX 스파크에서 언슬로스를 통한 대규모 언어모델 파인튜닝을 최적화하고, 새로운 네모트론 3 모델 패밀리를 발표했다.
[한국정보기술신문] 엔비디아가 자사의 GPU에서 대규모 언어모델의 파인튜닝을 가속화하는 오픈소스 프레임워크 언슬로스를 최적화했다고 15일 발표했다. 이와 함께 에이전트 AI 애플리케이션 구축에 최적화된 새로운 네모트론 3 모델 패밀리도 공개했다.
언슬로스는 전 세계에서 가장 널리 사용되는 LLM 파인튜닝 오픈소스 프레임워크 중 하나로, 엔비디아 GPU에서 효율적이고 저메모리 학습을 제공하도록 최적화됐다. 지포스 RTX 데스크톱과 노트북부터 RTX PRO 워크스테이션, 세계에서 가장 작은 AI 슈퍼컴퓨터인 DGX 스파크까지 다양한 하드웨어에서 작동한다.
엔비디아에 따르면 언슬로스는 허깅페이스 트랜스포머 라이브러리의 성능을 엔비디아 GPU에서 2.5배 향상시킨다. 이러한 GPU 특화 최적화와 함께 사용 편의성은 AI 애호가와 개발자들이 파인튜닝에 더 쉽게 접근할 수 있도록 돕는다.
파인튜닝 방법론과 요구사항
파인튜닝은 AI 모델에 집중 훈련을 제공하는 것과 같다. 특정 주제나 워크플로와 관련된 예시를 통해 모델은 새로운 패턴을 학습하고 당면 과제에 적응함으로써 정확도를 향상시킨다.
엔비디아는 세 가지 주요 파인튜닝 방법을 제시했다. 먼저 LoRA나 QLoRA와 같은 파라미터 효율적 파인튜닝은 모델의 작은 부분만 업데이트해 더 빠르고 저렴한 훈련을 가능하게 한다. 이 방법은 100개에서 1000개의 프롬프트 샘플 쌍으로 구성된 중소 규모 데이터셋이 필요하다.
전체 파인튜닝은 모델의 모든 파라미터를 업데이트하며, 특정 형식이나 스타일을 따르도록 모델을 가르치는 데 유용하다. 이는 1000개 이상의 프롬프트 샘플 쌍으로 구성된 대규모 데이터셋을 필요로 한다.
강화학습은 피드백이나 선호도 신호를 사용해 모델의 행동을 조정한다. 이 방법은 법률이나 의학과 같은 특정 영역에서 모델의 정확도를 향상시키는 데 사용된다.
네모트론 3 패밀리 출시
엔비디아는 새로운 네모트론 3 모델 패밀리를 공개했다. 나노, 슈퍼, 울트라 크기로 제공되는 이 모델들은 새로운 하이브리드 잠재 전문가 혼합 아키텍처를 기반으로 구축됐으며, 에이전트 AI 애플리케이션 구축에 이상적이다.
현재 제공되는 네모트론 3 나노 30B-A3B는 라인업에서 가장 컴퓨팅 효율적인 모델이다. 소프트웨어 디버깅, 콘텐츠 요약, AI 어시스턴트 워크플로, 낮은 추론 비용의 정보 검색과 같은 작업에 최적화됐다. 이 모델의 하이브리드 전문가 혼합 설계는 추론 토큰을 최대 60% 줄여 추론 비용을 크게 낮추고, 100만 토큰의 컨텍스트 윈도우를 제공해 긴 다단계 작업에 훨씬 더 많은 정보를 유지할 수 있다.
네모트론 3 슈퍼는 멀티 에이전트 애플리케이션을 위한 고정확도 추론 모델이며, 네모트론 3 울트라는 복잡한 AI 애플리케이션을 위한 모델이다. 두 모델 모두 2026년 상반기에 제공될 예정이다.
DGX 스파크의 강력한 성능
DGX 스파크는 로컬 파인튜닝을 가능하게 하며, 컴팩트한 데스크톱 슈퍼컴퓨터에서 놀라운 AI 성능을 제공한다. 엔비디아 그레이스 블랙웰 아키텍처를 기반으로 구축된 DGX 스파크는 최대 1페타플롭의 FP4 AI 성능을 제공하며 128GB의 통합 CPU-GPU 메모리를 포함한다.
파인튜닝을 위해 DGX 스파크는 더 큰 모델 크기, 더 고급 기법, 클라우드 대기열 없는 로컬 제어를 가능하게 한다. 300억 개 이상의 파라미터를 가진 모델은 종종 소비자 GPU의 VRAM 용량을 초과하지만 DGX 스파크의 통합 메모리에는 편안하게 맞는다.
한국정보기술신문 인공지능분과 권지현 기자 news@kitpa.org