인공지능 · 정보통신 ·
엔비디아 블랙웰 플랫폼, AI 추론 비용 최대 10배 절감...오픈소스 모델 산업 확산 가속화
의료·게임·고객서비스 등 다양한 산업에서 토큰당 비용 획기적 감소
[한국정보기술신문] 엔비디아가 차세대 블랙웰 플랫폼을 통해 AI 추론 비용을 최대 10배까지 절감하며 오픈소스 AI 모델의 대중화를 이끌고 있다. 베이스텐(Baseten), 딥인프라(DeepInfra), 파이어웍스 AI, 투게더 AI 등 주요 추론 서비스 제공업체들이 블랙웰을 도입해 토큰당 비용을 대폭 낮추면서 의료, 게임, 고객 서비스 등 다양한 산업 분야에서 AI 활용이 급속도로 확대되고 있다.
엔비디아는 2월 12일 공식 블로그를 통해 블랙웰 플랫폼이 기존 호퍼 플랫폼 대비 토큰당 비용을 최대 10배 절감한다고 밝혔다. 토큰은 AI가 처리하는 정보의 기본 단위로, AI 서비스 비용을 결정하는 핵심 요소다. MIT의 최근 연구에 따르면 인프라와 알고리즘 효율성 향상으로 최첨단 성능의 추론 비용이 연간 최대 10배씩 감소하고 있다.
의료 분야, 추론 비용 90% 절감하며 의사 시간 3000만분 확보
의료 분야에서는 Sully.ai가 베이스텐의 모델 API를 활용해 블랙웰 GPU에서 gpt-oss-120b와 같은 오픈소스 모델을 운영하며 추론 비용을 90% 절감했다. 이는 기존 폐쇄형 모델 대비 10배 비용 감소를 의미한다. 또한 의료 기록 생성과 같은 핵심 업무의 응답 시간도 65% 개선됐다.
Sully.ai는 의료 코딩, 문서 작성, 보험 양식 관리 등 의사들의 반복적인 업무를 처리하는 'AI 직원'을 개발하는 기업이다. 자체 개발한 폐쇄형 모델을 사용할 때는 실시간 임상 업무에서 예측 불가능한 지연시간, 수익보다 빠르게 증가하는 추론 비용, 모델 품질과 업데이트에 대한 통제권 부족 등의 문제에 직면했다.
베이스텐은 저정밀도 NVFP4 데이터 형식, 엔비디아 TensorRT-LLM 라이브러리, 엔비디아 다이나모 추론 프레임워크를 활용해 최적화된 추론을 제공했다. 호퍼 플랫폼 대비 달러당 처리량이 최대 2.5배 향상된 블랙웰을 선택한 결과, Sully.ai는 지금까지 3000만분 이상의 시간을 의사들에게 돌려줬다. 이는 이전에 데이터 입력과 수작업에 소비되던 시간이다.
게임 산업, 토큰당 비용 4배 절감으로 AI 네이티브 게임 구현
게임 분야에서는 라티튜드(Latitude)가 딥인프라의 블랙웰 기반 추론 플랫폼을 활용해 대규모 혼합 전문가(MoE) 모델의 토큰당 비용을 4배 절감했다. 딥인프라는 호퍼에서 100만 토큰당 20센트였던 비용을 블랙웰에서 10센트로 낮췄고, 블랙웰의 네이티브 저정밀도 NVFP4 형식을 활용해 5센트까지 추가 절감했다.
라티튜드는 'AI Dungeon'이라는 텍스트 기반 어드벤처 게임과 곧 출시될 AI 기반 롤플레잉 게임 플랫폼 Voyage를 개발하고 있다. 플레이어의 모든 행동이 추론 요청을 발생시키기 때문에 비용이 참여도에 비례해 증가하며, 원활한 경험을 위해 응답 시간을 빠르게 유지해야 하는 과제를 안고 있었다.
블랙웰 기반 플랫폼을 통해 라티튜드는 비용 효율적으로 빠르고 안정적인 응답을 제공할 수 있게 됐다. 딥인프라의 추론 플랫폼은 트래픽 급증을 안정적으로 처리하면서도 이러한 성능을 제공해, 라티튜드가 플레이어 경험을 저하시키지 않으면서도 더욱 강력한 모델을 배포할 수 있도록 지원한다.
에이전틱 AI, 주당 560만 건 쿼리 처리하며 비용 50% 절감
Sentient Labs는 파이어웍스 AI의 블랙웰 기반 추론 플랫폼을 활용해 기존 호퍼 기반 배포 대비 25~50%의 비용 효율성을 달성했다. Sentient Labs는 오픈소스 추론 AI 시스템 구축에 집중하는 기업으로, 첫 번째 애플리케이션인 Sentient Chat은 복잡한 다중 에이전트 워크플로우를 조율하고 커뮤니티의 12개 이상 전문 AI 에이전트를 통합한다.
단일 사용자 쿼리가 자율적 상호작용의 연쇄 반응을 일으켜 막대한 컴퓨팅 수요를 발생시키고 비용이 많이 드는 인프라 오버헤드로 이어진다는 문제를 안고 있었다. 파이어웍스의 블랙웰 최적화 추론 스택을 통해 GPU당 처리량이 향상되면서 동일한 비용으로 훨씬 더 많은 동시 사용자를 지원할 수 있게 됐다.
플랫폼의 확장성은 24시간 동안 180만명의 대기자 명단을 확보한 바이럴 출시를 지원했으며, 일주일 동안 560만건의 쿼리를 처리하면서도 일관되게 낮은 지연시간을 제공했다.
고객 서비스, 쿼리당 비용 6배 감소로 24시간 음성 AI 지원 실현
고객 서비스 분야에서는 데카곤(Decagon)이 투게더 AI의 블랙웰 기반 추론을 활용해 쿼리당 비용을 6배 절감했다. 데카곤은 기업 고객 지원을 위한 AI 에이전트를 구축하며, AI 기반 음성이 가장 까다로운 채널이다. 음성 AI에서는 약간의 지연만으로도 사용자가 에이전트와 겹쳐 말하거나 전화를 끊거나 신뢰를 잃게 된다.
투게더 AI는 데카곤의 다중모델 음성 스택에 대한 프로덕션 추론을 블랙웰 GPU에서 실행한다. 양사는 더 작은 모델이 빠른 응답을 생성하고 더 큰 모델이 백그라운드에서 정확도를 검증하는 추론 디코딩, 반복되는 대화 요소를 캐싱해 응답 속도를 높이는 방식, 성능 저하 없이 트래픽 급증을 처리하는 자동 확장 구축 등 여러 핵심 최적화를 진행했다.
데카곤은 쿼리당 수천 개의 토큰을 처리할 때도 400밀리초 미만의 응답 시간을 달성했다. 하나의 음성 상호작용을 완료하는 총 비용인 쿼리당 비용은 독점 폐쇄형 모델 사용 대비 6배 감소했다. 이는 데카곤의 다중모델 접근법, 블랙웰의 극한 공동설계, 투게더의 최적화된 추론 스택이 결합된 결과다.
GB200 시스템, 토큰당 비용 10배 추가 절감...루빈 플랫폼으로 혁신 지속
엔비디아 GB200 NVL72 시스템은 추론 MoE 모델에 대해 호퍼 대비 10배의 토큰당 비용 절감을 제공하며 이러한 효과를 더욱 확대한다. 엔비디아의 컴퓨팅, 네트워킹, 소프트웨어를 아우르는 모든 스택 계층에 걸친 극한 공동설계와 파트너 생태계가 대규모로 토큰당 비용의 획기적인 절감을 실현하고 있다.
이러한 모멘텀은 엔비디아 루빈(Rubin) 플랫폼으로 이어진다. 루빈은 6개의 새로운 칩을 단일 AI 슈퍼컴퓨터로 통합해 블랙웰 대비 10배의 성능과 10배 낮은 토큰 비용을 제공할 예정이다.
한국정보기술신문 정보통신분과 김민재 기자 news@kitpa.org