한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 ·

NVIDIA, 추론 속도 6배 빠른 차세대 언어모델 구조 'TiDAR' 공개...확산과 자기회귀 결합한 혁신적 설계

발행일
읽는 시간3분 37초

NVIDIA가 언어모델의 추론 속도를 획기적으로 높인 새로운 아키텍처 'TiDAR'를 발표했다.

[한국정보기술신문] NVIDIA 연구팀이 대규모 언어모델의 추론 속도를 기존 대비 최대 6배 가량 향상시킬 수 있는 혁신적인 하이브리드 아키텍처 'TiDAR(Think in Diffusion, Talk in Autoregression)'를 개발했다고 11월 13일 발표했다. 이번 연구는 시카고 대학교 및 조지아 공과대학교와 공동으로 진행됐으며, 언어모델 추론 가속화 분야의 새로운 이정표가 될 것으로 전망된다.

확산과 자기회귀의 장점만 결합

TiDAR는 확산 모델(Diffusion Model)과 자기회귀 모델(Autoregressive Model)의 장점을 하나의 아키텍처에 통합한 것이 핵심이다. 확산 모델은 여러 토큰을 병렬로 생성할 수 있어 속도가 빠르지만 품질이 떨어지는 문제가 있었고, 자기회귀 모델은 높은 품질을 보장하지만 한 번에 하나의 토큰만 생성해 느린 한계가 있었다.

연구팀은 이러한 두 방식의 단점을 보완하기 위해 토큰 초안 작성 단계에서는 확산 방식으로 병렬 처리하고, 최종 샘플링 단계에서는 자기회귀 방식을 사용하는 하이브리드 구조를 고안했다. 특히 이 모든 과정이 단일 순방향 계산(single forward pass)에서 이뤄져 추가 오버헤드가 거의 없다는 점이 특징이다.

GPU의 '빈 토큰 슬롯' 활용한 효율성 극대화

스크린샷 2025-11-23 오전 11.50.42.png
TiDAR Architecture, 연구팀 제공
스크린샷 2025-11-23 오전 11.50.51.png
TiDAR Attention Masks, 연구팀 제공

TiDAR의 핵심 설계 철학은 현대 GPU의 '빈 토큰 슬롯(free token slots)'을 최대한 활용하는 것이다. 연구팀의 벤치마크 결과에 따르면, NVIDIA H100 GPU에서 특정 수준까지 토큰 수를 늘려도 지연시간이 거의 증가하지 않는 메모리 바운드(memory-bound) 구간이 존재한다. TiDAR는 이 구간을 활용해 추가 계산 비용 없이 병렬 토큰 생성과 샘플링을 수행한다.

이를 위해 연구팀은 특별히 설계된 구조화된 어텐션 마스크(structured attention mask)를 개발했다. 이 마스크는 입력 시퀀스의 서로 다른 부분에 대해 인과적(causal) 어텐션과 양방향(bidirectional) 어텐션을 동시에 적용할 수 있게 해준다.

품질 저하 없이 최대 5.91배 속도 향상

스크린샷 2025-11-23 오전 11.51.32.png
Efficiency-Quality Benchmarking, 연구팀 제공

연구팀이 공개한 성능 평가 결과는 놀라운 수준이다. 1.5B(15억) 파라미터 모델의 경우, 기존 자기회귀 모델 대비 품질 손실 없이 4.71배의 처리량 향상을 달성했다. 8B(80억) 파라미터 모델에서는 5.91배의 속도 향상을 기록하면서도 품질 저하가 최소화됐다.

구체적으로 TiDAR 1.5B 모델은 평균적으로 단일 모델 순방향 계산당 7.45개의 토큰을 생성했으며, 8B 모델은 8.25개의 토큰을 생성했다. 이는 기존의 추론 가속화 기법인 추측 디코딩(speculative decoding) 방식보다도 우수한 성능이다.

코딩과 수학 문제에서 경쟁력 입증

스크린샷 2025-11-23 오전 11.51.56.png
Generative Evaluation Results, 연구팀 제공
스크린샷 2025-11-23 오전 11.52.16.png
Likelihood Evaluation Results, 연구팀 제공

연구팀은 HumanEval, MBPP 등의 코딩 벤치마크와 GSM8K 등의 수학 문제 해결 과제에서 TiDAR의 성능을 검증했다. TiDAR 1.5B 모델은 HumanEval에서 43.29퍼센트, MBPP에서 41.40퍼센트, GSM8K에서 53.90퍼센트의 정확도를 기록했다.

8B 모델의 경우 더욱 인상적인 결과를 보였다. HumanEval에서 57.93퍼센트, MBPP에서 65.40퍼센트, GSM8K에서 80.44퍼센트의 정확도를 달성하며, Dream 7B나 LLaDA 8B 같은 기존 확산 언어모델들을 크게 앞질렀다.

훈련 효율성과 실용성 강조

TiDAR의 또 다른 장점은 훈련 과정의 단순성과 효율성이다. 기존 Qwen2.5 및 Qwen3 모델로부터 지속적 사전학습(continual pretraining) 방식을 채택했으며, 1.5B 모델의 경우 500억 개의 토큰으로, 8B 모델은 1500억 개의 토큰으로 학습을 진행했다.

특히 연구팀은 훈련 중 확산 부분의 모든 토큰을 마스크 토큰으로 설정하는 단순화된 전략을 제안했다. 이는 기존의 복잡한 마스킹 전략을 피하면서도 더 밀도 높은 손실 신호를 제공해 훈련 효율을 높였다.

추론 시 하이퍼파라미터 조정 불필요

스크린샷 2025-11-23 오전 11.53.14.png
Comparing Different Decoding Strategies, 연구팀 제공

기존 확산 언어모델들이 추론 과정에서 여러 하이퍼파라미터를 조정해야 했던 것과 달리, TiDAR는 추론 시 별도의 튜닝이 필요 없다는 장점이 있다. 이는 실제 서비스 환경에서의 적용을 용이하게 만든다.

또한 TiDAR는 기존 확산 모델들이 양방향 어텐션으로 인해 지원하지 못했던 정확한 KV 캐싱(Key-Value caching)을 완벽하게 지원한다. 이를 통해 토큰 재계산 없이 효율적인 추론이 가능하다.

추측 디코딩 기법 능가한 최초 사례

연구팀은 TiDAR가 확산 모델로서는 최초로 추측 디코딩 방식을 능가하는 처리량을 달성했다고 강조했다. 기존의 EAGLE-3 같은 추측 디코딩 방법들은 별도의 초안 작성 모델이 필요하고 순차적인 초안 작성과 검증 과정을 거쳐야 했다.

반면 TiDAR는 단일 모델로 초안 작성과 검증을 병렬로 수행한다. 이를 통해 높은 초안 수락률과 함께 우수한 변환율(토큰 수에서 초당 토큰 수로의 변환)을 달성했다.

향후 개선 방향 제시

연구팀은 논문에서 몇 가지 한계점과 개선 방향도 밝혔다. 현재 구현은 배치 크기 1에서의 효율성에 초점을 맞췄지만, 대규모 배치에서도 경쟁력 있는 성능을 보일 것으로 예상된다. 또한 훈련 시 시퀀스 길이를 두 배로 늘려야 하는 제약이 있어, 장문맥 확장을 위한 추가 연구가 필요하다고 밝혔다.

시스템 최적화 측면에서도 개선 여지가 있다. 현재는 PyTorch의 Flex Attention을 사용한 네이티브 구현으로도 상당한 성능 향상을 달성했지만, 커스텀 어텐션 커널과 스케줄링 알고리즘을 개발하면 하드웨어 특성에 맞춰 '빈 토큰 슬롯'을 더욱 효과적으로 활용할 수 있을 것으로 전망했다.

언어모델 추론 가속화의 새 장 열어

TiDAR의 등장은 대규모 언어모델의 실시간 서비스에 새로운 가능성을 제시한다. 특히 지연시간에 민감한 응용 분야에서 품질을 희생하지 않으면서도 대폭적인 속도 향상을 달성할 수 있다는 점에서 의미가 크다.

연구팀은 "TiDAR가 현대 GPU의 '빈 토큰 슬롯'의 한계를 밀어붙였으며, 지연시간이 중요한 응용 분야에서 추측 디코딩을 능가할 수 있음을 최초로 보여줬다"며 "이번 연구가 하이브리드 언어모델 아키텍처와 추론 기법에 대한 향후 연구에 중요한 동기를 부여할 것"이라고 밝혔다.

한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org