한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 ·

AI 구독 서비스, '토큰 쇼트 스퀴즈'로 생존 위기 직면, 월 20달러 정액제 모델 한계 드러나…클로드 코드 무제한 서비스 철회

발행일
읽는 시간3분 19초

[한국정보기술신문] 인공지능(AI) 서비스 업계에서 '토큰 쇼트 스퀴즈' 현상으로 인해 월 정액 구독 모델이 근본적인 한계에 직면하고 있다. AI 모델의 추론 비용이 매년 10배씩 하락하고 있음에도 불구하고, 구독 서비스 제공업체들의 수익성은 오히려 악화되고 있는 것으로 나타났다.

업계 전문가에 따르면, GPT-3.5의 비용이 과거 대비 10배 저렴해졌지만, 소비자들은 더 이상 구형 모델을 사용하지 않고 있다. 최신 최고 성능(SOTA) 모델에 대한 수요가 99%에 달하면서, 비용 절감 효과가 상쇄되고 있는 상황이다.

최신 모델 가격은 여전히 고가 유지

image.png
a16z Infrastructure 제공

최신 AI 모델들의 가격 추이를 살펴보면, GPT-4가 60달러로 출시된 이후 클로드 3 오푸스 역시 동일한 가격대를 유지하고 있다. 이전 세대 모델인 GPT-3.5가 26배 저렴해졌음에도 불구하고, 소비자들은 성능이 뛰어난 최신 모델을 선호하고 있다.

AI 서비스를 이용하는 사용자들은 코딩, 글쓰기, 사고 과정에서 항상 최고 품질의 AI를 원한다. 업계 관계자는 "누구도 클로드를 열고 '상사의 돈을 절약하기 위해 성능이 떨어지는 버전을 사용하자'고 생각하지 않는다"고 설명했다.

토큰 소비량 폭발적 증가가 주원인

image.png
METR 제공

더 심각한 문제는 AI 모델이 소비하는 토큰 수가 기하급수적으로 증가하고 있다는 점이다. 과거 ChatGPT가 한 문장 질문에 한 문장으로 답변하던 시절과 달리, 현재는 딥 리서치 기능이 3분간 계획을 세우고 20분간 자료를 읽은 후 5분간 보고서를 작성하는 방식으로 발전했다.

강화학습과 테스트 타임 컴퓨팅의 폭발적 발전으로 AI가 완료할 수 있는 작업의 길이가 6개월마다 두 배씩 증가하고 있다. 과거 1,000토큰으로 처리되던 작업이 현재는 10만 토큰을 소비하는 상황이다.

2027년 예상 비용은 일일 4,320달러

업계 전망에 따르면, 현재 20분간의 '딥 리서치' 실행에 약 1달러가 소요되지만, 2027년에는 24시간 연속 실행되는 에이전트가 등장하여 일일 4,320달러의 비용이 발생할 것으로 예상된다. 여러 에이전트를 병렬로 실행할 경우 비용은 더욱 급증할 전망이다.

이는 월 20달러 구독료로는 감당할 수 없는 수준이다. 사용자가 하루에 1달러짜리 딥 리서치를 한 번만 실행해도 월 구독료를 초과하는 상황이 발생하고 있다.

앤스로픽의 클로드 코드 실험 실패

앤스로픽(Anthropic)이 클로드 코드에서 시도한 월 200달러 무제한 서비스는 이러한 문제를 해결하기 위한 정교한 시도였다. 커서(Cursor)가 월 20달러를 책정한 상황에서 10배 높은 가격을 설정하고, 부하에 따라 오푸스에서 소네트로 자동 전환하며, 사용자 기기로 처리 작업을 이관하는 등의 전략을 구사했다.

그러나 일부 사용자가 한 달간 100억 토큰을 소비하면서 실험은 실패로 끝났다. 이는 『전쟁과 평화』를 12,500번 복사한 분량에 해당한다. 사용자들이 10-20분 연속 실행을 통해 '반복문'을 발견하고, 24시간 코드 변환 엔진을 운영하면서 토큰 소비가 1000배 증가한 것이다.

업계 전체의 죄수의 딜레마

현재 AI 업계는 전형적인 죄수의 딜레마 상황에 직면해 있다. 모든 회사가 사용량 기반 요금제를 도입하면 지속 가능한 산업이 될 수 있지만, 모든 회사가 정액제를 유지하면 바닥으로의 경쟁이 벌어진다.

사용량 기반 요금제를 도입하는 회사는 벤처캐피털 지원을 받는 경쟁사의 월 20달러 무제한 서비스에 밀려 시장에서 도태될 가능성이 높다. 커서, 러버블, 리플릿 등 모든 업체가 이러한 수학적 계산을 알고 있지만, 현재의 성장을 선택하고 미래의 수익성은 차기 CEO의 문제로 미루고 있는 상황이다.

image.png
Viberank 제공

업계 전문가들은 토큰 쇼트 스퀴즈를 피할 수 있는 세 가지 전략을 제시하고 있다. 첫 번째는 첫날부터 사용량 기반 요금제를 도입하는 것이다. 하지만 소비자들은 측정된 과금을 싫어하며, 넷플릭스, 스포티파이, ChatGPT 등 성공적인 소비자 구독 서비스는 모두 정액제 방식이다.

두 번째는 높은 전환 비용을 통한 고수익률 확보다. 데빈(Devin)이 최근 시티그룹과 골드만삭스와의 파트너십을 발표하며 각각 4만 명의 소프트웨어 엔지니어에게 서비스를 배포하는 전략이 이에 해당한다. 월 20달러로는 1,000만 달러 프로젝트에 불과하지만, 6개월간의 구현, 규정 준수 검토, 보안 감사 등을 거쳐 확보한 기업 고객은 이탈이 거의 불가능하다.

세 번째 전략은 수직 통합을 통한 인프라 계층에서의 수익 확보다. 리플릿이 추진하는 방식으로, 코딩 에이전트를 애플리케이션 호스팅, 데이터베이스 관리, 배포 모니터링 등과 번들로 제공하는 것이다. AI 추론에서는 손실을 보더라도 개발자들이 필요로 하는 모든 다른 계층에서 가치를 포착하는 전략이다.

image.png
@mattppal SNS(X, 구 트위터) 제공

코드 생성은 자연스럽게 호스팅 수요를 창출하며, 모든 앱은 실행할 곳이 필요하고, 모든 데이터베이스는 관리가 필요하며, 모든 배포는 모니터링이 필요하다. OpenAI와 앤스로픽이 추론 비용을 0에 가깝게 경쟁하는 동안, 다른 모든 것을 소유하고 추론을 마케팅 비용으로 활용하는 전략이다.

업계 전문가들은 "내년에 모델이 10배 저렴해질 것"이라고 주장하는 창업자들을 여전히 목격하고 있지만, 사용자들은 그보다 20배 더 많은 성능을 기대할 것이라고 경고하고 있다. 골대는 지속적으로 멀어지고 있으며, 정액 구독 모델로 무제한 사용량을 제공하는 것은 더 이상 불가능해 보인다.

윈드서프(Windsurf)도 커서의 압박으로 인해 해결책을 찾지 못해 매각되었으며, 지구상에서 가장 수직 통합된 애플리케이션 계층을 보유한 앤스로픽조차 무제한 사용량의 정액 구독을 성공시키지 못했다. 현재 정액제를 유지하며 성장만을 추구하는 기업들은 "매우 비싼 장례식이 4분기에 예정된 죽은 회사들"이라는 평가를 받고 있다.

한국정보기술신문 인공지능분과 이지원 기자 news@kitpa.org