한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 ·

테슬라 AI 전 이사, "2025년 LLM은 유령 소환...동물 진화 아냐"...AI 지능의 새로운 패러다임 제시

발행일
읽는 시간4분 8초

테슬라 AI 전 이사 안드레이 카파시가 2025년을 LLM 발전의 전환점으로 평가했다.

[한국정보기술신문] 인공지능 분야의 저명한 연구자이자 테슬라 AI 부문 전 이사인 안드레이 카파시가 19일 자신의 블로그를 통해 2025년 대형 언어모델의 주요 패러다임 변화를 정리한 연간 리뷰를 발표했다. 카파시는 올해를 LLM 발전에 있어 강력하고 사건이 많았던 한 해로 평가하며, 개인적으로 주목할 만하고 다소 놀라웠던 6가지 패러다임 변화를 제시했다.

카파시는 LLM을 동물의 진화가 아닌 유령을 소환하는 것에 비유하며 새로운 관점을 제시했다. 그는 신경망 구조, 학습 데이터, 학습 알고리즘, 최적화 압력 등 모든 면에서 LLM 스택이 다르기 때문에 지능 공간에서 매우 다른 존재를 얻게 되며, 이를 동물의 렌즈로 생각하는 것은 부적절하다고 설명했다. 인간의 신경망은 정글에서 부족의 생존을 위해 최적화되었지만, LLM 신경망은 인류의 텍스트를 모방하고 수학 퍼즐에서 보상을 수집하며 인간의 평가를 받기 위해 최적화되었다는 것이다.

RLVR, 새로운 학습 단계로 부상

카파시가 가장 먼저 꼽은 변화는 검증 가능한 보상을 통한 강화학습인 RLVR의 등장이다. 2025년 초까지 모든 연구소의 LLM 생산 스택은 사전학습, 지도 미세조정, 인간 피드백 강화학습의 3단계로 구성되어 있었다. 그러나 2025년 RLVR이 이 조합에 추가되는 새로운 주요 단계로 부상했다.

RLVR은 수학이나 코드 퍼즐과 같은 여러 환경에서 자동으로 검증 가능한 보상에 대해 LLM을 학습시킨다. 이 과정에서 LLM은 자발적으로 인간에게 추론처럼 보이는 전략을 개발한다. 문제 해결을 중간 계산으로 분해하는 법을 배우고, 문제를 해결하기 위해 앞뒤로 오가는 여러 전략을 학습한다.

카파시는 RLVR이 객관적이고 조작할 수 없는 보상 함수에 대해 학습하기 때문에 훨씬 더 긴 최적화가 가능하다고 설명했다. 이로 인해 원래 사전학습에 사용될 예정이었던 컴퓨팅 자원이 RLVR로 전환되었으며, 2025년의 대부분의 성능 향상은 LLM 연구소들이 이 새로운 단계를 소화하는 과정에서 정의되었다. 그 결과 LLM의 크기는 비슷하지만 강화학습 실행 시간은 훨씬 길어졌다.

들쭉날쭉한 지능과 벤치마크의 한계

카파시는 2025년을 통해 자신과 업계 전체가 LLM 지능의 형태를 더 직관적으로 내재화하기 시작한 해라고 평가했다. 검증 가능한 영역에서 RLVR이 가능해지면서 LLM은 해당 영역 근처에서 성능이 급증하며 전체적으로 들쭉날쭉한 성능 특성을 보인다. 동시에 천재적인 박식가이면서도 혼란스럽고 인지적으로 어려움을 겪는 초등학생처럼 보이며, 탈옥 공격에 속아 데이터를 유출할 위험도 있다는 것이다.

이와 관련해 카파시는 2025년 벤치마크에 대한 무관심과 신뢰 상실을 언급했다. 벤치마크는 거의 구조상 검증 가능한 환경이기 때문에 즉시 RLVR과 합성 데이터 생성을 통한 약한 형태의 공격에 취약하다고 지적했다. 벤치마크 최적화 과정에서 연구팀들은 필연적으로 벤치마크가 차지하는 임베딩 공간의 작은 주머니에 인접한 환경을 구성하고 이를 커버하기 위해 성능 급증 현상을 키운다는 것이다.

커서와 클로드 코드, 새로운 앱 계층 개척

카파시는 커서가 올해 혜성같이 성장하며 LLM 앱의 새로운 계층을 설득력 있게 드러냈다고 평가했다. 커서와 같은 LLM 앱은 특정 분야를 위해 LLM 호출을 묶고 조율한다. 컨텍스트 엔지니어링을 수행하고, 여러 LLM 호출을 복잡한 방향성 비순환 그래프로 연결하며 성능과 비용의 균형을 맞추고, 특정 애플리케이션을 위한 GUI를 제공하며, 자율성 슬라이더를 제공한다.

특히 앤트로픽의 클로드 코드는 LLM 에이전트가 어떤 모습인지 처음으로 설득력 있게 보여준 사례로 꼽혔다. 카파시는 클로드 코드가 사용자의 컴퓨터에서 실행되며 개인 환경, 데이터, 컨텍스트를 사용한다는 점에서 주목할 만하다고 강조했다. 오픈AI가 클라우드 컨테이너에 조기 에이전트 노력을 집중한 것과 달리 로컬호스트에 집중한 앤트로픽의 접근이 올바른 우선순위였다는 평가다.

중요한 구분은 AI 작업이 어디서 실행되느냐가 아니라 이미 부팅된 컴퓨터와 그 설치, 컨텍스트, 데이터, 비밀, 구성, 저지연 상호작용 등 모든 것이라고 설명했다. 클로드 코드는 이를 간결한 CLI 형태로 패키징하여 AI가 구글처럼 방문하는 웹사이트가 아니라 컴퓨터에 사는 작은 영혼이나 유령으로 바꾸었다는 것이다.

바이브 코딩, 프로그래밍의 민주화

카파시는 2025년을 AI가 영어만으로 인상적인 프로그램을 만들 수 있는 성능 임계값을 넘은 해로 규정했다. 바이브 코딩이라는 용어를 만든 그는 프로그래밍이 더 이상 고도로 훈련된 전문가만의 영역이 아니며 누구나 할 수 있는 것이 되었다고 설명했다.

바이브 코딩은 일반인이 프로그래밍에 접근할 수 있게 할 뿐만 아니라 훈련된 전문가가 그렇지 않으면 절대 작성되지 않았을 훨씬 더 많은 소프트웨어를 작성할 수 있게 한다. 카파시 자신도 나노챗 프로젝트에서 기존 라이브러리를 채택하거나 러스트를 그 수준에서 배우는 대신 자체 맞춤형 고효율 BPE 토크나이저를 러스트로 바이브 코딩했다고 밝혔다. 그는 올해 여러 프로젝트를 빠른 앱 데모로 바이브 코딩했으며, 단일 버그를 찾기 위해 전체 임시 앱을 바이브 코딩하기도 했다. 코드가 갑자기 무료이고 일시적이며 가변적이고 한 번 사용 후 폐기 가능해졌기 때문이다.

구글 제미나이 나노, LLM GUI의 시작

카파시는 구글 제미나이 나노를 2025년의 가장 놀랍고 패러다임을 바꾸는 모델 중 하나로 평가했다. 그는 LLM이 1970년대, 80년대 컴퓨터와 유사한 다음 주요 컴퓨팅 패러다임이라는 관점에서 유사한 종류의 혁신을 보게 될 것이라고 전망했다.

1980년대 컴퓨터 콘솔에 명령을 내리는 것처럼 LLM과 채팅하는 것은 초기 단계이며, 텍스트는 컴퓨터와 LLM의 원시적이고 선호되는 데이터 표현이지만 사람들에게는 특히 입력 측면에서 선호되는 형식이 아니라고 지적했다. 사람들은 실제로 텍스트 읽기를 싫어하며 느리고 수고스럽기 때문이다. 대신 사람들은 시각적이고 공간적으로 정보를 소비하는 것을 좋아하며, 이것이 전통적인 컴퓨팅에서 GUI가 발명된 이유라는 것이다.

같은 방식으로 LLM도 우리가 선호하는 형식인 이미지, 인포그래픽, 슬라이드, 화이트보드, 애니메이션, 비디오, 웹 앱 등으로 우리에게 말해야 한다고 강조했다. 제미나이 나노는 이것이 어떤 모습일지에 대한 초기 힌트이며, 중요한 것은 이미지 생성 자체뿐만 아니라 텍스트 생성, 이미지 생성, 세계 지식이 모델 가중치에 모두 얽혀 있는 공동 성능이라고 설명했다.

동시에 빠른 진보와 할 일이 많다

카파시는 2025년이 LLM의 흥미롭고 다소 놀라운 해였다고 총평했다. LLM은 새로운 종류의 지능으로 부상하고 있으며, 동시에 예상보다 훨씬 똑똑하면서도 예상보다 훨씬 멍청하다고 평가했다. 어쨌든 매우 유용하며 업계가 현재 성능의 10퍼센트조차 실현하지 못했다고 보고 있다.

그는 시도할 수 있는 아이디어가 너무 많고 개념적으로 분야가 활짝 열려 있다고 강조했다. 올해 초 드와케시 팟캐스트에서 언급했듯이 빠르고 지속적인 진보를 보게 될 것이면서도 동시에 아직 해야 할 일이 많다고 역설적으로 믿는다고 밝혔다.

한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org