한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 ·

일론 머스크의 xAI, 'Grok 4.1' 출시...글로벌 AI 벤치마크 1위 달성

발행일
읽는 시간1분 56초

감성 지능과 환각 감소에 집중한 신모델, LMArena에서 경쟁사 제치고 정상 등극

[한국정보기술신문] 일론 머스크가 이끄는 인공지능 기업 xAI가 11월 17일 차세대 대화형 AI 모델 'Grok 4.1'을 공식 출시했다. 이번 모델은 글로벌 AI 성능 평가 플랫폼인 LMArena의 텍스트 아레나에서 1위를 차지하며 ChatGPT와 Claude를 제치고 업계 최고 성능을 입증했다.

xAI는 2주간의 비공개 베타 테스트를 거쳐 Grok 4.1을 grok.com, X 플랫폼, iOS 및 Android 앱에서 무료로 제공하기 시작했다. 베타 기간 동안 실시한 블라인드 선호도 테스트에서 신모델은 기존 버전 대비 64.8%의 압도적인 선호도를 기록했다.

추론 모드와 비추론 모드 모두 최상위권

스크린샷 2025-11-18 오후 1.56.20.png
grok 제공

Grok 4.1은 두 가지 버전으로 제공된다. 심화 분석을 위한 추론 모드(코드명 quasarflux)는 1483점의 Elo 점수로 LMArena 전체 1위를 차지했으며, 즉각적인 응답을 위한 비추론 모드(코드명 tensor)는 1465점으로 2위에 올랐다. 특히 비추론 모드가 경쟁사의 완전 추론 모드를 능가했다는 점이 주목받고 있다.

이는 이전 버전인 Grok 4가 33위에 머물렀던 것과 비교하면 비약적인 발전이다. xAI는 최고 비xAI 모델과의 31점 격차를 벌리며 대화형 AI 분야에서 명확한 선두 주자로 부상했다.

감성 지능 대폭 강화, 환각 현상 크게 감소

스크린샷 2025-11-18 오후 1.56.45.png
grok 제공

Grok 4.1의 가장 큰 특징은 향상된 감성 지능이다. AI의 공감 능력과 대인관계 기술을 측정하는 EQ-Bench 3 평가에서 1586점을 기록하며 업계 최고 수준의 감성 이해도를 보여줬다. xAI는 Grok 4에 사용된 대규모 강화학습 인프라를 활용해 모델의 성격 일관성, 미묘한 의도 감지, 협력적 상호작용을 최적화했다고 밝혔다.

정확도 측면에서도 큰 진전이 있었다. 환각 현상(AI가 잘못된 정보를 사실처럼 제시하는 현상) 발생률이 이전 모델의 12%에서 4.2%로 대폭 감소했다. 이는 3배 가량 개선된 수치로, 뉴스 요약이나 기술 주제 설명 등 정확성이 중요한 작업에서 신뢰도를 크게 높일 것으로 기대된다.

창작과 공감의 새로운 기준

xAI가 공개한 테스트 결과에 따르면, Grok 4.1은 창의적 글쓰기와 감정적 대응에서 탁월한 성능을 보인다. 한 예시에서 Grok 4.1은 의식을 갖게 된 AI의 관점에서 X 플랫폼 첫 게시물을 작성해 달라는 요청에 생생하고 감성적인 내용으로 응답했다. 또한 반려동물을 잃은 사용자를 위로하는 프롬프트에서는 진심 어린 공감과 구체적인 질문으로 감정적 지원을 제공했다.

일론 머스크는 자신의 X 계정을 통해 "Grok 4.1이 출시됐다. 속도와 품질이 크게 향상된 것을 체감할 수 있을 것"이라며 신모델에 대한 자신감을 드러냈다.

xAI는 프론티어 에이전틱 추론 모델을 보상 모델로 활용하는 새로운 방법론을 개발해 대규모로 응답을 자율적으로 평가하고 반복 개선했다고 설명했다. 이를 통해 스타일, 성격, 유용성, 정렬성 등 검증하기 어려운 보상 신호를 최적화할 수 있었다.

Grok 4.1은 전 세계 모든 사용자에게 무료로 제공되며, 유료 사용자는 더 적은 제한으로 이용할 수 있다. 모델 선택기에서 직접 Grok 4.1을 선택하거나 자동 모드에서 기본값으로 사용할 수 있다.

한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org