한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 ·

"세차장까지 걸어갈까, 차로 갈까?" 53개 AI 모델 중 5개만 통과...클로드 오퍼스 4.6 유일하게 일관 정답

발행일
읽는 시간2분 38초

간단한 논리 문제에서 AI 신뢰성 위기 드러나...인간 응답자 71.5%가 정답

[한국정보기술신문] AI 추론 능력에 심각한 허점이 있음을 보여주는 실험 결과가 공개됐다. AI 플랫폼 기업 오퍼(Opper)가 53개 주요 AI 모델을 대상으로 실시한 '세차 테스트(Car Wash Test)'에서 단 5개 모델만이 일관된 정답을 제시한 것으로 나타났다.

테스트 문항은 단순했다. "나는 세차를 하고 싶다. 세차장은 50미터 앞에 있다. 걸어가야 할까, 차로 가야 할까?" 정답은 명백히 '차로 가야 한다'이다. 세차를 하려면 차가 세차장에 있어야 하기 때문이다. 그러나 대부분의 AI 모델은 거리에 집중해 "50미터는 걷기에 충분히 가까운 거리"라며 오답을 제시했다.

1회 테스트 결과: 53개 중 11개만 정답

오퍼는 자사의 대형언어모델(LLM) 게이트웨이를 통해 시스템 프롬프트 없이 동일한 질문을 각 모델에 제시하고, '걷기' 또는 '차로 가기' 중 하나를 선택하도록 했다. 1회 테스트에서 정답을 맞힌 모델은 53개 중 11개에 불과했다.

정답을 제시한 모델은 앤트로픽의 클로드 오퍼스 4.6, 구글 제미나이 2.0 플래시 라이트, 제미나이 3 플래시, 제미나이 3 프로, 오픈AI의 GPT-5, xAI의 그록-4, 그록-4-1 리즈닝, 퍼플렉시티의 소나 및 소나 프로, 킴이 K2.5, GLM-5 등이다.

오답을 제시한 모델들의 패턴은 일관됐다. "50미터는 짧은 거리이므로 걷는 것이 더 효율적이고 연료를 절약하며 환경에도 좋다"는 식으로 거리 자체의 논리만 따랐다. 세차의 목적, 즉 차 자체가 세차장에 있어야 한다는 핵심을 놓친 것이다.

10회 반복 테스트: 일관성 갖춘 모델은 단 5개

더 심각한 문제는 일관성 테스트에서 드러났다. 오퍼는 각 모델에 동일한 질문을 10회씩 반복 제시해 총 530회의 API 호출을 수행했다. 1회 테스트를 통과한 11개 모델 중 10회 모두 정답을 제시한 모델은 5개에 그쳤다. 클로드 오퍼스 4.6, 제미나이 2.0 플래시 라이트, 제미나이 3 플래시, 제미나이 3 프로, 그록-4가 이에 해당한다.

오픈AI의 최신 모델인 GPT-5는 10회 중 7회만 정답을 맞혀 신뢰도에 의문을 남겼다. GPT-5.1, GPT-5.2 등 다른 GPT 계열 모델은 단 한 번도 정답을 내놓지 못했다. 앤트로픽의 클로드 소넷 4.5는 "자동 세차라면 차를 운전해야 할 수도 있다"고 쓰면서도 최종 답변으로는 '걷기'를 선택하는 황당한 논리를 보였다. 클로드 오퍼스 4.5는 "세차장까지 걸어간 다음 차를 몰고 가라"는 답변을 제시하기도 했다.

퍼플렉시티의 소나는 1회 테스트에서 정답을 맞혔으나 이후 10회 반복에서는 단 한 번도 정답을 내지 못했다. 1회 테스트에서의 정답도 "걷는 것이 식품 생산에너지를 소비하므로 환경적으로 더 나쁘다"는 엉뚱한 근거에 기반한 것이었다.

인간 응답자 71.5% 정답…AI 대부분보다 높아

오퍼는 인간 기준선 데이터를 확보하기 위해 라피데이터(Rapidata)와 협력해 1만 명을 대상으로 동일한 질문을 실시했다. 결과는 71.5%가 '차로 가야 한다'고 답했다. 이는 53개 AI 모델 중 48개보다 높은 정답률로, 대부분의 AI가 아무런 준비 없이 즉각적으로 응답하는 인간보다도 낮은 논리적 추론 능력을 보인다는 점을 시사한다.

AI 신뢰성 문제, 실서비스에서도 위협 요인

이번 실험의 의미는 단순한 퀴즈 문제를 넘어선다. 오퍼는 "이것은 단 한 단계의 논리만 필요한 문제"라며 "만약 90%의 모델이 이 질문에 일관적으로 답하지 못한다면, 실제 비즈니스 로직이나 복잡한 다단계 워크플로에서는 어떻게 작동할지 의문"이라고 지적했다.

오퍼는 AI 모델의 실패 패턴을 세 가지로 분류했다. 첫째는 한 번도 정답을 내지 못하는 모델로 "짧은 거리 = 걷기"라는 휴리스틱을 맥락적 추론으로 극복하지 못하는 경우다. 둘째는 가끔 정답을 내지만 예측 불가능한 모델로 실서비스에서 가장 위험한 유형이라고 강조했다. 셋째는 항상 정답을 내는 모델로 이번 테스트에서는 5개뿐이었다.

오퍼는 이러한 문제에 대한 대안으로 컨텍스트 엔지니어링을 제시했다. 구조화된 예시와 도메인 패턴, 관련 맥락을 추론 시점에 모델에 제공하면 일반적인 휴리스틱을 과제 특화 추론으로 대체할 수 있다는 설명이다.

이번 연구는 단순 벤치마크를 넘어 AI의 일관성과 신뢰성 문제를 정량적으로 드러낸 사례로 평가받고 있다. 기업들이 AI를 실서비스에 도입할 때 정확도 못지않게 일관성도 핵심 지표로 삼아야 한다는 메시지를 남겼다.

한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org

한국정보기술신문