커피 식는 온도, AI가 예측할 수 있을까...클로드 오퍼스가 가장 근접한 예측 내놔

2026년 3월 24일

2분

6개 주요 LLM에 물리 실험 예측 요청, 실제 측정값과 비교한 결과 공개

[한국정보기술신문] 인공지능 언어모델이 코딩이나 수학 문제를 잘 푸는 것은 이제 놀랍지 않다. 그렇다면 실제 물리 실험의 결과까지 예측할 수 있을까. 한 연구자가 이를 직접 실험해 그 결과를 공개해 화제를 모으고 있다.

기술 블로그 '다이노마이트(dynomight.net)'는 최근 "LLM이 내 커피를 예측한다"는 제목의 실험 보고서를 게재했다. 실험자는 226.8g의 끓는 물을 0.57kg짜리 도자기 머그컵에 붓고, 섭씨 20도의 실내에서 시간에 따라 물의 온도가 어떻게 변하는지를 수식으로 예측해달라고 여러 LLM에 요청했다.

왜 어려운 문제인가

이 실험이 단순해 보일 수 있지만, 실제로는 여러 복잡한 물리 현상이 동시에 작용한다. 물과 컵, 공기, 테이블 사이의 열전도, 물 내부와 공기 중의 대류, 물 분자가 기화하며 발생하는 증발 냉각, 적외선 복사 등이 모두 온도 변화에 영향을 미친다. 게다가 컵의 재질이나 모양, 습도 등 프롬프트에 명시되지 않은 조건도 결과에 영향을 줄 수 있다. 즉 단순히 공식을 대입해 풀 수 있는 문제가 아니라, 어떤 요소가 중요한지 판단하는 '감각'이 필요한 문제다.

6개 모델에 요청, 결과는

실험에 참여한 모델은 △키미 K2.5(추론 모드) △제미나이 3.1 프로 △GPT 5.4 △클로드 4.6 오퍼스(추론 모드) △Qwen3-235B △GLM-4.7이다. 딥시크와 그록도 시도했으나 두 모델은 끝내 답을 내놓지 못하고 비용만 청구한 것으로 전해졌다.

흥미롭게도 답을 제출한 모든 모델은 하나 또는 두 개의 지수 감소 항(exponential decay term)으로 이루어진 수식을 제시했다. 이는 초기에 컵으로 빠르게 열이 전달되는 '빠른 냉각'과 이후 컵에서 공기로 서서히 열이 빠져나가는 '느린 냉각'을 각각 반영한 것이다.

가장 근접한 예측을 내놓은 모델은 클로드 4.6 오퍼스였다. 다만 추론 모드로 실행한 탓에 0.61달러라는 비교적 높은 비용이 발생했다. 가장 저렴한 예측은 단 0.009달러로 Qwen3-235B가 기록했으나, 이 모델은 빠른 냉각 항 없이 단일 지수 항만을 사용해 초기 냉각 속도를 충분히 반영하지 못했다.

실제 측정값과의 비교

실험자는 끓인 물을 머그컵에 붓고 디지털 온도계를 꽂은 뒤, 처음에는 5초마다, 이후 점차 측정 간격을 늘려가며 1시간에 걸쳐 온도를 기록했다. 실제 측정 결과, 물의 온도는 모든 모델의 예측보다 초반에 더 빠르게 떨어졌고, 나중에는 더 천천히 내려갔다. 모델들이 공통적으로 초반 냉각 속도를 과소평가했음을 보여주는 결과다.

실험자는 "모델들의 예측이 나쁘지는 않았지만, 어느 모델도 훌륭하다고 볼 수는 없었다"고 평가했다. 또한 LLM의 예측과 자신의 직관을 앙상블(ensemble)한다면 직관의 가중치는 0이 될 것이라며, 물리 현상 예측에서 LLM이 인간의 직관을 일정 부분 대체할 수 있음을 인정했다.

이번 실험은 LLM이 복잡한 물리 현상에 대해 그럴듯한 수식을 도출해낼 수 있다는 점에서 주목받고 있다. 그러나 현실 세계의 복잡한 변수들을 완전히 포착하지는 못한다는 한계도 드러냈다. 전문가들은 향후 LLM이 더 정교한 물리 모델링 능력을 갖추기 위해서는 물리 실험 데이터와 결합한 학습이 필요하다고 보고 있다.

한국정보기술신문 인공지능분과 김주호 기자 news@kitpa.org

커피 식는 온도, AI가 예측할 수 있을까...클로드 오퍼스가 가장 근접한 예측 내놔

왜 어려운 문제인가

6개 모델에 요청, 결과는

실제 측정값과의 비교

함께 읽으면 좋은 기사

[백준 서비스 종료 ⑧] 백준 이후 어디로 가나...이용자들 대체 플랫폼 찾기 분주

NIST, 대부분 CVE 개선 작업 중단 선언...예산 부족으로 중요 취약점만 선별 관리, 사이버보안 업계 우려 확산

메타, 8천명 대규모 해고 단행...AI 중심 재편으로 전체 직원 10% 감축, 임원 보상은 대폭 증가

구글, MaxText에 단일 TPU 기반 AI 훈련 기능 추가...감독학습·강화학습 지원으로 모델 미세조정 접근성 확대