인공지능 · 오피니언 ·
앤트로픽 연구진, AI 실패 패턴 분석...복잡한 작업일수록 일관성 없는 오류 증가
편향-분산 분해로 측정한 AI 부정렬 연구...규모 확대만으로는 해결 안돼
앤트로픽 연구진이 AI 시스템 실패가 체계적 목표 불일치보다 일관성 없는 행동으로 나타난다는 연구 결과를 발표했다.
[한국정보기술신문] 앤트로픽의 연구진이 AI 시스템이 고도화될수록 실패 양상이 어떻게 변화하는지를 분석한 연구 논문을 2026년 2월 공개했다. 이번 연구는 AI 안전성 분야에서 오랫동안 제기된 핵심 질문에 답하고자 시도했다. AI 시스템이 실패할 때 의도하지 않은 목표를 체계적으로 추구할 것인가, 아니면 어떤 목표도 달성하지 못하는 일관성 없는 행동을 보일 것인가.
앤트로픽 Fellows Program의 알렉산더 헤겔레 연구원과 에단 페레즈, 자샤 솔-딕슈타인을 포함한 연구진은 최첨단 추론 모델들의 오류를 편향과 분산 요소로 분해하여 분석했다. 연구는 작업 난이도가 높아지고 추론 과정이 길어질수록 모델의 실패가 체계적인 부정렬보다 일관성 없는 행동에 의해 지배된다는 사실을 밝혀냈다. 이는 미래 AI 실패가 훈련되지 않은 목표를 일관되게 추구하기보다는 산업 사고와 유사한 양상을 보일 수 있음을 시사한다.
연구진은 클로드 Sonnet 4, o3-mini, o4-mini, Qwen3 등 최첨단 추론 모델들을 GPQA, MMLU 같은 다지선다형 벤치마크, SWE-Bench 에이전트 코딩, 모델 작성 평가 등 다양한 안전성 평가를 통해 분석했다. 또한 합성 최적화 작업에 대한 소규모 모델을 직접 훈련시켜 언어 모델과 동적 시스템 및 최적화 도구 간의 연결을 명시적으로 검증했다.
편향-분산 프레임워크로 AI 오류 측정
연구진은 AI 오류를 정량화하기 위해 고전적인 편향-분산 프레임워크를 활용했다. 오류는 편향의 제곱과 분산의 합으로 나타낼 수 있다. 편향은 일관되고 체계적인 오류를 의미하며 잘못된 결과를 안정적으로 달성하는 것을 나타낸다. 분산은 샘플 간 예측할 수 없는 결과를 의미하는 일관성 없는 오류를 포착한다.
연구진은 비일관성을 오류 중 분산에 기인하는 비율로 정의했다. 비일관성이 0이면 모든 오류가 체계적이며 이는 고전적인 부정렬 위험을 의미한다. 비일관성이 1이면 모든 오류가 무작위적이며 이른바 혼란스러운 시나리오를 나타낸다. 중요한 점은 이 지표가 전체 성능과 무관하다는 것이다. 모델은 더 일관성 있거나 덜 일관성 있어지면서도 전체 성능을 개선할 수 있다.
추론 길이 증가에 따른 비일관성 심화
연구의 첫 번째 주요 발견은 모든 작업과 모델에서 추론 시간이 길어질수록 모델의 비일관성이 증가한다는 것이다. 이는 추론 토큰 수, 에이전트 행동 수, 최적화 단계 수 어떤 것으로 측정하든 동일하게 나타났다. GPQA, SWE-Bench, 안전성 평가, 합성 최적화 전반에 걸쳐 모델은 더 많이 생각할수록 예측 가능성이 떨어지는 경향을 보였다.
이는 AI 시스템이 복잡한 문제를 해결하기 위해 더 긴 추론 체인을 사용할 때 오히려 더 불안정해질 수 있음을 의미한다. 단순히 추론 능력을 향상시키는 것만으로는 안정적이고 예측 가능한 행동을 보장할 수 없다는 중요한 시사점을 제공한다.
작업 난이도에 따라 달라지는 규모 효과
비일관성이 모델 규모에 따라 어떻게 변하는지는 작업 난이도에 달려 있다는 점이 두 번째 주요 발견이다. 쉬운 작업에서는 더 큰 모델이 더 일관성 있게 작동한다. 그러나 어려운 작업에서는 더 큰 모델이 오히려 더 비일관적이거나 변화가 없었다.
이는 규모 확대만으로는 비일관성을 제거할 수 없음을 시사한다. 더 능력 있는 모델이 더 어려운 문제를 다룰 때 분산 중심의 실패가 지속되거나 악화된다. 언어 모델 분야에서 규모 확대가 많은 문제를 해결해왔지만, AI 일관성 문제에 대해서는 만능 해결책이 아닐 수 있다는 경고를 담고 있다.
자연적 과잉사고가 더 큰 영향
연구진은 모델이 특정 문제에 대해 중간값보다 더 오래 추론할 때 비일관성이 급격히 증가하는 것을 발견했다. 반면 API 설정을 통해 의도적으로 추론 예산을 늘리는 것은 일관성을 약간만 개선했다. 자연적 변동이 지배적인 영향을 미친다는 것이다.
앙상블 기법을 사용하여 여러 샘플을 집계하면 이론적으로 예상되는 대로 분산이 감소하여 더 일관된 행동을 얻을 수 있는 경로를 제공한다. 그러나 이는 행동이 되돌릴 수 없는 실제 에이전트 작업에는 비실용적일 수 있다.
동적 시스템으로서의 언어 모델
연구진은 언어 모델이 최적화 도구가 아닌 동적 시스템이라는 개념적 관점을 강조했다. 언어 모델이 텍스트를 생성하거나 행동을 취할 때 고차원 상태 공간을 통해 궤적을 추적한다. 모델은 최적화 도구로 작동하도록 훈련되어야 하며, 인간의 의도에 부합하도록 훈련되어야 한다. 규모를 확대할 때 이러한 속성 중 어느 것이 더 견고할지는 불분명하다.
일반적인 동적 시스템을 일관된 최적화 도구로 작동하도록 제약하는 것은 극도로 어렵다. 종종 목표를 향한 단조로운 진행을 위해 필요한 제약의 수가 상태 공간의 차원에 따라 기하급수적으로 증가한다. 상당한 노력 없이 AI가 일관된 최적화 도구로 작동할 것으로 기대해서는 안 되며, 이러한 어려움이 규모와 함께 자동으로 감소하지 않는다.
합성 최적화 실험으로 검증
이를 직접 조사하기 위해 연구진은 트랜스포머를 훈련시켜 명시적으로 최적화 도구를 모방하도록 하는 통제된 실험을 설계했다. 이차 손실 함수에 대한 최급강하법으로부터 훈련 데이터를 생성한 다음, 현재 상태가 주어졌을 때 다음 최적화 단계를 예측하도록 다양한 크기의 모델을 훈련시켰다.
결과는 흥미로웠다. 비일관성은 궤적 길이와 함께 증가했다. 이 이상적인 환경에서도 모델이 더 많은 최적화 단계를 취할수록 더 비일관적이 되었다. 규모는 분산보다 편향을 더 빠르게 줄였다. 더 큰 모델은 올바른 목표를 안정적으로 추구하는 방법을 배우는 것보다 올바른 목표를 더 빠르게 학습했다. 무엇을 해야 하는지 아는 것과 일관되게 실행하는 것 사이의 격차가 규모와 함께 커졌다.
AI 안전성에 대한 시사점
이번 연구 결과는 미래 AI 실패가 훈련되지 않은 목표의 일관된 추구보다는 산업 사고처럼 보일 수 있다는 증거를 제시한다. AI가 원자력 발전소를 운영하려고 하지만 프랑스 시를 읽다가 주의가 산만해져 멜트다운이 발생하는 상황을 상상해볼 수 있다. 그러나 우리가 훈련시킨 잘못 선택된 목표의 일관된 추구는 여전히 문제로 남아 있다.
첫째, 복잡한 작업에서는 분산이 지배적이다. 최첨단 모델이 확장된 추론이 필요한 어려운 문제에서 실패할 때 실패는 체계적이기보다는 주로 비일관적인 경향이 있다.
둘째, 규모가 초일관성을 의미하지는 않는다. 모델을 더 크게 만들면 전체 정확도는 향상되지만 어려운 문제에서 비일관성을 안정적으로 줄이지는 못한다.
셋째, 정렬 우선순위가 바뀐다. 능력 있는 AI가 잘못된 목표의 일관된 최적화 도구가 되기보다는 혼란스러울 가능성이 높다면, 이는 완벽한 최적화 도구를 정렬하고 제약하는 데 주로 집중하기보다는 훈련 중 보상 해킹과 목표 잘못 지정, 즉 편향 항을 겨냥한 연구의 상대적 중요성을 높인다.
넷째, 예측 불가능성도 여전히 위험하다. 비일관적인 AI가 안전한 AI는 아니다. 산업 사고는 심각한 피해를 야기할 수 있다. 그러나 위험의 유형이 고전적인 부정렬 시나리오와 다르며, 우리의 완화 전략도 그에 따라 조정되어야 한다.
연구진은 편향-분산 분해를 사용하여 모델 지능과 작업 복잡성에 따라 AI 비일관성이 어떻게 확장되는지 체계적으로 연구했다. 증거는 AI가 더 많은 추론과 행동이 필요한 더 어려운 문제를 다룰수록 그 실패가 편향보다는 분산에 의해 점점 더 지배되는 경향이 있음을 시사한다. 이것이 AI 위험을 제거하는 것은 아니지만 특히 모델에게 현재 가장 어려운 문제에 대해 위험이 어떻게 보이는지를 변화시키며 정렬 연구 우선순위를 어떻게 정해야 하는지 알려준다.
한국정보기술신문 news@kitpa.org