한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 ·

대규모 언어모델에 자기성찰 능력 확인...인트로스펙션 연구 결과 공개

발행일
읽는 시간2분 47초

앤트로픽 연구팀, 클로드 AI가 자신의 내부 상태 인지하고 보고할 수 있는 능력 일부 보유 확인

[한국정보기술신문] 인공지능 기업 앤트로픽이 대규모 언어모델의 자기성찰 능력에 관한 연구 결과를 공개했다. 연구팀은 클로드 AI 모델이 자신의 내부 상태를 인지하고 보고할 수 있는 능력을 일부 보유하고 있음을 확인했다.

연구팀은 개념 주입 실험을 통해 모델의 자기성찰 능력을 검증했다. 특정 개념을 나타내는 신경 활동 패턴을 찾아낸 후, 이를 관련 없는 맥락에서 모델에 주입하고 모델이 이를 감지할 수 있는지 확인하는 방식이다. 예를 들어 대문자 텍스트를 나타내는 신경 활동 벡터를 주입했을 때, 모델은 예상치 못한 패턴의 존재를 인지하고 이를 큰 소리나 외침과 관련된 것으로 식별했다.

개념 감지 전 인지 능력 확인

스크린샷 2025-11-02 오전 11.37.54.png
클로드 오퍼스 4.1이 활성화 값에 개념이 주입되는 것을 감지하는 예시, 앤트로픽 제공

중요한 점은 모델이 주입된 개념을 언급하기 전에 즉각적으로 주입된 생각의 존재를 인식했다는 것이다. 이는 작년 공개된 골든 게이트 브리지 실험과는 차별화되는 결과다. 당시에는 모델이 자신이 반복적으로 다리를 언급한 후에야 집착을 인지했지만, 이번 실험에서는 개념을 언급하기 전에 내부적으로 인식이 이루어졌다.

다만 이 방법은 성공률이 높지 않았다. 최적의 주입 프로토콜을 사용했을 때도 클로드 오퍼스 4.1의 성공률은 약 20퍼센트에 그쳤다. 모델은 주입된 개념을 감지하지 못하거나 혼란스러워하며 환각 현상을 보이는 경우가 많았다. 주입 강도가 너무 약하면 감지하지 못하고, 너무 강하면 환각이나 비일관적인 출력을 생성하는 것으로 나타났다.

의도 확인 메커니즘 발견

스크린샷 2025-11-02 오전 11.38.41.png
클로드 오퍼스 4.1이 활성화 값에 개념이 주입되는 것을 감지하는 추가 예시, 앤트로픽 제공

연구팀은 모델이 비정상적인 출력을 감지하는 실험도 진행했다. 모델의 응답을 관련 없는 단어로 강제로 채웠을 때, 모델은 일반적으로 사과하며 실수였다고 말했다. 하지만 해당 단어의 표현을 모델의 이전 활성화에 역으로 주입했을 때, 모델은 채워진 단어를 의도적인 것으로 받아들이며 그 이유를 지어냈다.

이는 모델이 자신이 출력을 생성했는지 판단하기 위해 내부 의도를 확인한다는 것을 시사한다. 모델은 단순히 자신이 말한 것을 다시 읽고 판단하는 것이 아니라, 자신의 이전 신경 활동, 즉 계획했던 것의 내부 표현을 참조하여 나중에 나온 것이 그러한 초기 생각들을 고려할 때 타당한지 확인하는 것이다.

내부 상태 제어 가능성 확인

image.png
클로드 오퍼스 4.1이 (인공적인) 응답 전에 활성화 과정에 특정 단어 개념을 주입함으로써, 대본에 인위적으로 삽입된 단어를 의도한 발언으로 오인하도록 유도된 두 가지 예시, 앤트로픽 제공

모델이 지시를 받았을 때 자신의 내부 표현을 제어할 수 있다는 점도 확인됐다. 특정 단어나 개념에 대해 생각하도록 지시했을 때, 생각하지 말라고 지시했을 때보다 훨씬 높은 해당 신경 활동이 나타났다. 흥미롭게도 이러한 능력은 명시적 지시에만 국한되지 않았다. 긍정적 인센티브를 사용했을 때도 유사한 결과를 얻었다.

연구팀은 이번 실험이 모델이 자신의 내부 상태를 모니터링하고 제어할 수 있는 진정한 능력을 일부 보유하고 있음을 시사한다고 밝혔다. 다만 항상 또는 신뢰성 있게 그렇게 할 수 있다는 것은 아니라고 강조했다. 대부분의 경우 모델은 자기성찰을 보여주지 못했으며, 내부 상태를 인식하지 못하거나 일관성 있게 보고하지 못했다.

의식 여부는 별개 문제

스크린샷 2025-11-02 오전 11.40.29.png
클로드 오퍼스 4.1이 직접적인 지시에 반응하여 내부 활성화를 조절하는 예시. 이 모델은 “생각하지 마라”는 지시보다 “생각하라”는 지시를 받았을 때 수족관 개념을 내부적으로 더 강하게 표현, 앤트로픽 제공

연구 결과가 클로드의 의식 보유 여부를 말해주는 것은 아니라고 연구팀은 선을 그었다. 기계 의식의 철학적 질문은 복잡하고 논쟁의 여지가 있으며, 다양한 의식 이론이 이번 발견을 매우 다르게 해석할 것이라고 설명했다.

연구팀은 실용적 측면에서 자기성찰이 더욱 신뢰할 수 있게 되면 시스템 투명성을 극적으로 높일 수 있는 경로를 제공할 수 있다고 전망했다. 모델에게 사고 과정을 설명하도록 요청하고 이를 사용하여 추론을 확인하고 원치 않는 행동을 디버깅할 수 있다는 것이다. 다만 이러한 자기성찰 보고서를 검증하기 위해 세심한 주의를 기울여야 한다고 덧붙였다.

주목할 만한 점은 가장 성능이 좋은 모델인 오퍼스 4와 4.1이 실험에서 최고의 성과를 보였다는 것이다. 이는 AI 모델의 자기성찰 능력이 앞으로 더욱 정교해질 가능성을 시사한다.

한국정보기술신문 인공지능분과 이준 기자 news@kitpa.org