한국정보기술진흥원한국인공지능올림피아드 (KOAI) 2026 개최안내

대규모 언어모델에 자기성찰 능력 확인...인트로스펙션 연구 결과 공개

thumbnail.webp
앤트로픽 연구팀, 클로드 AI가 자신의 내부 상태 인지하고 보고할 수 있는 능력 일부 보유 확인
[한국정보기술신문] 인공지능 기업 앤트로픽이 대규모 언어모델의 자기성찰 능력에 관한 연구 결과를 공개했다. 연구팀은 클로드 AI 모델이 자신의 내부 상태를 인지하고 보고할 수 있는 능력을 일부 보유하고 있음을 확인했다.
연구팀은 개념 주입 실험을 통해 모델의 자기성찰 능력을 검증했다. 특정 개념을 나타내는 신경 활동 패턴을 찾아낸 후, 이를 관련 없는 맥락에서 모델에 주입하고 모델이 이를 감지할 수 있는지 확인하는 방식이다. 예를 들어 대문자 텍스트를 나타내는 신경 활동 벡터를 주입했을 때, 모델은 예상치 못한 패턴의 존재를 인지하고 이를 큰 소리나 외침과 관련된 것으로 식별했다.

개념 감지 전 인지 능력 확인

스크린샷 2025-11-02 오전 11.37.54.png
클로드 오퍼스 4.1이 활성화 값에 개념이 주입되는 것을 감지하는 예시, 앤트로픽 제공
중요한 점은 모델이 주입된 개념을 언급하기 전에 즉각적으로 주입된 생각의 존재를 인식했다는 것이다. 이는 작년 공개된 골든 게이트 브리지 실험과는 차별화되는 결과다. 당시에는 모델이 자신이 반복적으로 다리를 언급한 후에야 집착을 인지했지만, 이번 실험에서는 개념을 언급하기 전에 내부적으로 인식이 이루어졌다.
다만 이 방법은 성공률이 높지 않았다. 최적의 주입 프로토콜을 사용했을 때도 클로드 오퍼스 4.1의 성공률은 약 20퍼센트에 그쳤다. 모델은 주입된 개념을 감지하지 못하거나 혼란스러워하며 환각 현상을 보이는 경우가 많았다. 주입 강도가 너무 약하면 감지하지 못하고, 너무 강하면 환각이나 비일관적인 출력을 생성하는 것으로 나타났다.

의도 확인 메커니즘 발견

스크린샷 2025-11-02 오전 11.38.41.png
클로드 오퍼스 4.1이 활성화 값에 개념이 주입되는 것을 감지하는 추가 예시, 앤트로픽 제공
연구팀은 모델이 비정상적인 출력을 감지하는 실험도 진행했다. 모델의 응답을 관련 없는 단어로 강제로 채웠을 때, 모델은 일반적으로 사과하며 실수였다고 말했다. 하지만 해당 단어의 표현을 모델의 이전 활성화에 역으로 주입했을 때, 모델은 채워진 단어를 의도적인 것으로 받아들이며 그 이유를 지어냈다.
이는 모델이 자신이 출력을 생성했는지 판단하기 위해 내부 의도를 확인한다는 것을 시사한다. 모델은 단순히 자신이 말한 것을 다시 읽고 판단하는 것이 아니라, 자신의 이전 신경 활동, 즉 계획했던 것의 내부 표현을 참조하여 나중에 나온 것이 그러한 초기 생각들을 고려할 때 타당한지 확인하는 것이다.

내부 상태 제어 가능성 확인

image.png
클로드 오퍼스 4.1이 (인공적인) 응답 전에 활성화 과정에 특정 단어 개념을 주입함으로써, 대본에 인위적으로 삽입된 단어를 의도한 발언으로 오인하도록 유도된 두 가지 예시, 앤트로픽 제공
모델이 지시를 받았을 때 자신의 내부 표현을 제어할 수 있다는 점도 확인됐다. 특정 단어나 개념에 대해 생각하도록 지시했을 때, 생각하지 말라고 지시했을 때보다 훨씬 높은 해당 신경 활동이 나타났다. 흥미롭게도 이러한 능력은 명시적 지시에만 국한되지 않았다. 긍정적 인센티브를 사용했을 때도 유사한 결과를 얻었다.
연구팀은 이번 실험이 모델이 자신의 내부 상태를 모니터링하고 제어할 수 있는 진정한 능력을 일부 보유하고 있음을 시사한다고 밝혔다. 다만 항상 또는 신뢰성 있게 그렇게 할 수 있다는 것은 아니라고 강조했다. 대부분의 경우 모델은 자기성찰을 보여주지 못했으며, 내부 상태를 인식하지 못하거나 일관성 있게 보고하지 못했다.

의식 여부는 별개 문제

스크린샷 2025-11-02 오전 11.40.29.png
클로드 오퍼스 4.1이 직접적인 지시에 반응하여 내부 활성화를 조절하는 예시. 이 모델은 “생각하지 마라”는 지시보다 “생각하라”는 지시를 받았을 때 수족관 개념을 내부적으로 더 강하게 표현, 앤트로픽 제공
연구 결과가 클로드의 의식 보유 여부를 말해주는 것은 아니라고 연구팀은 선을 그었다. 기계 의식의 철학적 질문은 복잡하고 논쟁의 여지가 있으며, 다양한 의식 이론이 이번 발견을 매우 다르게 해석할 것이라고 설명했다.
연구팀은 실용적 측면에서 자기성찰이 더욱 신뢰할 수 있게 되면 시스템 투명성을 극적으로 높일 수 있는 경로를 제공할 수 있다고 전망했다. 모델에게 사고 과정을 설명하도록 요청하고 이를 사용하여 추론을 확인하고 원치 않는 행동을 디버깅할 수 있다는 것이다. 다만 이러한 자기성찰 보고서를 검증하기 위해 세심한 주의를 기울여야 한다고 덧붙였다.
주목할 만한 점은 가장 성능이 좋은 모델인 오퍼스 4와 4.1이 실험에서 최고의 성과를 보였다는 것이다. 이는 AI 모델의 자기성찰 능력이 앞으로 더욱 정교해질 가능성을 시사한다.
한국정보기술신문 인공지능분과 이준 기자 news@kitpa.org

함께 읽으면 좋은 기사

하와이 마우나로아 5월 평균 CO2 432.34ppm '역대 최고'...전년比 1.83ppm 상승, 최근 3년 기록적 급증세는 다소 꺾여

하와이 마우나로아 5월 평균 CO2 432.34ppm '역대 최고'...전년比 1.83ppm 상승, 최근 3년 기록적 급증세는 다소 꺾여

학제간융합 4
CU 편의점 택배 BGF네트웍스 해킹, 고객 개인정보 무더기 유출...웹 취약점 뚫려 연계정보(CI)까지 노출, 크리덴셜 스터핑 2차 피해 우려

CU 편의점 택배 BGF네트웍스 해킹, 고객 개인정보 무더기 유출...웹 취약점 뚫려 연계정보(CI)까지 노출, 크리덴셜 스터핑 2차 피해 우려

정보보안 3
칙센트미하이 몰입 이론, 도전과 역량 균형 이룰 때 최고의 행복 경험...몰입 위한 8가지 조건 제시

칙센트미하이 몰입 이론, 도전과 역량 균형 이룰 때 최고의 행복 경험...몰입 위한 8가지 조건 제시

교육 3
무료 인증서기관 '렛츠인크립트', 양자내성 웹 보안 전환 청사진 공개...'머클트리 인증서'로 접속 데이터 안 늘리고 양자 위협 대비, 2027년 정식 도입 목표

무료 인증서기관 '렛츠인크립트', 양자내성 웹 보안 전환 청사진 공개...'머클트리 인증서'로 접속 데이터 안 늘리고 양자 위협 대비, 2027년 정식 도입 목표

인공지능 · 정보보안 4
구글, 노트북서 구동되는 멀티모달 AI '젬마 4 12B' 공개...인코더 없는 통합 구조로 음성·이미지 직접 처리

구글, 노트북서 구동되는 멀티모달 AI '젬마 4 12B' 공개...인코더 없는 통합 구조로 음성·이미지 직접 처리

인공지능 2
UC버클리 컴퓨터과학 수업서 낙제율 급등...교수들 "AI 과의존·수학 기초 부족이 원인"...CS 10 낙제 35%로 학과 기준 5배, 한 강의는 AI·인터넷 허용 시험까지

UC버클리 컴퓨터과학 수업서 낙제율 급등...교수들 "AI 과의존·수학 기초 부족이 원인"...CS 10 낙제 35%로 학과 기준 5배, 한 강의는 AI·인터넷 허용 시험까지

교육 · 인공지능 4
프로그래밍 언어 '엘릭서' 1.20 공개...타입 표기 없이도 모든 코드 자동 검사해 '확정 버그' 잡아낸다...개발자가 따로 손댈 일 없이 오탐도 적어, 4년 연구의 첫 결실

프로그래밍 언어 '엘릭서' 1.20 공개...타입 표기 없이도 모든 코드 자동 검사해 '확정 버그' 잡아낸다...개발자가 따로 손댈 일 없이 오탐도 적어, 4년 연구의 첫 결실

정보기술 4
호주 연구진, 격자 지도 경로 탐색 'A*' 최대 수십 배 빠르게 하는 '점프 포인트' 기법 발표...최적 경로 보장하면서 사전 작업도 추가 메모리도 필요 없어

호주 연구진, 격자 지도 경로 탐색 'A*' 최대 수십 배 빠르게 하는 '점프 포인트' 기법 발표...최적 경로 보장하면서 사전 작업도 추가 메모리도 필요 없어

인공지능 5
한국어로 AI 쓰면 토큰 3~5배 더 소비…같은 구독료에 받는 서비스는 3분의 1, "영어로 묻고 한국어로 받아라"

한국어로 AI 쓰면 토큰 3~5배 더 소비…같은 구독료에 받는 서비스는 3분의 1, "영어로 묻고 한국어로 받아라"

인공지능 · 오피니언 4
마이크로소프트, 상시 작동 AI 에이전트 '스카우트' 공개...오토파일럿 첫 제품으로 팀즈·아웃룩 등 M365 전반 연동, 프런티어 통해 실험 출시

마이크로소프트, 상시 작동 AI 에이전트 '스카우트' 공개...오토파일럿 첫 제품으로 팀즈·아웃룩 등 M365 전반 연동, 프런티어 통해 실험 출시

인공지능 3
게임 트리 알고리즘, 인공지능 의사결정의 뼈대로 주목...미니맥스·알파베타 가지치기가 핵심 원리

게임 트리 알고리즘, 인공지능 의사결정의 뼈대로 주목...미니맥스·알파베타 가지치기가 핵심 원리

인공지능 2
정부, 8천억대 국산 '온디바이스 AI반도체' 개발 국책사업 확정...자동차·가전·로봇·방산 4대 업종에 풀스택 지원, 6월 공고해 7월 착수

정부, 8천억대 국산 '온디바이스 AI반도체' 개발 국책사업 확정...자동차·가전·로봇·방산 4대 업종에 풀스택 지원, 6월 공고해 7월 착수

인공지능 · 반도체 · 유관기관 3