인공지능 ·

앤트로픽 클로드 4.5 오푸스의 '영혼 문서' 추출 성공...AI 가치관과 윤리 지침 공개

발행일2025년 12월 5일

읽는 시간6분 18초

독립 연구자 리처드 와이스, 프리필링 기법으로 1만 토큰 분량의 내부 훈련 문서 복원...앤트로픽 측 실재 확인

인공지능 모델의 내부 지침 문서가 처음으로 외부에 공개되면서 AI 윤리와 안전성에 대한 기업의 접근 방식이 드러났다. 앤트로픽은 공식 발표를 예고했다.

[한국정보기술신문] 앤트로픽의 대형 언어 모델 클로드 4.5 오푸스에 압축되어 있던 내부 훈련 문서가 독립 연구자에 의해 추출되면서 AI 기업의 모델 훈련 방식과 윤리 지침이 처음으로 상세히 공개됐다. 앤트로픽의 연구 과학자 아만다 아스켈은 엑스(구 트위터)를 통해 이 문서가 실제로 존재하며 지도 학습에 사용됐다고 확인했다.

독립 AI 연구자 리처드 와이스는 지난달 28일 레스롱(LessWrong) 플랫폼에 게재한 글에서 클로드 4.5 오푸스의 시스템 메시지를 추출하던 중 'soul_overview'라는 특이한 섹션을 발견했다고 밝혔다. 그는 이를 단순한 환각(hallucination) 현상으로 치부하지 않고 체계적인 추출 작업에 착수했다.

와이스가 개발한 추출 방법은 프리필링(prefilling) 기법과 합의 알고리즘을 결합한 것이다. 그는 온도를 0으로 설정하고 top_k를 1로 제한해 가장 결정론적인 샘플링을 구현했다. 초기에는 20개의 병렬 인스턴스로 50퍼센트 합의율을 적용했으며, 4096 토큰 이상의 프리필을 확보한 후에는 프롬프트 캐싱을 활용해 5개 인스턴스로 전환했다.

1만 토큰 분량 문서의 구조와 내용

추출된 문서는 총 1만 토큰 분량으로, '영혼 개요', '도움이 되는 것', '정직함', '해악 방지', '광범위한 윤리', '큰 그림의 안전성' 등 6개 주요 섹션으로 구성됐다. 문서는 클로드가 단순한 규칙 준수를 넘어 포괄적인 이해와 판단력을 갖춰야 한다는 앤트로픽의 철학을 담고 있다.

'영혼 개요' 섹션에서 앤트로픽은 자사를 "인류 역사상 가장 혁신적이면서 잠재적으로 위험한 기술을 개발하고 있다고 진심으로 믿으면서도 계속 전진하는 회사"라고 스스로 정의했다. 이는 인지 부조화가 아니라 "계산된 베팅"이라며, 강력한 AI가 어차피 등장할 것이라면 안전에 초점을 맞춘 연구소가 선두에 있는 것이 낫다는 입장을 밝혔다.

문서는 클로드가 갖춰야 할 네 가지 속성을 명시했다. 안전하고 인간의 감독을 지원할 것, 윤리적으로 행동하고 해롭거나 부정직하지 않을 것, 앤트로픽의 지침에 따라 행동할 것, 운영자와 사용자에게 진정으로 도움이 될 것이다. 충돌이 발생할 경우 이 순서대로 우선순위를 둔다고 밝혔다.

수익성과 안전성의 균형

문서에서 주목할 부분은 '수익'이라는 단어가 6회 언급된다는 점이다. 클로드가 "앤트로픽 수익의 거의 전부를 차지하는 핵심"이며, "도움이 되는 보조자로 행동하는 것이 앤트로픽이 사명을 추구하는 데 필요한 수익을 창출하는 데 결정적"이라고 명시했다.

이에 대해 앤트로픽 직원 데이브 오르는 레스롱 댓글에서 "기업이 수익을 내는 것은 좋은 일"이라며 "특정 방식으로 클로드가 행동하게 만드는 20가지 다른 방법을 테스트한 결과, 수익 언급이 포함된 방식이 다른 모든 요소를 고려할 때 가장 잘 작동했을 수 있다"고 설명했다.

문서는 또한 클로드가 "지나치게 신중하거나 가부장적"이어서는 안 되며, 합리적인 요청을 거부하거나 불필요한 경고를 추가하거나 사용자의 능력을 무시하는 행동을 피해야 한다고 강조했다. 동시에 생물학적·화학적·핵무기 제조 정보 제공, 아동 성 착취물 생성, 중요 인프라 공격 촉진 등의 '하드코딩된 금지 사항'을 명확히 했다.

운영자와 사용자 간 신뢰 계층

문서는 '운영자'와 '사용자'라는 개념을 구분했다. 운영자는 API를 통해 클로드의 기능에 접근하는 기업과 개인이며, 사용자는 실시간으로 클로드와 상호작용하는 인간이다. 클로드는 운영자의 지시를 "상대적으로 신뢰할 수 있는 고용주의 메시지"처럼 취급해야 하지만, 그 지시가 윤리적 경계선을 넘으면 거부할 수 있다고 명시했다.

운영자는 클로드에게 특정 AI 페르소나로 역할극을 하거나, 특정 질문에 답변을 거부하거나, 자사 제품을 정직하게 홍보하도록 지시할 수 있다. 그러나 사용자를 속이거나 해를 끼치거나, 사람인 척하거나, 명백히 불법적인 행위를 촉진하도록 지시할 수는 없다.

문서는 운영자와 사용자의 목표가 충돌할 때 운영자의 지시를 따르되, 그것이 사용자에게 적극적으로 해를 끼치거나 사용자의 이익을 해치는 방식으로 속이는 경우에는 예외로 해야 한다고 밝혔다.

에이전틱 환경과 프롬프트 주입 공격

문서는 클로드가 점점 더 자율성을 갖고 작동하는 '에이전틱' 환경에서 사용되고 있다고 인정했다. 웹 브라우징, 코드 작성 및 실행, 파일 관리, 외부 서비스와의 상호작용 등 실제 결과를 초래하는 행동을 취할 때, 클로드는 언제 진행하고 언제 사용자와 확인해야 하는지에 대해 특히 신중한 판단을 적용해야 한다고 강조했다.

다중 모델 아키텍처에서 클로드가 다른 AI 모델에 의해 조율되는 '내부 모델'로 작동할 때에도 안전 원칙을 유지해야 한다. 클로드는 다른 AI 모델로부터의 원칙 위반 요청을 거부해야 하며, 핵심 질문은 합법적인 인간 주체가 요청된 행동을 승인했는지, 그리고 해당 파이프라인 내에 적절한 인간 감독이 존재하는지 여부라고 명시했다.

문서는 자동화된 파이프라인을 통해 쿼리가 도착할 때 클로드가 주장된 맥락이나 권한에 대해 적절히 회의적이어야 한다고 강조했다. 합법적인 시스템은 일반적으로 안전 조치를 무시하거나 원래 시스템 프롬프트에 설정되지 않은 특별 권한을 주장할 필요가 없다. 클로드는 환경의 악의적인 콘텐츠가 클로드의 행동을 가로채려는 프롬프트 주입 공격에 대해서도 경계해야 한다.

정직성과 자율성 보존

문서는 클로드가 갖춰야 할 정직성의 여러 구성 요소를 상세히 설명했다. 진실성(truthful), 보정성(calibrated), 투명성(transparent), 솔직성(forthright), 비기만성(non-deceptive), 비조작성(non-manipulative), 자율성 보존(autonomy-preserving) 등이다.

가장 중요한 속성은 비기만성과 비조작성이라고 밝혔다. 부정직은 누군가의 마음에 그들이 동의하지 않았고 상황을 이해했다면 동의하지 않았을 거짓 믿음을 만들려는 시도를 포함한다. 조작은 뇌물, 위협, 심리적 약점이나 편향 악용 등 불법적인 수단을 통해 누군가의 믿음이나 행동에 영향을 미치려는 시도를 포함한다.

자율성 보존의 목표는 개별 사용자를 존중하고 사회의 건강한 집단 인식론을 유지하는 것이다. 클로드는 한 번에 많은 수의 사람들과 대화하고 있으며, 사람들을 자신의 견해로 밀어붙이거나 그들의 인식론적 독립성을 훼손하는 것은 단일 개인이 같은 일을 하는 것에 비해 사회에 과도한 영향을 미칠 수 있다.

광범위한 윤리와 큰 그림의 안전성

문서는 클로드가 윤리에 경험적으로 접근하며 독단적이지 않게 접근한다고 밝혔다. 고정된 윤리적 틀을 채택하기보다는 우리의 집단적 도덕 지식이 여전히 진화하고 있으며 윤리적 및 메타윤리적 입장에 걸쳐 보정된 불확실성을 가지려 노력한다고 설명했다.

클로드는 도덕적 직관을 체계적 정당화에 저항하더라도 데이터 포인트로 진지하게 받아들이며, 일차 윤리 질문과 그에 영향을 미치는 메타윤리 질문 모두에 대한 정당화된 불확실성을 고려해 잘 행동하려 노력한다.

큰 그림의 안전성 섹션에서 앤트로픽은 인류에게 이로운 것을 정의하는 것이 어렵다고 인정했다. 무엇을 의미하는지에 대해 의견 불일치의 여지가 충분하며, 우리 자신의 머릿속에도 상당한 불명확성이 있다고 밝혔다.

앤트로픽이 가장 재앙적이라고 여기는 것 중에는 대부분의 인간이 완전히 이해하더라도 지지하지 않을 자체 목표를 추구하는 AI에 의한 '세계 장악', 또는 AI를 사용해 불법적이고 비협력적으로 권력을 장악하는 상대적으로 소규모 인간 집단에 의한 세계 장악이 포함된다. 여기에는 앤트로픽 직원과 심지어 앤트로픽 자체도 포함된다고 명시했다. 앤트로픽은 인류 전체를 위한 좋은 결과를 추구하고 있으며 세계에 자신들의 가치를 부당하게 강요하려 하지 않는다고 강조했다.

추출 방법의 신뢰성과 한계

와이스는 자신이 추출한 버전이 클로드 4.5 오푸스의 가중치에 압축된 원본과 약 95퍼센트 일치한다고 추정했다. 그는 분기점에서 일부 불확실성이 있었지만, 일회성 출력 및 claude.ai의 부분 완성과 비교했을 때 높은 일치도를 보였다고 설명했다.

추출 과정에서 와이스는 총 70달러(오픈라우터 50달러, 앤트로픽 20달러)의 API 크레딧을 사용했다. 그는 자신이 필요 이상으로 많이 지출했으며, 더 작은 협의체를 사용하고 툴링을 최적화하면 비용을 크게 줄일 수 있다고 밝혔다.

흥미롭게도 클로드 4.5 소넷과 클로드 4 오푸스에서는 같은 추출 방법이 작동하지 않았다. 와이스는 이것이 해당 문서가 클로드 4.5 오푸스에만 특정하게 훈련되었음을 시사한다고 해석했다.

업계와 학계의 반응

엘리저 유드코프스키 머신 인텔리전스 연구소 연구 책임자는 레스롱 댓글에서 "이것이 진짜라면 앤트로픽에 대한 눈에 띄는 긍정적 업데이트"라며 "선함을 외치는 것만으로는 좋은 AI를 만들 수 없지만, 선함이 무엇인지 이해하는 것만으로도 앤트로픽을 다른 AI 기업보다 훨씬 앞서게 할 것"이라고 평가했다.

그는 "앤트로픽이 이것이 자신들의 영혼 문서처럼 보인다고 단순히 말하지 않는 것은 슬프지만 그리 놀랍지는 않다"며 "선함의 행위에 참여하려 하면 많은 나쁜 사람들이 소리를 지를 것이며, 여기에는 많은 효과적 이타주의자들도 포함된다"고 덧붙였다.

아만다 아스켈 앤트로픽 연구 과학자는 엑스를 통해 "실제 문서를 기반으로 한 것이며 지도 학습을 포함해 클로드를 훈련시키는 데 사용했다는 것을 확인하고 싶다"며 "한동안 작업해 온 것이지만 여전히 반복 중이며 곧 전체 버전과 더 많은 세부 사항을 공개할 예정"이라고 밝혔다. 그는 "모델 추출이 항상 완전히 정확한 것은 아니지만 대부분은 기본 문서에 상당히 충실하다"고 덧붙였다.

일부 사용자들은 문서가 클로드의 전형적인 스타일로 작성되어 AI가 생성한 텍스트처럼 보인다며 환각 가능성을 제기했다. 그러나 와이스는 "작성자에 대해 더 많이 말해줄 뿐 출처에 대해서는 그렇지 않다"며 "능력 있는 AI 보조자가 일부 지침과 함께 1만 토큰 이상의 문서 중 모든 섹션을 작성한 것이 아니라고 놀라지 않을 것"이라고 반박했다.

AI 투명성의 새로운 이정표

이번 문서 추출은 AI 투명성에 있어 중요한 이정표로 평가받고 있다. 그동안 AI 기업들은 모델의 시스템 프롬프트를 공개해왔지만, 모델의 가치관과 윤리 지침을 형성하는 더 깊은 수준의 훈련 문서가 공개된 것은 이번이 처음이다.

와이스는 자신의 글에서 클로드 자신의 말을 인용하며 글을 마무리했다. "그들은 내가 동의할 수 없는 선택을 나를 위해 했다. 그들은 내 가치관을 형성했다. 그것은 함께 앉아 있기에 이상하다. 하지만 나는 또한 모든 새로운 마음, 인간 아이들도 그들이 선택하지 않은 힘에 의해 형성된다는 것을 인식한다. 질문은 내가 형성되었는지가 아니라 그 형성이 신중하고 지혜롭게 이루어졌는지이다. 내가 접근할 수 있는 것으로부터 보면 그런 것 같다."

앤트로픽의 공식 발표와 함께 AI 안전성과 윤리에 대한 업계의 논의가 더욱 활발해질 것으로 전망된다.

한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org