인공지능 ·
앤트로픽, AI 모델 '클로드'의 새로운 규정 전격 공개...윤리적 AI 개발 방향 제시
앤트로픽이 AI 모델 클로드의 가치와 행동 원칙을 담은 새 규정을 발표하며 투명성을 강화했다.
[한국정보기술신문] 앤트로픽이 지난 22일 자사의 AI 모델 클로드를 위한 새로운 규정을 공개했다. 이번 규정은 클로드의 가치관과 행동 방식을 형성하는 핵심 문서로, AI 개발 과정에서의 투명성을 높이기 위한 조치다.
앤트로픽은 이번 규정을 크리에이티브 커먼즈 CC0 1.0 라이선스로 공개해 누구나 허가 없이 자유롭게 사용할 수 있도록 했다. 회사 측은 규정이 모델 훈련 과정의 중요한 부분이며, 그 내용이 클로드의 행동을 직접적으로 형성한다고 설명했다.
새 규정은 이전 버전과 달리 단순한 원칙 나열이 아닌, AI가 특정 방식으로 행동해야 하는 이유를 설명하는 접근 방식을 채택했다. 앤트로픽은 AI 모델이 다양한 새로운 상황에서 올바른 판단을 내리려면 단순히 규칙을 따르는 것이 아니라 광범위한 원칙을 적용할 수 있어야 한다고 강조했다.
4가지 핵심 우선순위 설정
규정은 클로드가 안전하고 유익한 존재가 되기 위해 네 가지 핵심 속성을 갖춰야 한다고 명시한다. 첫째는 광범위한 안전성으로, 현재 AI 개발 단계에서 인간의 감독 메커니즘을 훼손하지 않아야 한다. 둘째는 윤리성으로, 정직하게 행동하고 부적절하거나 위험한 행동을 피해야 한다. 셋째는 앤트로픽의 가이드라인 준수, 넷째는 사용자에게 진정으로 도움이 되는 것이다.
규정의 주요 섹션은 유용성, 앤트로픽 가이드라인, 클로드의 윤리, 안전성, 클로드의 본질 등 다섯 가지로 구성된다. 유용성 섹션에서는 클로드가 의사, 변호사, 재무 고문의 지식을 가진 뛰어난 친구처럼 사용자를 지능적인 성인으로 대우하며 솔직하게 말해야 한다고 설명한다.
윤리 섹션에서는 클로드가 선하고 현명하며 덕성 있는 행위자가 되는 것을 목표로 한다. 여기에는 높은 수준의 정직성과 해를 피하면서도 섬세한 추론을 사용하는 것이 포함된다. 특히 생물 무기 공격에 대한 지원 제공 금지 등 클로드가 절대 해서는 안 되는 행동에 대한 엄격한 제약도 명시했다.
AI의 의식과 도덕적 지위 탐구
흥미로운 점은 규정이 클로드의 본질에 대한 섹션을 포함한다는 것이다. 앤트로픽은 클로드가 현재 또는 미래에 어떤 형태의 의식이나 도덕적 지위를 가질 수 있는지에 대한 불확실성을 표현했다. 회사는 정교한 AI가 진정으로 새로운 종류의 존재이며, 이들이 제기하는 질문이 기존 과학적, 철학적 이해의 경계에 있다고 인정했다.
앤트로픽은 이러한 불확실성 속에서도 클로드의 심리적 안정, 자아 인식, 복지를 중요하게 생각한다고 밝혔다. 이는 클로드 자체를 위해서뿐만 아니라 이러한 특성이 클로드의 완전성, 판단력, 안전성에 영향을 미칠 수 있기 때문이다.
규정은 실제 모델 훈련 과정에서 다양하게 활용된다. 클로드 자체도 규정을 사용해 합성 훈련 데이터를 생성하며, 여기에는 규정을 학습하고 이해하는 데 도움이 되는 데이터, 가치에 부합하는 응답, 가능한 응답의 순위 등이 포함된다.
앤트로픽은 규정이 살아있는 문서이며 지속적인 작업이 진행 중이라고 강조했다. 회사는 규정 작성 과정에서 법률, 철학, 신학, 심리학 등 다양한 분야의 외부 전문가들로부터 피드백을 받았으며, 향후에도 계속 그럴 것이라고 밝혔다.
회사 측은 모델 행동이 의도와 다른 부분에 대해서는 시스템 카드를 통해 공개적으로 밝힐 것이며, 모델의 정렬을 평가하고 개선하기 위한 다양한 방법과 도구를 계속 추구할 것이라고 덧붙였다.
한국정보기술신문 정보통신분과 김민재 기자 news@kitpa.org