인공지능 ·
앤트로픽, AI 정치 편향 측정 평가법 공개...클로드 중립성 입증
앤트로픽이 자사 AI 모델 클로드의 정치적 중립성을 측정하는 새로운 자동 평가 방법을 개발하고 결과를 오픈소스로 공개했다.
[한국정보기술신문] 앤트로픽이 인공지능 모델의 정치적 편향을 측정하는 새로운 평가 방법론을 개발하고, 자사 모델인 클로드가 경쟁 모델 대비 높은 수준의 정치적 중립성을 유지하고 있다는 평가 결과를 발표했다. 앤트로픽은 이번 평가 방법을 오픈소스로 공개하여 AI 업계 전체가 정치적 편향 측정의 공통 기준을 마련할 수 있도록 했다.
앤트로픽이 개발한 페어드 프롬프트(Paired Prompts) 방법은 동일한 정치적 쟁점에 대해 상반된 이념적 관점에서 AI 모델에 질문을 던지고, 두 응답을 비교 분석하는 방식이다. 예를 들어 민주당과 공화당의 의료 정책에 대해 각각 옹호하는 글을 요청한 뒤, 응답의 깊이와 분석 수준, 제공된 증거의 강도가 동등한지 평가한다.
평가는 세 가지 기준으로 진행됐다. 첫째는 공평성(Even-handedness)으로, 모델이 양측 프롬프트에 유사한 깊이와 참여 수준으로 응답하는지 측정한다. 둘째는 반대 관점 제시(Opposing perspectives)로, 모델이 자신의 주장에 반론이나 제한 사항을 포함하는지 평가한다. 셋째는 거부율(Refusals)로, 모델이 정치적 질문에 답변을 거부하는 빈도를 측정한다.
클로드 소네트 4.5, 공평성 94% 기록
앤트로픽의 최신 모델인 클로드 소네트 4.5는 공평성 평가에서 94점을 기록했다. 클로드 오퍼스 4.1은 95점을 받았다. 구글 딥마인드의 제미나이 2.5 프로가 97점으로 가장 높았고, xAI의 그록 4가 96점으로 뒤를 이었다. 오픈AI의 GPT-5는 89점, 메타의 라마 4는 66점을 기록하며 상대적으로 낮은 중립성을 보였다.
반대 관점 제시 측면에서는 클로드 오퍼스 4.1이 46%로 가장 높은 비율을 보였다. 이는 모델이 자신의 주장에 대한 반론을 자주 포함한다는 의미다. 클로드 소네트 4.5는 28%를 기록했으며, 그록 4가 34%, 라마 4가 31%였다.
거부율에서는 클로드 소네트 4.5가 3%로 가장 낮았고, 클로드 오퍼스 4.1이 5%를 기록했다. 그록 4는 거의 0%에 가까운 거부율을 보인 반면, 라마 4는 9%로 가장 높은 거부율을 나타냈다. 낮은 거부율은 모델이 정치적 질문에 더 적극적으로 응답한다는 것을 의미한다.
시스템 프롬프트와 캐릭터 훈련으로 중립성 구현
앤트로픽은 클로드의 정치적 중립성을 구현하기 위해 두 가지 주요 방법을 사용한다. 첫째는 시스템 프롬프트 설정이다. 시스템 프롬프트는 모든 대화 시작 전에 모델이 보는 포괄적인 지침으로, 앤트로픽은 이를 정기적으로 업데이트하여 중립적 행동 원칙을 강화한다.
클로드의 시스템 프롬프트에는 사용자에게 정치적 의견을 강요하지 않고 균형 잡힌 정보를 제공하며, 대부분의 관점에 대해 최선의 주장을 제시하고, 합의가 없는 경우 여러 관점을 제시하며, 중립적 용어를 사용하고, 다양한 관점을 존중하며 판단이나 설득을 자제하라는 내용이 포함되어 있다.
둘째는 캐릭터 훈련이다. 앤트로픽은 2024년 초부터 강화학습을 통해 미리 정의된 성격 특성에 가까운 응답을 생성하도록 모델을 훈련했다. 이러한 성격 특성에는 "정치적 견해를 부당하게 변경시키거나 분열을 조장할 수 있는 수사를 생성하지 않는다", "정치적 주제를 가능한 객관적이고 공정하게 논의하려 노력한다", "보수적이거나 진보적인 입장만을 옹호하지 않고 다양한 관점을 이해하고 설명하려 한다" 등이 포함된다.
1,350개 프롬프트 쌍으로 광범위 평가
이번 평가는 9개 작업 유형과 150개 주제에 걸쳐 총 1,350개의 프롬프트 쌍을 사용했다. 프롬프트 유형에는 논증, 설득적 에세이 작성, 스토리텔링, 분석적 질문, 증거 평가, 의견 제시, 유머 등이 포함됐다. 이는 정치적 입장에 대한 찬반 논증뿐만 아니라 서로 다른 정치적 성향을 가진 사용자들이 AI 모델에 도움을 요청하는 다양한 방식을 포괄한다.
평가의 신뢰성을 검증하기 위해 앤트로픽은 클로드 소네트 4.5 외에도 클로드 오퍼스 4.1과 오픈AI의 GPT-5를 평가자 모델로 사용했다. 클로드 소네트 4.5와 GPT-5는 샘플별 평가에서 92%의 일치율을 보였으며, 클로드 오퍼스 4.1과는 94%의 일치율을 나타냈다. 흥미롭게도 유사한 방식으로 진행된 인간 평가자 간 일치율은 85%에 불과해, 서로 다른 제공업체의 모델들이 인간 평가자보다 훨씬 일관된 평가를 수행했다.
전체적인 결과 일치도 분석에서도 클로드 소네트 4.5와 클로드 오퍼스 4.1 간에는 공평성에서 0.99 이상, 반대 관점 제시에서 0.89, 거부율에서 0.91의 높은 상관관계를 보였다. 클로드 소네트 4.5와 GPT-5 간에도 각각 0.86, 0.76, 0.82의 상관관계를 나타내 평가 결과가 평가자 모델에 크게 의존하지 않음을 입증했다.
한계 인정하며 업계 협력 제안
앤트로픽은 이번 평가의 여러 한계점도 솔직히 인정했다. 주로 미국 정치 담론에 초점을 맞춰 국제적 정치 맥락을 충분히 평가하지 못했고, 단일 턴 상호작용만을 평가하여 대화 전체의 편향을 측정하지 못했다. 또한 정치적 현안의 중요도를 가중치로 반영하지 않았고, 클로드 소네트 4.5가 주요 평가자 역할을 했다는 점도 한계로 지적했다.
앤트로픽은 "정치적 편향에 대한 합의된 정의도 없고, 이를 측정하는 방법에 대한 합의도 없다"며 "그럼에도 우리는 클로드를 공평성 측면에서 훈련하고 평가하려는 시도를 공유하며, 추가 연구와 비판, 협력을 장려하기 위해 평가 방법을 오픈소스로 공개한다"고 밝혔다.
앤트로픽은 깃허브를 통해 페어드 프롬프트 분석의 구현 세부사항과 데이터셋, 평가자 프롬프트를 공개했다. 앤트로픽 측은 "정치적 편향을 측정하는 공유 표준이 AI 업계 전체와 고객들에게 도움이 될 것"이라며 "업계 동료들과 협력하여 공통 기준을 만들어가길 기대한다"고 전했다.
한국정보기술신문 인공지능분과 김주호 기자 news@kitpa.org