앤트로픽, 역대 최고 성능 AI 모델 '클로드 페이블 5' 일반 공개...안전장치 더해 6월 9일 출시, 위험 질의는 오푸스 4.8이 대신 응답
앤트로픽이 역대 최고 성능 모델 '클로드 페이블 5'를 일반에 공개했다.
[한국정보기술신문] 인공지능(AI) 기업 앤트로픽(Anthropic)이 자사가 일반에 내놓은 모델 가운데 가장 성능이 뛰어난 '클로드 페이블 5(Claude Fable 5)'를 공개했다. 앤트로픽은 6월 9일(현지시간) 공식 발표를 통해, 페이블 5가 자사 최상위 등급인 '미토스급(Mythos-class)' 모델을 일반 사용자도 안전하게 쓸 수 있도록 안전장치를 더한 모델이라고 밝혔다. 미토스급은 앤트로픽이 기존 최상위였던 '오푸스(Opus)' 등급보다 위에 새로 둔 모델 단계를 말한다. 회사 측은 페이블 5가 소프트웨어 개발, 지식 노동, 시각 인식, 과학 연구 등 거의 모든 성능 평가에서 최고 수준을 기록했으며, 다루는 작업이 길고 복잡할수록 다른 모델과의 격차가 더 벌어진다고 설명했다.
앤트로픽은 페이블 5와 함께 같은 토대 위에 만든 '클로드 미토스 5(Claude Mythos 5)'도 공개했다. 미토스 5는 페이블 5와 동일한 모델이지만 일부 영역에서 안전장치를 풀어 둔 것이 차이다. 두 모델의 이름이 다른 것도 이 안전장치의 유무 때문이라고 회사는 밝혔다. 미토스 5는 우선 미국 정부와 협력하는 'AI 사이버 방어 사업(프로젝트 글래스윙·Project Glasswing)'을 통해 소수의 사이버 방어 전문가와 핵심 인프라 사업자에게만 제공된다. 앤트로픽은 미토스 5가 현존하는 모델 가운데 가장 강력한 사이버보안 능력을 갖췄다고 설명했다.

"수개월 작업을 하루로"...개발·지식 노동서 두각
앤트로픽은 페이블 5의 성능을 보여 주는 사례로 외부 기업들의 사전 시험 결과를 제시했다. 결제 서비스 기업 스트라이프(Stripe)는 5천만 줄 규모의 코드 더미에서, 사람이 손으로 하면 한 팀이 두 달 넘게 걸릴 대규모 코드 이전 작업을 페이블 5가 하루 만에 끝냈다고 전했다. 회사 측은 페이블 5가 같은 작업을 더 적은 연산량으로 처리하는 등 효율도 높였다고 덧붙였다.
지식 노동 분야에서도 강점을 보였다. 페이블 5는 금융 분야의 고급 추론 능력을 평가하는 시험에서 가장 높은 점수를 받았으며, 문서 기반 추론과 도표 해석, 문제 해결에서 큰 폭의 향상을 보였다고 앤트로픽은 밝혔다. 시각 인식 분야에서는 화면을 본 것만으로 웹 앱의 소스 코드를 다시 만들어 내거나, 별도의 보조 도구 없이 게임 화면만 보고 닌텐도 게임 '포켓몬'을 처음부터 끝까지 완주하기도 했다. 또 수백만 단어 분량의 긴 작업에서도 집중을 유지하고, 스스로 남긴 메모를 활용해 결과물을 개선하는 모습을 보였다는 설명이다.
미토스 5는 생명과학 연구에서도 성과를 냈다. 앤트로픽 내부의 단백질 설계 전문가들은 미토스 5를 활용해 신약 설계 과정의 일부를 약 10배 빠르게 진행했다고 밝혔다. 미토스 5는 분자생물학 분야에서 새롭고 설득력 있는 과학 가설을 꾸준히 내놓은 첫 모델이라고 회사는 평가했다. 자사 과학자들이 가설의 우열을 가린 눈가림 비교에서 약 80%가 미토스 5의 가설을 선호했고, 일부는 실제 실험 평가 단계로 넘어갔다는 것이다. 또 미토스 5는 일주일 넘는 거의 자율적인 작업으로 138종의 동물에 걸친 단일세포 데이터를 모으고 맞춤형 기계학습 모델을 직접 설계·학습시키는 유전체 연구를 수행하기도 했다.

위험 영역 질의는 오푸스 4.8이 대신 처리
이처럼 강력한 모델을 일반에 공개하는 데는 위험이 따른다. 앤트로픽은 사이버보안 같은 분야에서 페이블 5의 능력이 안전장치 없이 악용되면 심각한 피해를 부를 수 있다고 보고, 위험이 큰 일부 주제의 질의는 페이블 5 대신 차상위 모델인 '클로드 오푸스 4.8(Claude Opus 4.8)'이 응답하도록 했다. 이 같은 전환이 일어나면 사용자에게 그 사실을 알린다.
이를 위해 페이블 5에는 악용 시도를 탐지해 본체 모델의 응답을 막는 별도의 AI 시스템인 '분류기(classifier)'가 새로 적용됐다. 분류기는 △사이버보안 △생물학·화학 △증류(distillation) 세 영역의 질의를 걸러 낸다. 증류란 한 AI의 능력을 빼내 경쟁 모델을 학습시키는 행위로, 앤트로픽은 페이블 5의 능력이 이런 방식으로 안전장치 없이 퍼져 나갈 위험을 막기 위해 이를 포함했다고 설명했다. 회사 측은 안전을 우선해 분류기를 보수적으로 맞춰 둔 탓에 무해한 요청까지 걸리는 경우가 있지만, 이런 전환은 평균적으로 전체 대화의 5% 미만에서만 일어난다고 밝혔다. 곧 95% 이상의 대화에서는 페이블 5가 미토스 5와 사실상 같은 성능을 낸다는 것이다.
앤트로픽은 분류기가 우회 공격(이른바 '탈옥·jailbreak')을 얼마나 잘 견디는지 광범위하게 시험했다고 밝혔다. 외부 포상금 제도를 통해 1천 시간이 넘는 시험을 진행했으나 모든 안전장치를 무력화하는 '범용 탈옥'은 나오지 않았다고 회사는 설명했다. 다만 영국 AI안전연구소(UK AISI)가 짧은 초기 시험에서 범용 탈옥에 다소 진전을 보였다는 점도 함께 공개했다.
이와 함께 앤트로픽은 미토스급 모델에 대해 새로운 데이터 보관 정책을 적용한다고 밝혔다. 모든 사용 기록을 30일간 보관하되 새 모델 학습이나 안전과 무관한 목적에는 쓰지 않으며, 30일 뒤에는 대부분 삭제한다는 내용이다. 이 데이터는 새로운 우회 공격을 비롯한 복잡한 공격에 대응하고, 무해한 요청이 잘못 차단되는 사례를 줄이는 데 쓰인다고 회사는 설명했다.
미토스 프리뷰의 절반 이하 가격...구독제는 단계적 제공
페이블 5와 미토스 5의 이용 가격은 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러로 책정됐다. 이는 앞서 나온 '클로드 미토스 프리뷰(Mythos Preview)'의 절반에도 못 미치는 수준이다. 토큰은 AI가 글을 처리하는 기본 단위로, 보통 단어나 글자 조각 하나에 해당한다. 미토스급 모델은 지난 4월 프로젝트 글래스윙을 통해 처음 선보인 미토스 프리뷰가 그 시작으로, 일부 신뢰할 수 있는 기관에만 제공돼 왔다.
페이블 5는 발표 당일부터 모든 곳에서 이용할 수 있다. 다만 수요가 매우 클 것으로 예상돼, 정기 구독 요금제에서는 단계적으로 제공된다. 6월 22일까지는 프로·맥스·팀 등 요금제에서 추가 비용 없이 쓸 수 있고, 6월 23일부터는 별도의 사용 크레딧이 필요하다. 앤트로픽은 충분한 처리 용량이 확보되는 대로 페이블 5를 구독 요금제의 기본 항목으로 되돌릴 계획이라고 밝혔다. 미토스 5는 당분간 프로젝트 글래스윙 협력 기관과 일부 생명과학 연구자에게만 제한적으로 제공된다.
앤트로픽은 미토스 5의 위험 행동 수준을 자체 평가한 결과 기만이나 악용 협조 등 잘못 정렬된 행동의 비율이 낮았으며, 오푸스 4.8과 비슷한 수준이었다고 밝혔다. 같은 토대를 공유하는 페이블 5의 안전성도 비슷할 것이라는 설명이다. 회사 측은 미토스급 모델이 사이버 방어와 생명과학 연구 등에서 큰 도움을 줄 잠재력을 지녔다며, 안전장치를 점차 정교하게 다듬어 무해한 요청이 잘못 걸리는 사례를 줄여 나가겠다고 밝혔다.
한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org











