앤트로픽, 최상위 모델 '클로드 오푸스 4.8' 출시...벤치마크 끌어올리고 '노력 제어'·'동적 워크플로'로 협업 강화, 가격은 그대로

2026년 5월 31일

4분

앤트로픽이 최상위 모델 클로드 오푸스 4.8을 공개했다.

[한국정보기술신문] 인공지능(AI) 기업 앤트로픽(Anthropic)이 자사 최상위 모델 '클로드 오푸스'의 업그레이드 버전인 '클로드 오푸스 4.8'을 출시했다. 새 모델은 직전 버전인 오푸스 4.7을 기반으로 벤치마크 성능을 끌어올리고 협업 능력을 강화한 것이 특징이다. 모델명은 'claude-opus-4-8'이며, 일반 사용 기준 가격은 오푸스 4.7과 동일하게 유지된다.

앤트로픽은 올해 2월 오푸스 4.6, 4월 오푸스 4.7을 잇따라 선보인 데 이어 이번 4.8까지 약 두 달 간격의 출시 주기를 이어가고 있다.

코딩·추론서 경쟁 모델 앞서

앤트로픽은 오푸스 4.8이 코딩, 에이전트 기술, 추론, 실무 지식 작업 전반에서 이전 모델은 물론 오픈AI의 GPT-5.5 등 경쟁 모델보다 우수한 성능을 보인다고 밝혔다. 에이전트형 코딩 능력을 평가하는 'SWE-Bench Pro'에서 오푸스 4.8은 69.2%를 기록해 오푸스 4.7(64.3%)과 GPT-5.5(58.6%)를 앞섰다.

성능 측정 기관 Artificial Analysis에 따르면, 오푸스 4.8은 실무 작업 평가인 'GDPval-AA'의 최고 노력(max) 설정에서 1890점을 받아 오푸스 4.7보다 137점, GPT-5.5보다 121점 높았다. GPT-5.5와의 1대1 비교에서 약 67%의 승률을 보였다는 것이 기관의 분석이다. 다만 같은 기관은 오푸스 4.8이 작업 해결에 쓰는 출력 토큰이 많아 비용 대비 효율에서는 여전히 GPT-5.5가 앞서는 면이 있다고 평가했다.

'근거 없는 답변' 줄였다

이번 버전에서 앤트로픽이 강조한 부분은 '정직성(Honesty)'이다. AI가 근거 없는 주장을 하거나 성급히 결론을 내리는 문제를 개선했다는 것이다. 앤트로픽은 오푸스 4.8이 불확실한 부분을 스스로 표시하며, 코드 안에 숨은 결함을 놓칠 확률이 이전 모델 대비 약 4배 낮아졌다고 설명했다.

에이전트로서의 신뢰성도 높아졌다. 회사 측은 초기 테스트 결과 복잡한 다단계 작업을 수행할 때 판단력이 날카로워졌으며, 자신의 실수를 포착하고 계획이 타당하지 않을 때 이의를 제기하는 등 협업 능력이 향상됐다고 밝혔다. 빠른 응답을 제공하는 '패스트 모드(Fast Mode)'는 속도가 2.5배 빨라지고 비용은 이전 대비 3배 낮아졌다.

환각(없는 사실을 지어내는 현상) 측면에서도 평가가 나쁘지 않다. 아티피셜애널리시스는 오푸스 4.8이 지식 평가에서 정확도가 소폭 올랐고 환각률은 비슷한 수준을 유지했다며, 앤트로픽이 구글·오픈AI의 동급 모델보다 낮은 환각률을 꾸준히 보이고 있다고 분석했다. 일부 개발자는 모델의 시스템 문서에서 '창의적 숙련도'를 별도로 평가한 점을 두고, 코딩 정확도뿐 아니라 설계의 독창성까지 함께 다루려는 시도로 의미가 있다고 평가했다.

'노력 제어'로 토큰·속도 조절

오푸스 4.8과 함께 새로운 기능도 공개됐다. 핵심은 사용자가 모델이 작업에 들이는 노력 수준을 직접 고르는 '노력 제어(Effort Control)'다. 높은 설정에서는 더 깊이 생각해 고품질의 답을 내놓고, 낮은 설정에서는 더 빠르게 응답하며 토큰 사용량을 줄인다. 앤트로픽은 품질과 사용성의 균형을 이유로 오푸스 4.8의 기본값을 'high(높음)'로 설정했으며, 어려운 작업에는 'xhigh' 같은 더 강한 설정을 권장한다.

코딩 도구 '클로드 코드'에는 연구 프리뷰 기능인 '동적 워크플로우'가 추가됐다. 수십에서 수백 개의 병렬 서브 에이전트를 띄워 대규모 코드베이스 마이그레이션처럼 손이 많이 가는 작업을 역할을 나눠 처리하는 방식이다. 이 밖에 메시지 API가 개선돼, 시스템 지침을 메시지 배열 안에 넣어 작업 도중에도 프롬프트 캐시를 깨뜨리지 않고 지침을 갱신할 수 있게 됐다.

"토큰 사용량 함께 봐야"...실사용 후기는 엇갈려

새 모델을 둘러싼 평가는 엇갈린다. 초기 사용자들 사이에서는 디버깅과 문제 원인 추적에서 효과를 봤다는 반응이 있는 한편, 그만큼 토큰 사용량이 크게 늘었다는 지적도 함께 나온다. 일부 사용자는 오푸스 4.7의 강한 설정으로 여러 작업을 돌릴 때보다, 기본값이 높게 잡힌 오푸스 4.8에서 할당량이 더 빨리 소진됐다고 전했다. 앤트로픽은 높아진 추론 강도와 동적 워크플로의 토큰 사용량을 고려해 클로드 코드의 사용 한도를 올렸다고 밝혔다.

전문가들은 벤치마크 점수가 좋더라도 실제 사용에서는 토큰 예산과 노력 강도 설정, 작업 확산 정도를 함께 따져야 한다고 조언한다. 앤트로픽 역시 단순한 작업에는 낮은 설정, 어려운 작업에는 높은 설정을 쓰는 식으로 비용을 관리할 것을 권하고 있다.

출시 잦아지는 까닭...IPO 경쟁 속 '비용 손잡이'

업계에서는 앤트로픽이 짧은 주기로 점진적 업데이트를 내놓는 배경에도 주목한다. 노력 제어, 동적 워크플로, 패스트 모드처럼 속도와 비용을 조절하는 기능을 사용자에게 풀어놓는 흐름이, 모델 운영 비용과 자원 소비를 관리하려는 목적과 맞닿아 있다는 분석이다. 앤트로픽과 오픈AI가 기업공개(IPO)를 앞두고 모델 경쟁을 벌이는 상황에서, 사용자에게 제공되는 제어 기능이 동시에 사업 지표를 조정하는 수단으로도 쓰일 수 있다는 시각이다.

일각에서는 GPT나 코덱스 계열로 옮겨가는 이용자가 늘자 앤트로픽이 새 모델 출시를 서둘렀다는 해석도 나온다. 반면 계획 수립이나 아키텍처 설계처럼 판단이 필요한 작업에서는 오푸스 계열이 경쟁 모델보다 낫다며, 설계는 오푸스에, 순수 코딩은 다른 모델에 맡기는 식으로 역할을 나눠 쓴다는 사용자도 적지 않다. 모델의 '체감'을 둘러싼 평가가 갈리는 만큼, 공개된 벤치마크 수치만으로 우열을 단정하기는 어렵다는 지적도 함께 제기된다.

더 높은 지능 모델 '미토스' 예고

앤트로픽은 향후 계획도 함께 내놨다. 오푸스급 성능을 더 낮은 비용으로 제공하는 모델을 개발하는 한편, '프로젝트 글래스윙'을 통해 오푸스보다 더 높은 지능을 가진 새로운 모델 클래스 '클로드 미토스'를 준비하고 있다고 밝혔다. 미토스는 현재 일부 조직에서 보안 작업에 활용되며 테스트가 진행 중이고, 이 수준의 모델은 일반 공개 전에 더 강한 사이버 안전장치가 필요하다는 것이 회사 설명이다. 앤트로픽은 몇 주 안에 고객에게 공개할 예정이라고 덧붙였다.

가격은 일반 모드 기준 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러로 오푸스 4.7과 같다. 패스트 모드는 입력 10달러, 출력 50달러다. 두 달 남짓한 간격으로 빠르게 이어지는 점진적 업데이트가 실제 사용자에게 얼마나 체감되는 개선으로 이어질지가, 다음 모델을 향한 관전 포인트가 될 전망이다.

한국정보기술신문 인공지능분과 권지현 기자 news@kitpa.org

앤트로픽, 최상위 모델 '클로드 오푸스 4.8' 출시...벤치마크 끌어올리고 '노력 제어'·'동적 워크플로'로 협업 강화, 가격은 그대로

코딩·추론서 경쟁 모델 앞서

'근거 없는 답변' 줄였다

'노력 제어'로 토큰·속도 조절

"토큰 사용량 함께 봐야"...실사용 후기는 엇갈려

출시 잦아지는 까닭...IPO 경쟁 속 '비용 손잡이'

더 높은 지능 모델 '미토스' 예고

함께 읽으면 좋은 기사

앤트로픽, 최상위 모델 '클로드 오푸스 4.8' 출시...벤치마크 끌어올리고 '노력 제어'·'동적 워크플로'로 협업 강화, 가격은 그대로

산업통상부, 부내 행정업무에 AI 도입 본격 추진...AI 혁신 자문단 출범하고 거버넌스·서비스·역량 3대 과제 가동

개인정보위·프랑스 CNIL, 아동·청소년 'AI 안전 사용' 포스터 공동제작...질문 6가지로 풀어내 전국 초·중·고에 배포

구글, 제미나이 기반 새 광고 포맷으로 검색 광고 'AI 시대' 연다...대화형 광고·AI 쇼핑 광고 도입하고 다이렉트 오퍼 시범사업 확대