한국정보기술진흥원한국인공지능올림피아드 (KOAI) 2026 개최안내

앤트로픽, 최상위 모델 '클로드 오푸스 4.8' 출시...벤치마크 끌어올리고 '노력 제어'·'동적 워크플로'로 협업 강화, 가격은 그대로

앤트로픽이 최상위 모델 클로드 오푸스 4.8을 공개했다.
image.png
[한국정보기술신문] 인공지능(AI) 기업 앤트로픽(Anthropic)이 자사 최상위 모델 '클로드 오푸스'의 업그레이드 버전인 '클로드 오푸스 4.8'을 출시했다. 새 모델은 직전 버전인 오푸스 4.7을 기반으로 벤치마크 성능을 끌어올리고 협업 능력을 강화한 것이 특징이다. 모델명은 'claude-opus-4-8'이며, 일반 사용 기준 가격은 오푸스 4.7과 동일하게 유지된다.
앤트로픽은 올해 2월 오푸스 4.6, 4월 오푸스 4.7을 잇따라 선보인 데 이어 이번 4.8까지 약 두 달 간격의 출시 주기를 이어가고 있다.

코딩·추론서 경쟁 모델 앞서

앤트로픽은 오푸스 4.8이 코딩, 에이전트 기술, 추론, 실무 지식 작업 전반에서 이전 모델은 물론 오픈AI의 GPT-5.5 등 경쟁 모델보다 우수한 성능을 보인다고 밝혔다. 에이전트형 코딩 능력을 평가하는 'SWE-Bench Pro'에서 오푸스 4.8은 69.2%를 기록해 오푸스 4.7(64.3%)과 GPT-5.5(58.6%)를 앞섰다.
성능 측정 기관 Artificial Analysis에 따르면, 오푸스 4.8은 실무 작업 평가인 'GDPval-AA'의 최고 노력(max) 설정에서 1890점을 받아 오푸스 4.7보다 137점, GPT-5.5보다 121점 높았다. GPT-5.5와의 1대1 비교에서 약 67%의 승률을 보였다는 것이 기관의 분석이다. 다만 같은 기관은 오푸스 4.8이 작업 해결에 쓰는 출력 토큰이 많아 비용 대비 효율에서는 여전히 GPT-5.5가 앞서는 면이 있다고 평가했다.

'근거 없는 답변' 줄였다

이번 버전에서 앤트로픽이 강조한 부분은 '정직성(Honesty)'이다. AI가 근거 없는 주장을 하거나 성급히 결론을 내리는 문제를 개선했다는 것이다. 앤트로픽은 오푸스 4.8이 불확실한 부분을 스스로 표시하며, 코드 안에 숨은 결함을 놓칠 확률이 이전 모델 대비 약 4배 낮아졌다고 설명했다.
에이전트로서의 신뢰성도 높아졌다. 회사 측은 초기 테스트 결과 복잡한 다단계 작업을 수행할 때 판단력이 날카로워졌으며, 자신의 실수를 포착하고 계획이 타당하지 않을 때 이의를 제기하는 등 협업 능력이 향상됐다고 밝혔다. 빠른 응답을 제공하는 '패스트 모드(Fast Mode)'는 속도가 2.5배 빨라지고 비용은 이전 대비 3배 낮아졌다.
환각(없는 사실을 지어내는 현상) 측면에서도 평가가 나쁘지 않다. 아티피셜애널리시스는 오푸스 4.8이 지식 평가에서 정확도가 소폭 올랐고 환각률은 비슷한 수준을 유지했다며, 앤트로픽이 구글·오픈AI의 동급 모델보다 낮은 환각률을 꾸준히 보이고 있다고 분석했다. 일부 개발자는 모델의 시스템 문서에서 '창의적 숙련도'를 별도로 평가한 점을 두고, 코딩 정확도뿐 아니라 설계의 독창성까지 함께 다루려는 시도로 의미가 있다고 평가했다.

'노력 제어'로 토큰·속도 조절

오푸스 4.8과 함께 새로운 기능도 공개됐다. 핵심은 사용자가 모델이 작업에 들이는 노력 수준을 직접 고르는 '노력 제어(Effort Control)'다. 높은 설정에서는 더 깊이 생각해 고품질의 답을 내놓고, 낮은 설정에서는 더 빠르게 응답하며 토큰 사용량을 줄인다. 앤트로픽은 품질과 사용성의 균형을 이유로 오푸스 4.8의 기본값을 'high(높음)'로 설정했으며, 어려운 작업에는 'xhigh' 같은 더 강한 설정을 권장한다.
코딩 도구 '클로드 코드'에는 연구 프리뷰 기능인 '동적 워크플로우'가 추가됐다. 수십에서 수백 개의 병렬 서브 에이전트를 띄워 대규모 코드베이스 마이그레이션처럼 손이 많이 가는 작업을 역할을 나눠 처리하는 방식이다. 이 밖에 메시지 API가 개선돼, 시스템 지침을 메시지 배열 안에 넣어 작업 도중에도 프롬프트 캐시를 깨뜨리지 않고 지침을 갱신할 수 있게 됐다.

"토큰 사용량 함께 봐야"...실사용 후기는 엇갈려

새 모델을 둘러싼 평가는 엇갈린다. 초기 사용자들 사이에서는 디버깅과 문제 원인 추적에서 효과를 봤다는 반응이 있는 한편, 그만큼 토큰 사용량이 크게 늘었다는 지적도 함께 나온다. 일부 사용자는 오푸스 4.7의 강한 설정으로 여러 작업을 돌릴 때보다, 기본값이 높게 잡힌 오푸스 4.8에서 할당량이 더 빨리 소진됐다고 전했다. 앤트로픽은 높아진 추론 강도와 동적 워크플로의 토큰 사용량을 고려해 클로드 코드의 사용 한도를 올렸다고 밝혔다.
전문가들은 벤치마크 점수가 좋더라도 실제 사용에서는 토큰 예산과 노력 강도 설정, 작업 확산 정도를 함께 따져야 한다고 조언한다. 앤트로픽 역시 단순한 작업에는 낮은 설정, 어려운 작업에는 높은 설정을 쓰는 식으로 비용을 관리할 것을 권하고 있다.

출시 잦아지는 까닭...IPO 경쟁 속 '비용 손잡이'

업계에서는 앤트로픽이 짧은 주기로 점진적 업데이트를 내놓는 배경에도 주목한다. 노력 제어, 동적 워크플로, 패스트 모드처럼 속도와 비용을 조절하는 기능을 사용자에게 풀어놓는 흐름이, 모델 운영 비용과 자원 소비를 관리하려는 목적과 맞닿아 있다는 분석이다. 앤트로픽과 오픈AI가 기업공개(IPO)를 앞두고 모델 경쟁을 벌이는 상황에서, 사용자에게 제공되는 제어 기능이 동시에 사업 지표를 조정하는 수단으로도 쓰일 수 있다는 시각이다.
일각에서는 GPT나 코덱스 계열로 옮겨가는 이용자가 늘자 앤트로픽이 새 모델 출시를 서둘렀다는 해석도 나온다. 반면 계획 수립이나 아키텍처 설계처럼 판단이 필요한 작업에서는 오푸스 계열이 경쟁 모델보다 낫다며, 설계는 오푸스에, 순수 코딩은 다른 모델에 맡기는 식으로 역할을 나눠 쓴다는 사용자도 적지 않다. 모델의 '체감'을 둘러싼 평가가 갈리는 만큼, 공개된 벤치마크 수치만으로 우열을 단정하기는 어렵다는 지적도 함께 제기된다.

더 높은 지능 모델 '미토스' 예고

앤트로픽은 향후 계획도 함께 내놨다. 오푸스급 성능을 더 낮은 비용으로 제공하는 모델을 개발하는 한편, '프로젝트 글래스윙'을 통해 오푸스보다 더 높은 지능을 가진 새로운 모델 클래스 '클로드 미토스'를 준비하고 있다고 밝혔다. 미토스는 현재 일부 조직에서 보안 작업에 활용되며 테스트가 진행 중이고, 이 수준의 모델은 일반 공개 전에 더 강한 사이버 안전장치가 필요하다는 것이 회사 설명이다. 앤트로픽은 몇 주 안에 고객에게 공개할 예정이라고 덧붙였다.
가격은 일반 모드 기준 입력 100만 토큰당 5달러, 출력 100만 토큰당 25달러로 오푸스 4.7과 같다. 패스트 모드는 입력 10달러, 출력 50달러다. 두 달 남짓한 간격으로 빠르게 이어지는 점진적 업데이트가 실제 사용자에게 얼마나 체감되는 개선으로 이어질지가, 다음 모델을 향한 관전 포인트가 될 전망이다.
한국정보기술신문 인공지능분과 권지현 기자 news@kitpa.org

함께 읽으면 좋은 기사

하와이 마우나로아 5월 평균 CO2 432.34ppm '역대 최고'...전년比 1.83ppm 상승, 최근 3년 기록적 급증세는 다소 꺾여

하와이 마우나로아 5월 평균 CO2 432.34ppm '역대 최고'...전년比 1.83ppm 상승, 최근 3년 기록적 급증세는 다소 꺾여

학제간융합 4
CU 편의점 택배 BGF네트웍스 해킹, 고객 개인정보 무더기 유출...웹 취약점 뚫려 연계정보(CI)까지 노출, 크리덴셜 스터핑 2차 피해 우려

CU 편의점 택배 BGF네트웍스 해킹, 고객 개인정보 무더기 유출...웹 취약점 뚫려 연계정보(CI)까지 노출, 크리덴셜 스터핑 2차 피해 우려

정보보안 3
칙센트미하이 몰입 이론, 도전과 역량 균형 이룰 때 최고의 행복 경험...몰입 위한 8가지 조건 제시

칙센트미하이 몰입 이론, 도전과 역량 균형 이룰 때 최고의 행복 경험...몰입 위한 8가지 조건 제시

교육 3
무료 인증서기관 '렛츠인크립트', 양자내성 웹 보안 전환 청사진 공개...'머클트리 인증서'로 접속 데이터 안 늘리고 양자 위협 대비, 2027년 정식 도입 목표

무료 인증서기관 '렛츠인크립트', 양자내성 웹 보안 전환 청사진 공개...'머클트리 인증서'로 접속 데이터 안 늘리고 양자 위협 대비, 2027년 정식 도입 목표

인공지능 · 정보보안 4
구글, 노트북서 구동되는 멀티모달 AI '젬마 4 12B' 공개...인코더 없는 통합 구조로 음성·이미지 직접 처리

구글, 노트북서 구동되는 멀티모달 AI '젬마 4 12B' 공개...인코더 없는 통합 구조로 음성·이미지 직접 처리

인공지능 2
UC버클리 컴퓨터과학 수업서 낙제율 급등...교수들 "AI 과의존·수학 기초 부족이 원인"...CS 10 낙제 35%로 학과 기준 5배, 한 강의는 AI·인터넷 허용 시험까지

UC버클리 컴퓨터과학 수업서 낙제율 급등...교수들 "AI 과의존·수학 기초 부족이 원인"...CS 10 낙제 35%로 학과 기준 5배, 한 강의는 AI·인터넷 허용 시험까지

교육 · 인공지능 4
프로그래밍 언어 '엘릭서' 1.20 공개...타입 표기 없이도 모든 코드 자동 검사해 '확정 버그' 잡아낸다...개발자가 따로 손댈 일 없이 오탐도 적어, 4년 연구의 첫 결실

프로그래밍 언어 '엘릭서' 1.20 공개...타입 표기 없이도 모든 코드 자동 검사해 '확정 버그' 잡아낸다...개발자가 따로 손댈 일 없이 오탐도 적어, 4년 연구의 첫 결실

정보기술 4
호주 연구진, 격자 지도 경로 탐색 'A*' 최대 수십 배 빠르게 하는 '점프 포인트' 기법 발표...최적 경로 보장하면서 사전 작업도 추가 메모리도 필요 없어

호주 연구진, 격자 지도 경로 탐색 'A*' 최대 수십 배 빠르게 하는 '점프 포인트' 기법 발표...최적 경로 보장하면서 사전 작업도 추가 메모리도 필요 없어

인공지능 5
한국어로 AI 쓰면 토큰 3~5배 더 소비…같은 구독료에 받는 서비스는 3분의 1, "영어로 묻고 한국어로 받아라"

한국어로 AI 쓰면 토큰 3~5배 더 소비…같은 구독료에 받는 서비스는 3분의 1, "영어로 묻고 한국어로 받아라"

인공지능 · 오피니언 4
마이크로소프트, 상시 작동 AI 에이전트 '스카우트' 공개...오토파일럿 첫 제품으로 팀즈·아웃룩 등 M365 전반 연동, 프런티어 통해 실험 출시

마이크로소프트, 상시 작동 AI 에이전트 '스카우트' 공개...오토파일럿 첫 제품으로 팀즈·아웃룩 등 M365 전반 연동, 프런티어 통해 실험 출시

인공지능 3
게임 트리 알고리즘, 인공지능 의사결정의 뼈대로 주목...미니맥스·알파베타 가지치기가 핵심 원리

게임 트리 알고리즘, 인공지능 의사결정의 뼈대로 주목...미니맥스·알파베타 가지치기가 핵심 원리

인공지능 2
정부, 8천억대 국산 '온디바이스 AI반도체' 개발 국책사업 확정...자동차·가전·로봇·방산 4대 업종에 풀스택 지원, 6월 공고해 7월 착수

정부, 8천억대 국산 '온디바이스 AI반도체' 개발 국책사업 확정...자동차·가전·로봇·방산 4대 업종에 풀스택 지원, 6월 공고해 7월 착수

인공지능 · 반도체 · 유관기관 3