한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 ·

앤트로픽, 차세대 AI 모델 'Claude Opus 4.6' 공개...코딩·추론 능력 대폭 강화

발행일
읽는 시간4분 6초

100만 토큰 컨텍스트 창 탑재, 업계 최고 성능 벤치마크 달성...가격은 기존 유지

앤트로픽이 향상된 코딩 능력과 에이전트 작업 수행 능력을 갖춘 클로드 Opus 4.6을 출시했다.

[한국정보기술신문] 인공지능 스타트업 앤트로픽이 2월 5일 차세대 AI 모델 클로드 Opus 4.6을 공개했다. 새 모델은 이전 버전 대비 코딩 능력이 크게 향상됐으며, Opus급 모델 중 처음으로 100만 토큰 컨텍스트 창을 베타 버전으로 지원한다.

앤트로픽에 따르면 Opus 4.6은 더 신중한 계획 수립, 장기 에이전트 작업 지속성 향상, 대규모 코드베이스에서의 안정적 작동 능력을 갖췄다. 또한 자체 오류를 포착하는 코드 리뷰와 디버깅 능력도 개선됐다. 이 모델은 일상적인 업무 작업에도 향상된 능력을 적용할 수 있으며, 재무 분석 실행과 연구 수행, 문서와 스프레드시트, 프레젠테이션 사용 및 생성 등이 가능하다.

업계 최고 수준 벤치마크 성능

Opus 4.6은 여러 평가 항목에서 최고 수준의 성능을 기록했다. 에이전트 코딩 평가인 터미널벤치 2.0에서 가장 높은 점수를 달성했으며, 복잡한 다학제 추론 테스트인 휴매니티스 라스트 엑잼에서 모든 프론티어 모델을 앞섰다.

금융과 법률 등 경제적 가치가 높은 지식 작업 성능을 평가하는 GDP밸류-AA에서 Opus 4.6은 오픈AI의 GPT-5.2보다 약 144 엘로 포인트 높은 성능을 보였다. 이는 전작인 Opus 4.5보다는 190 포인트 향상된 수치다. 또한 온라인에서 찾기 어려운 정보를 찾아내는 능력을 측정하는 브라우즈컴프에서도 다른 모든 모델을 능가했다.

긴 컨텍스트 처리 능력도 크게 개선됐다. 대용량 텍스트에 숨겨진 정보를 검색하는 능력을 테스트하는 MRCR v2의 8니들 100만 토큰 변형에서 Opus 4.6은 76퍼센트를 기록했다. 이는 소네트 4.5의 18.5퍼센트와 비교해 질적으로 향상된 수치다.

주요 기업들의 긍정적 평가

여러 주요 기업이 얼리 액세스를 통해 Opus 4.6을 테스트했으며, 대체로 긍정적인 반응을 보였다.

노션의 AI 책임자 사라 삭스는 "Opus 4.6은 앤트로픽이 출시한 가장 강력한 모델"이라며 "복잡한 요청을 받아 실제로 수행하고, 구체적인 단계로 나누어 실행한다"고 평가했다. 깃허브의 최고제품책임자 마리오 로드리게스는 "개발자들이 매일 직면하는 복잡한 다단계 코딩 작업을 수행한다"고 설명했다.

레플릿의 미켈레 카타스타 사장은 "Opus 4.6은 에이전트 계획에서 큰 도약"이라며 "복잡한 작업을 독립적인 하위 작업으로 나누고, 도구와 하위 에이전트를 병렬로 실행한다"고 밝혔다. 아사나의 임시 최고기술책임자 암리탄쉬 라가브는 "코드와 추론, 계획이 뛰어나다"며 "대규모 코드베이스를 탐색하고 올바른 변경 사항을 식별하는 능력이 최첨단 수준"이라고 평가했다.

커서의 공동창업자 겸 최고경영자 마이클 트루엘은 "더 어려운 문제에서 두드러진다"며 "더 강한 끈기와 더 나은 코드 리뷰, 다른 모델들이 포기하는 장기 작업에서도 지속한다"고 설명했다. 하비의 AI 연구 책임자 니코 그루펜은 "Opus 4.6이 빅로펌 벤치에서 90.2퍼센트로 역대 클로드 모델 중 가장 높은 점수를 기록했다"고 밝혔다.

제품 및 API 업데이트

앤트로픽은 Opus 4.6과 함께 여러 제품과 API 기능을 업데이트했다.

API에서는 적응형 사고 기능을 도입했다. 이전에는 확장 사고를 활성화하거나 비활성화하는 이진 선택만 가능했지만, 이제 클로드가 더 깊은 추론이 도움이 될 때를 결정할 수 있다. 개발자는 네 가지 노력 수준(낮음, 중간, 높음, 최대) 중 선택할 수 있다.

컨텍스트 압축 기능도 베타 버전으로 제공된다. 긴 대화와 에이전트 작업이 컨텍스트 창에 도달하면 자동으로 이전 컨텍스트를 요약하고 교체해 제한에 도달하지 않고 더 긴 작업을 수행할 수 있다. Opus 4.6은 첫 Opus급 모델로 100만 토큰 컨텍스트를 지원하며, 20만 토큰을 초과하는 프롬프트에는 프리미엄 가격이 적용된다.

최대 출력 토큰도 12만 8000개로 확대돼 여러 요청으로 나누지 않고 더 큰 출력 작업을 완료할 수 있다. 미국 내에서만 실행해야 하는 워크로드를 위해서는 1.1배 토큰 가격으로 미국 전용 추론도 제공된다.

클로드 코드에서는 연구 프리뷰로 에이전트 팀 기능을 도입했다. 이제 여러 에이전트를 팀으로 구성해 병렬로 작업하고 자율적으로 조정할 수 있다. 코드베이스 리뷰처럼 독립적이고 읽기가 많은 작업으로 분할되는 작업에 가장 적합하다.

엑셀과 파워포인트 통합 강화

클로드는 이미 사용하는 사무용 도구와의 통합도 개선했다. 클로드 인 엑셀은 장기 실행 및 어려운 작업에 대한 성능이 향상됐으며, 행동 전 계획을 수립하고 비구조화 데이터를 수집해 지침 없이 올바른 구조를 추론할 수 있다. 또한 한 번에 여러 단계의 변경을 처리한다.

클로드 인 파워포인트가 연구 프리뷰로 출시됐다. 템플릿에서 구축하든 설명으로부터 전체 덱을 생성하든, 클로드는 레이아웃과 글꼴, 슬라이드 마스터를 읽어 브랜드를 유지한다. 엑셀에서 데이터를 처리하고 구조화한 다음 파워포인트에서 시각적으로 표현할 수 있다. 클로드 인 파워포인트는 맥스와 팀, 엔터프라이즈 플랜에서 연구 프리뷰로 이용 가능하다.

안전성 개선

Opus 4.6의 지능 향상은 안전성 저하를 대가로 하지 않았다. 자동화된 행동 감사에서 Opus 4.6은 기만과 아첨, 사용자 망상 조장, 악용 협력 같은 잘못된 행동의 낮은 비율을 보였다. 전반적으로 이전 가장 정렬된 프론티어 모델이었던 Opus 4.5만큼 잘 정렬됐다. 또한 최근 클로드 모델 중 무해한 질의에 대한 응답 실패인 과도한 거부 비율이 가장 낮았다.

앤트로픽은 Opus 4.6에 대해 어떤 모델보다도 포괄적인 안전성 평가를 실행했다. 사용자 복지에 대한 새로운 평가와 잠재적으로 위험한 요청을 거부하는 능력에 대한 더 복잡한 테스트, 모델이 은밀하게 해로운 행동을 수행하는 능력에 대한 업데이트된 평가가 포함됐다. 또한 해석 가능성 분야의 새로운 방법을 실험해 모델이 특정 방식으로 행동하는 이유를 이해하기 시작했다.

모델이 향상된 사이버보안 능력을 보이므로, 앤트로픽은 여섯 가지 새로운 사이버보안 탐지기를 개발했다. 이는 다양한 형태의 잠재적 악용을 추적하는 데 도움이 된다. 회사는 또한 오픈소스 소프트웨어의 취약점을 찾고 패치하는 데 모델을 사용해 모델의 사이버 방어 용도를 가속화하고 있다.

가격 및 이용 가능성

Opus 4.6은 오늘부터 claude.ai와 API, 모든 주요 클라우드 플랫폼에서 이용 가능하다. 개발자는 클로드 API를 통해 'claude-opus-4-6'을 사용할 수 있다. 가격은 백만 토큰당 5달러와 25달러로 기존과 동일하게 유지된다.

앤트로픽은 모델과 새로운 제품 업데이트, 평가, 광범위한 안전성 테스트에 대해 클로드 Opus 4.6 시스템 카드에서 자세히 다루고 있다. 회사는 사이버보안이 빠르게 움직이므로 잠재적 위협에 대해 더 많이 알게 되면서 보호 조치를 조정하고 업데이트할 것이라고 밝혔다. 가까운 미래에 악용을 차단하기 위한 실시간 개입을 도입할 수 있다고 덧붙였다.

한국정보기술신문 인공지능분과 김주호 기자 news@kitpa.org