인공지능 ·

앤트로픽, AI 모델 'Claude Opus 4.1' 출시...코딩 성능 74.5%로 향상, 심층 연구·데이터 분석 능력 강화

발행일2025년 8월 7일

읽는 시간2분 25초

[한국정보기술신문] 인공지능 개발업체 앤트로픽(Anthropic)이 8월 5일 차세대 AI 모델 'Claude Opus 4.1'을 공식 출시했다고 발표했다. 이번 신버전은 기존 Claude Opus 4 대비 에이전트 작업, 실제 코딩, 추론 능력에서 상당한 성능 향상을 보여준다고 회사 측은 설명했다.

새로운 모델은 유료 Claude 사용자와 Claude Code에서 즉시 이용 가능하며, API, 아마존 베드락(Amazon Bedrock), 구글 클라우드의 Vertex AI를 통해서도 제공된다. 기존 Opus 4와 동일한 가격 정책을 유지한다고 앤트로픽은 밝혔다.

코딩 성능 대폭 개선

Claude Opus 4.1의 가장 주목할 만한 성과는 코딩 분야에서 나타났다. SWE-bench Verified 평가에서 74.5%의 점수를 기록하며 최고 수준의 코딩 성능을 달성했다. 이는 소프트웨어 개발 분야에서 AI의 실용성을 크게 높인 결과로 평가받고 있다.

특히 멀티파일 코드 리팩토링 작업에서 현저한 성능 향상을 보였다고 깃허브(GitHub)가 평가했다. 대규모 코드베이스 내에서 정확한 수정 사항을 찾아내면서도 불필요한 변경이나 버그 유발 없이 정밀하게 작업을 수행한다는 특징을 보인다.

라쿠텐 그룹(Rakuten Group)은 Claude Opus 4.1이 일상적인 디버깅 작업에서 뛰어난 정밀성을 보여준다고 평가했다. 대규모 코드베이스에서 정확한 수정점을 찾아내는 능력이 특히 우수하다는 분석이다.

윈드서프(Windsurf)의 테스트 결과에 따르면, Opus 4.1은 주니어 개발자 벤치마크에서 Opus 4 대비 표준편차 1만큼의 성능 향상을 보였다. 이는 Sonnet 3.7에서 Sonnet 4로의 성능 도약과 유사한 수준이라고 회사 측은 설명했다.

심층 연구 및 분석 능력 강화

코딩 능력뿐만 아니라 Claude Opus 4.1은 심층 연구와 데이터 분석 역량도 크게 개선되었다. 특히 세부 사항 추적과 에이전트 검색 기능에서 향상된 모습을 보인다. 이러한 개선은 복잡한 정보 분석이 필요한 비즈니스 환경에서 AI의 활용도를 높일 것으로 전망된다.

새로운 모델은 다양한 벤치마크 테스트에서도 우수한 성과를 기록했다. TAU-bench, GPQA Diamond, MMMLU, MMMU, AIME 등의 평가에서 기존 모델들을 앞서는 결과를 보여주었다.

하이브리드 추론 모델의 특징

Claude Opus 4.1은 하이브리드 추론 모델로 설계되었다는 점이 특징이다. 확장된 사고(extended thinking) 기능을 활용하여 최대 64,000개의 토큰을 처리할 수 있다. 이를 통해 더 복잡하고 심층적인 문제 해결이 가능해졌다.

앤트로픽은 이번 블로그 포스트에서 보고된 벤치마크 결과들이 확장된 사고 기능 사용 여부에 따라 달리 측정되었다고 명시했다. SWE-bench Verified와 Terminal-Bench는 확장된 사고 없이, 나머지 벤치마크들은 확장된 사고 기능을 활용하여 측정되었다.

간소화된 도구 구성

기존 Claude 3.7 Sonnet에서 사용했던 3가지 도구와 달리, Claude 4 계열 모델들은 더 간소화된 구성을 채택했다. bash 도구와 문자열 교체 방식으로 작동하는 파일 편집 도구 2가지만을 사용한다. 계획 도구(planning tool)는 더 이상 포함하지 않는다.

이러한 간소화에도 불구하고 성능은 오히려 향상되었다는 점이 주목받고 있다. Claude 4 모델들은 전체 500개 문제를 대상으로 점수를 측정받는 반면, OpenAI 모델들은 477개 문제 하위집합으로 평가받는다.

개발자들은 API를 통해 'claude-opus-4-1-20250805' 모델명으로 새 버전을 즉시 활용할 수 있다. 앤트로픽은 시스템 카드, 모델 페이지, 가격 정책, 문서 등을 통해 상세한 정보를 제공하고 있다.

회사는 모든 용도에서 Opus 4에서 Opus 4.1로의 업그레이드를 권장한다고 밝혔다. 특히 코딩이나 복잡한 분석 작업을 수행하는 사용자들에게는 즉각적인 성능 개선을 체감할 수 있을 것으로 예상된다.

앤트로픽은 앞으로 몇 주 내에 모델에 대한 훨씬 더 큰 개선사항들을 출시할 예정이라고 발표했다. 이는 AI 기술 경쟁이 치열해지는 가운데 지속적인 혁신을 통해 시장 우위를 유지하겠다는 의지를 보여준다.

회사는 또한 사용자들의 피드백이 모델 개선에 중요한 역할을 한다며, 더욱 강력한 새 모델들을 지속적으로 출시하는 과정에서 사용자 의견을 적극 수렴하겠다고 밝혔다. 피드백은 이메일(feedback@anthropic.com)을 통해 접수받고 있다.

한국정보기술신문 정보기술분과 유상헌 기자 news@kitpa.org