앤트로픽, 클로드 코드 품질 장애 원인 공개...3월~4월 사이 3건 기술 문제로 코딩 성능 저하
앤트로픽이 클로드 코드 서비스의 품질 저하 원인을 분석한 포스트모템을 공개하며 재발 방지책을 발표했다.
[한국정보기술신문] AI 개발업체 앤트로픽이 지난 3월부터 4월까지 발생한 클로드 코드 품질 저하 문제의 원인을 상세히 분석한 포스트모템을 24일 공개했다. 회사는 총 3건의 별개 기술 문제가 연쇄적으로 발생했다고 밝혔다.

추론 모드 기본값 변경 실패
첫 번째 문제는 3월 4일부터 4월 7일까지 지속된 추론 모드 기본값 변경이었다. 앤트로픽 엔지니어링팀은 높은 사고 모드에서 발생하는 과도한 지연 시간을 해결하기 위해 기본 추론 강도를 '높음'에서 '중간'으로 변경했다.
하지만 이 조치는 역효과를 낳았다. 사용자들은 "높은 지능을 선호하며 단순한 작업에서만 낮은 강도를 선택한다"는 명확한 피드백을 보냈고, 지연 시간과 품질 간의 균형이 잘못되었음이 드러났다.
프롬프트 캐싱 버그 발생

더 심각한 두 번째 문제는 3월 26일부터 4월 10일까지 발생한 프롬프트 캐싱 버그였다. 사고 과정을 정리하는 최적화 과정에서 중대한 결함이 발생했다. 시스템은 유휴 세션마다 한 번씩만 이전 추론 기록을 삭제해야 했지만, 버그로 인해 "세션의 모든 턴에서 지속적으로 삭제"되는 현상이 나타났다.
이로 인해 클로드가 건망증을 보이고 반복적인 답변을 하게 됐으며, 모든 요청에서 캐시 미스가 발생해 사용량 한도를 예상보다 빠르게 소모하는 문제가 발생했다. 이 버그는 오래된 세션에서만 나타나고 관련 없는 실험적 변경사항에 가려져 여러 검토 단계를 통과했다.
응답 길이 제한 정책
세 번째 문제는 4월 16일부터 20일까지 적용된 과도한 응답 길이 제한이었다. 도구 호출 간 텍스트를 25단어 이하로, 최종 응답을 100단어 이하로 제한하는 정책이 도입됐다. 이는 출력 토큰을 줄이는 데는 성공했지만 전체 평가에서 지능 점수가 3% 하락하는 부작용을 낳았다.
포괄적 해결책 마련
앤트로픽은 4월 20일 버전 2.1.116에서 모든 문제를 해결했다고 밝혔다. 회사는 모든 구독자의 사용량 한도를 재설정하고 유사한 버그를 포착할 수 있는 향상된 코드 리뷰 도구를 도입했다. 또한 시스템 프롬프트 변경 시 더 광범위한 평가와 점진적 출시를 요구하는 새로운 프로세스를 수립했다.
사용자들이 일관되지 않은 성능 저하를 경험한 이유는 각 문제가 서로 다른 모델 버전에서 다른 일정으로 발생했기 때문이라고 회사는 설명했다. 앞으로는 이러한 기술적 투명성을 바탕으로 더 안정적인 서비스를 제공할 계획이라고 덧붙였다.
한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org











