한국정보기술진흥원
한국정보기술신문
thumbnail

인공지능 · 클라우드 ·

AWS, 강화 학습 미세조정 기능 추가로 AI 모델 정확도 66% 향상...Amazon Bedrock에서 전문가 없이도 고성능 AI 모델 개발 가능

발행일
읽는 시간1분 50초

아마존웹서비스가 강화 학습 미세조정 기능을 공개하며 AI 모델 맞춤화 기술의 새 지평을 열었다.

[한국정보기술신문] 아마존웹서비스가 아마존 베드락에 강화 학습 미세조정 기능을 추가하며, 개발자들이 전문 머신러닝 지식 없이도 비즈니스 요구사항에 최적화된 AI 모델을 구축할 수 있게 됐다. 이번 기능은 12월 3일 공식 발표됐다.

AWS는 이번 발표를 통해 기존 기반 모델 대비 평균 66%의 정확도 향상을 달성했다고 밝혔다. 강화 학습 미세조정은 방대한 레이블링 데이터셋 대신 피드백 기반 학습 방식을 사용해, 모델이 보상 신호를 통해 반복적으로 개선되도록 한다.

전문가 없이도 가능한 고급 모델 맞춤화

기존 AI 모델 맞춤화는 대규모 레이블링 데이터, 복잡한 인프라, 전문 ML 지식이 필요했다. 그러나 아마존 베드락의 새 기능은 이러한 복잡성을 자동화해 일반 개발자도 접근할 수 있도록 했다.

개발자들은 아마존 베드락의 기존 API 로그를 학습 데이터로 사용하거나, JSONL 파일을 업로드해 모델을 학습시킬 수 있다. 시스템은 OpenAI Chat Completions 데이터 형식을 지원하며, 베드락의 기존 invoke 또는 converse 형식도 자동 변환한다.

두 가지 학습 접근법 지원

AWS는 다양한 사용 사례를 위해 두 가지 보완적 접근법을 제공한다. RLVR은 코드 생성이나 수학 추론과 같은 객관적 작업에 규칙 기반 평가를 사용하며, 개발자는 AWS Lambda를 통해 실행되는 맞춤형 Python 코드로 보상 함수를 정의할 수 있다.

RLAIF는 지시 사항 준수나 콘텐츠 조정 같은 주관적 작업에 AI 기반 판단을 활용한다. 파운데이션 모델이 평가 지침에 따라 응답의 품질을 판단하는 방식이다.

비용 효율성과 보안 강화

강화 학습 미세조정을 통해 조직들은 더 작고 빠르며 효율적인 모델 변형을 학습시켜 가격 대비 성능을 최적화할 수 있다. 출시 시점에는 Amazon Nova 2 Lite 모델을 지원하며, 향후 추가 모델 지원이 예정돼 있다.

AWS는 보안 측면에서도 강점을 부각했다. 모든 학습 데이터와 맞춤 모델은 AWS 환경 내에 유지되며, 공개용 파운데이션 모델 개선에 사용되지 않는다. VPC 설정과 AWS KMS 암호화도 지원해 조직의 규정 준수 요구사항을 충족한다.

간편한 배포와 평가

학습이 완료되면 개발자들은 원클릭으로 모델을 배포할 수 있다. 아마존 베드락 플레이그라운드를 통해 샘플 프롬프트로 미세조정된 모델을 테스트하고, 기반 모델과 응답을 비교해 개선 사항을 확인할 수 있다.

AWS는 실시간 학습 지표 대시보드도 제공한다. 보상 점수, 손실 곡선, 시간 경과에 따른 정확도 개선 등 주요 성능 지표를 통해 모델이 제대로 수렴하고 있는지, 보상 함수가 학습 프로세스를 효과적으로 안내하는지 확인할 수 있다.

AWS는 코드 디버깅, 수학 문제 해결, 콘텐츠 생성 등 일반적 사용 사례를 위한 7가지 보상 함수 템플릿도 제공한다. 개발자들은 이 템플릿을 시작점으로 특정 요구사항에 맞게 커스터마이징할 수 있다.

한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org