인공지능 ·

프라이버시 보호하는 로컬 RAG 시스템 구축 가능해져...Skald, 오픈소스 기술로 상용 AI 성능 90% 달성

발행일2025년 12월 1일

읽는 시간3분 17초

Skald 프로젝트, 자체 호스팅 RAG 솔루션으로 데이터 유출 없이 최신 AI 기술 활용 가능성 입증

[한국정보기술신문] 인공지능 기술이 발전하면서 많은 기업들이 최신 AI 모델을 도입하고 싶어 하지만, 민감한 데이터를 외부 API로 전송해야 한다는 점이 걸림돌이 되어왔다. 이런 상황에서 오픈소스 기술만으로 상용 AI 서비스에 근접한 성능의 로컬 RAG 시스템을 구축할 수 있다는 연구 결과가 나왔다.

Skald Labs는 최근 자사 블로그를 통해 완전히 자체 호스팅 가능한 RAG 시스템 구축 사례를 공개했다. RAG는 검색 증강 생성 기술로, 대규모 언어모델이 외부 데이터베이스에서 관련 정보를 검색해 더욱 정확한 답변을 생성하는 기술이다.

연구팀은 OpenAI나 Anthropic 같은 상용 API 서비스 대신 오픈소스 기술 스택으로 전환하면서도 실용적인 성능을 유지할 수 있음을 실험을 통해 입증했다. 특히 프라이버시가 중요한 조직이나 망분리 환경에서 작동해야 하는 기업들에게 유의미한 대안이 될 수 있다는 평가다.

상용 서비스 대체할 오픈소스 기술 스택 구성

로컬 RAG 시스템을 구축하기 위해서는 벡터 데이터베이스, 임베딩 모델, 대규모 언어모델, 리랭커, 문서 파싱 도구 등 다섯 가지 핵심 구성요소가 필요하다. Skald 팀은 각 구성요소별로 상용 서비스를 오픈소스 대안으로 교체했다.

벡터 데이터베이스로는 이미 사용 중이던 PostgreSQL에 pgvector 확장을 추가하는 방식을 선택했다. 별도의 서비스를 추가하지 않아 관리 부담을 줄이면서도 수십만 건의 문서까지 충분히 처리할 수 있다는 판단에서다. 다만 이 선택은 논란의 여지가 있어 향후 Qdrant나 Weaviate 같은 전문 벡터 데이터베이스와의 성능 비교를 진행할 예정이다.

임베딩 모델로는 Sentence Transformers의 all-MiniLM-L6-v2를 기본값으로 설정했다. 영어 전용 모델이지만 속도와 검색 성능 면에서 균형잡힌 선택이다. 다국어 지원이 필요한 경우 bge-m3 같은 대안도 제공한다.

대규모 언어모델은 사용자가 직접 선택하도록 했으며, 실험에서는 AWS EC2 g5.2xlarge 인스턴스에서 llama.cpp를 통해 GPT-OSS 20B 모델을 구동했다. 리랭커로는 Sentence Transformers의 cross encoder를 기본값으로 사용하되, 다국어 지원을 위한 대안도 함께 제공한다.

문서 파싱에는 Docling을 채택했다. 연구팀은 이 부분에서는 별다른 고민이 필요 없었다며, Docling이 훌륭한 성능을 보여준다고 평가했다.

상용 서비스 대비 90% 이상 성능 달성

Skald 팀은 PostHog 웹사이트의 약 2000개 문서를 데이터셋으로 사용해 세 가지 구성의 성능을 비교했다. 첫 번째는 Voyage AI의 임베딩과 리랭킹 모델에 Anthropic Claude Sonnet 3.7을 사용한 상용 구성이었다. 이 구성은 AI 평가자로부터 평균 9.45점을 받으며 거의 완벽한 성능을 보였다.

두 번째 실험에서는 Voyage AI의 임베딩과 리랭킹은 유지하되, 언어모델만 GPT-OSS 20B로 교체했다. 이 구성은 평균 9.18점을 기록하며 오픈소스 언어모델도 충분히 실용적임을 입증했다. 모든 답변이 정확했으며, 일부 답변에서만 약간의 정보가 누락되거나 덜 중요한 정보가 강조되는 정도였다.

마지막으로 완전히 로컬 환경에서 작동하는 구성을 테스트했다. 기본 Sentence Transformers 모델을 사용한 첫 번째 테스트에서는 평균 7.10점을 받았다. 특정 문서에서 답을 찾는 단순 질문에는 모두 정확히 답했지만, 영어가 아닌 언어나 여러 문서의 정보를 종합해야 하는 복잡한 질문에서는 어려움을 겪었다.

다국어 지원 모델인 bge-m3와 mmarco-mMiniLMv2를 사용한 두 번째 로컬 테스트에서는 평균 8.63점으로 크게 개선된 성능을 보였다. 포르투갈어 질문도 잘 처리했으며, 완전히 실패한 경우는 없었다. 여전히 여러 문서의 정보를 종합하는 작업에서는 일부 정보를 놓치는 경향이 있었지만, 대부분의 사용 사례에서 충분히 실용적인 수준이었다.

8분 만에 배포 가능한 프로덕션 환경

성능 못지않게 중요한 것이 구축과 관리의 용이성이다. Skald 팀은 벡터 데이터베이스, 임베딩 서비스, 리랭킹 서비스, 문서 파싱 도구를 포함한 전체 스택을 단 8분 만에 프로덕션 환경에 배포할 수 있었다고 밝혔다. 별도로 구동해야 하는 것은 언어모델뿐이며, 이 역시 llama.cpp를 통해 간단히 설정할 수 있다.

실험 과정에서 드러난 주요 한계는 여러 문서에 흩어진 정보를 종합하는 능력이었다. 예를 들어 PostHog의 7번의 투자 라운드 중 일부만 찾아내거나, 경쟁사 목록에서 일부를 누락하는 경우가 있었다. 하지만 연구팀은 이를 개선하기 위한 다양한 기법들이 존재하며, 상용 서비스에서는 더 나은 모델이 이런 복잡성을 덜어주지만 로컬 구성에서는 추가적인 기법 적용이 필요할 수 있다고 설명했다.

프라이버시와 성능, 두 마리 토끼 잡는 시대 열려

이번 연구 결과는 프라이버시 보호와 최신 AI 기술 활용이라는 두 가지 목표를 동시에 달성할 수 있는 가능성을 보여준다. 특히 금융, 의료, 국방 등 민감한 데이터를 다루는 분야에서 외부 API 의존 없이 자체 인프라에서 AI 시스템을 운영할 수 있다는 점이 큰 의미를 갖는다.

오픈소스 AI 모델의 지속적인 발전과 새로운 모델의 등장으로 로컬 RAG 시스템의 성능은 더욱 개선될 전망이다. Skald 팀은 앞으로 다양한 오픈소스 모델들에 대한 본격적인 벤치마크를 진행하고, 더 많은 사용 사례를 지원할 수 있도록 시스템을 개선해 나갈 계획이라고 밝혔다.

Skald 프로젝트는 MIT 라이선스로 GitHub에 공개되어 있어 누구나 자유롭게 사용하고 개선할 수 있다. 망분리 환경에서 AI 도구를 운영해야 하는 기업들을 위한 상용 지원도 제공한다.

한국정보기술신문 인공지능분과 이준 기자 news@kitpa.org