인공지능 ·
LM Studio 0.4.0 공개...서버 배포와 병렬 처리 지원
LM Studio가 차세대 버전 0.4.0을 공개하며 서버 배포 및 병렬 요청 처리 기능을 선보였다.
[한국정보기술신문] LM Studio가 2026년 1월 28일 차세대 버전인 0.4.0을 공개했다. 이번 업데이트는 GUI 없이 서버에 배포할 수 있는 데몬 모드, 병렬 요청 처리, 새로운 상태유지형 REST API 등 주요 기능을 대폭 강화한 것이 특징이다.
가장 주목할 만한 변화는 llmster 도입이다. llmster는 LM Studio 데스크톱 앱의 핵심 기능을 GUI와 분리해 독립 실행 가능한 데몬으로 재구성한 것이다. 이를 통해 리눅스 서버, 클라우드 인스턴스, GPU 장비, 심지어 구글 콜랩 환경에서도 LM Studio를 실행할 수 있게 됐다. 리눅스와 맥에서는 curl 명령어로, 윈도우에서는 파워셸 명령어로 간단히 설치할 수 있다.
병렬 요청 처리로 처리량 대폭 향상
LM Studio 0.4.0과 함께 llama.cpp 엔진도 2.0.0 버전으로 업그레이드됐다. 이번 업데이트에서는 동일한 모델에 대한 동시 추론 요청을 지원한다. 기존에는 요청이 순차적으로 대기열에 들어갔지만, 이제는 여러 요청을 동시에 처리할 수 있다. 이는 llama.cpp의 오픈소스 연속 배칭 구현을 통해 가능해졌다.
모델 로더에는 최대 동시 예측 수와 통합 KV 캐시라는 두 가지 새로운 옵션이 추가됐다. 최대 동시 예측 수는 모델이 처리할 수 있는 최대 동시 요청 수를 설정하며, 이를 초과하는 요청은 대기열에 들어간다. 통합 KV 캐시는 기본적으로 활성화되어 있으며, 사전 할당된 리소스를 요청별로 고정 분할하지 않아 요청 크기에 따라 유연하게 대응할 수 있다.
새로운 상태유지형 REST API
LM Studio 0.4.0은 새로운 REST API 엔드포인트인 /v1/chat을 도입했다. 일반적인 무상태 채팅 API와 달리 /v1/chat은 상태유지형으로 작동한다. 대화를 시작하면 response_id를 받게 되고, 다음 요청에서 previous_response_id를 전달해 대화를 이어갈 수 있다. 이를 통해 요청 크기를 작게 유지하면서 다단계 워크플로우를 쉽게 구축할 수 있다.
응답에는 입출력 토큰 수, 속도, 첫 토큰까지의 시간 등 상세한 통계가 포함되어 성능 추적과 설정 조정이 가능하다. 또한 로컬에서 구성된 MCP를 활성화할 수 있으며, 권한 키를 통해 제어된다.
UI 전면 개편과 새로운 CLI 경험
사용자 인터페이스도 전면적으로 재설계됐다. 채팅을 PDF, 마크다운, 일반 텍스트로 내보낼 수 있으며, 분할 보기를 통해 여러 채팅 세션을 나란히 열 수 있다. 개발자 모드는 앱 전체에서 고급 옵션을 표시하며, 앱 내 문서도 새롭게 추가됐다.
CLI 환경도 lms chat 명령어를 중심으로 개선됐다. 터미널에서 직접 대화형 채팅 세션을 열 수 있으며, 모델 다운로드도 가능하다. 명령어 옵션은 lms chat --help로 확인할 수 있다.
LM Studio는 공식 블로그를 통해 사용자들의 피드백을 기다리고 있으며, 특히 0.4.0 베타 그룹의 기여에 감사를 표했다.
한국정보기술신문 인공지능분과 이준 기자 news@kitpa.org