한국정보기술진흥원한국인공지능올림피아드 (KOAI) 2026 개최안내

LM Studio 0.4.0 공개...서버 배포와 병렬 처리 지원

thumbnail.webp
LM Studio가 차세대 버전 0.4.0을 공개하며 서버 배포 및 병렬 요청 처리 기능을 선보였다.
[한국정보기술신문] LM Studio가 2026년 1월 28일 차세대 버전인 0.4.0을 공개했다. 이번 업데이트는 GUI 없이 서버에 배포할 수 있는 데몬 모드, 병렬 요청 처리, 새로운 상태유지형 REST API 등 주요 기능을 대폭 강화한 것이 특징이다.
가장 주목할 만한 변화는 llmster 도입이다. llmster는 LM Studio 데스크톱 앱의 핵심 기능을 GUI와 분리해 독립 실행 가능한 데몬으로 재구성한 것이다. 이를 통해 리눅스 서버, 클라우드 인스턴스, GPU 장비, 심지어 구글 콜랩 환경에서도 LM Studio를 실행할 수 있게 됐다. 리눅스와 맥에서는 curl 명령어로, 윈도우에서는 파워셸 명령어로 간단히 설치할 수 있다.

병렬 요청 처리로 처리량 대폭 향상

LM Studio 0.4.0과 함께 llama.cpp 엔진도 2.0.0 버전으로 업그레이드됐다. 이번 업데이트에서는 동일한 모델에 대한 동시 추론 요청을 지원한다. 기존에는 요청이 순차적으로 대기열에 들어갔지만, 이제는 여러 요청을 동시에 처리할 수 있다. 이는 llama.cpp의 오픈소스 연속 배칭 구현을 통해 가능해졌다.
모델 로더에는 최대 동시 예측 수와 통합 KV 캐시라는 두 가지 새로운 옵션이 추가됐다. 최대 동시 예측 수는 모델이 처리할 수 있는 최대 동시 요청 수를 설정하며, 이를 초과하는 요청은 대기열에 들어간다. 통합 KV 캐시는 기본적으로 활성화되어 있으며, 사전 할당된 리소스를 요청별로 고정 분할하지 않아 요청 크기에 따라 유연하게 대응할 수 있다.

새로운 상태유지형 REST API

LM Studio 0.4.0은 새로운 REST API 엔드포인트인 /v1/chat을 도입했다. 일반적인 무상태 채팅 API와 달리 /v1/chat은 상태유지형으로 작동한다. 대화를 시작하면 response_id를 받게 되고, 다음 요청에서 previous_response_id를 전달해 대화를 이어갈 수 있다. 이를 통해 요청 크기를 작게 유지하면서 다단계 워크플로우를 쉽게 구축할 수 있다.
응답에는 입출력 토큰 수, 속도, 첫 토큰까지의 시간 등 상세한 통계가 포함되어 성능 추적과 설정 조정이 가능하다. 또한 로컬에서 구성된 MCP를 활성화할 수 있으며, 권한 키를 통해 제어된다.

UI 전면 개편과 새로운 CLI 경험

사용자 인터페이스도 전면적으로 재설계됐다. 채팅을 PDF, 마크다운, 일반 텍스트로 내보낼 수 있으며, 분할 보기를 통해 여러 채팅 세션을 나란히 열 수 있다. 개발자 모드는 앱 전체에서 고급 옵션을 표시하며, 앱 내 문서도 새롭게 추가됐다.
CLI 환경도 lms chat 명령어를 중심으로 개선됐다. 터미널에서 직접 대화형 채팅 세션을 열 수 있으며, 모델 다운로드도 가능하다. 명령어 옵션은 lms chat --help로 확인할 수 있다.
LM Studio는 공식 블로그를 통해 사용자들의 피드백을 기다리고 있으며, 특히 0.4.0 베타 그룹의 기여에 감사를 표했다.
한국정보기술신문 인공지능분과 이준 기자 news@kitpa.org

함께 읽으면 좋은 기사

구글 "AI로 자연재해 미리 알린다"...홍수·산불·지진 예측 한자리에...현지시간 6월 23일 'AI for the Planet' 행사서 10년간 위기 대응 성과 공개, 150여 개국 20억 명에 홍수 예보

구글 "AI로 자연재해 미리 알린다"...홍수·산불·지진 예측 한자리에...현지시간 6월 23일 'AI for the Planet' 행사서 10년간 위기 대응 성과 공개, 150여 개국 20억 명에 홍수 예보

인공지능 · 정보기술 4
엔비디아, 특화 AI '에이전트 툴킷' 공개...모델·도구·런타임 한데 묶었다...기업이 직접 다듬어 쓰는 오픈·모듈형 기반으로 안전·저비용 'AI 동료' 구축 겨냥, 생명과학·의료·보안 등 산업별 적용 확산

엔비디아, 특화 AI '에이전트 툴킷' 공개...모델·도구·런타임 한데 묶었다...기업이 직접 다듬어 쓰는 오픈·모듈형 기반으로 안전·저비용 'AI 동료' 구축 겨냥, 생명과학·의료·보안 등 산업별 적용 확산

인공지능 4
한국산업인력공단, OECD서 'AI 기반 직무능력표준 혁신' 사례 공유...GPT 활용한 'NCS 체크메이트'로 표준 형식 자동 점검...23일 OECD 국제 웨비나 패널 참여, 직업교육훈련에 AI 활용한 10개국 사례로 소개

한국산업인력공단, OECD서 'AI 기반 직무능력표준 혁신' 사례 공유...GPT 활용한 'NCS 체크메이트'로 표준 형식 자동 점검...23일 OECD 국제 웨비나 패널 참여, 직업교육훈련에 AI 활용한 10개국 사례로 소개

인공지능 · 유관기관 2
보안 연구자 발소르다 "취약점 신고는 더 이상 특별하지 않다"...AI가 흔든 보안 제보의 위상...LLM이 누구나 비슷한 취약점을 찾아내며 '귀한 통찰·기밀 유지'라는 전제가 무너져, 분류·신속 패치·예방이 새 과제로

보안 연구자 발소르다 "취약점 신고는 더 이상 특별하지 않다"...AI가 흔든 보안 제보의 위상...LLM이 누구나 비슷한 취약점을 찾아내며 '귀한 통찰·기밀 유지'라는 전제가 무너져, 분류·신속 패치·예방이 새 과제로

정보보안 3
마이크로소프트, 타입스크립트 7.0 RC 공개...컴파일러 'Go'로 다시 짜 속도 10배 끌어올렸다

마이크로소프트, 타입스크립트 7.0 RC 공개...컴파일러 'Go'로 다시 짜 속도 10배 끌어올렸다

정보기술 4
구글, 제미나이 통합 인터페이스 '인터랙션 API' 정식 출시...모델·에이전트 한 창구로 다룬다...자율 작업 수행 '관리형 에이전트'·백그라운드 실행 추가, 지난해 12월 베타 거쳐 기본 개발 도구로

구글, 제미나이 통합 인터페이스 '인터랙션 API' 정식 출시...모델·에이전트 한 창구로 다룬다...자율 작업 수행 '관리형 에이전트'·백그라운드 실행 추가, 지난해 12월 베타 거쳐 기본 개발 도구로

인공지능 · 정보기술 4
교육부·평가원, 2025년 국가수준 학업성취도 평가 결과 6월 24일 발표...전반적 성취수준·학교생활은 지난해와 비슷, '중3 수학' 1수준 학생 비율은 전년보다 늘어

교육부·평가원, 2025년 국가수준 학업성취도 평가 결과 6월 24일 발표...전반적 성취수준·학교생활은 지난해와 비슷, '중3 수학' 1수준 학생 비율은 전년보다 늘어

교육 4
삼성전자, 업계 최고 성능 'UFS 5.0' 메모리 개발...온디바이스 AI 최적의 솔루션 제시...10.8GB/s 데이터 전송 대역폭으로 차세대 스마트폰 등 모바일 기기에 탑재 예정, AI 모델·데이터 빠르게 RAM에 전달

삼성전자, 업계 최고 성능 'UFS 5.0' 메모리 개발...온디바이스 AI 최적의 솔루션 제시...10.8GB/s 데이터 전송 대역폭으로 차세대 스마트폰 등 모바일 기기에 탑재 예정, AI 모델·데이터 빠르게 RAM에 전달

반도체 · 인공지능 4
문체부, '케이-게임' IP 키운다...1,200억 원 게임 펀드 결성...넥슨 588억 원 참여, 문화계정 역대 최대 규모로 초기 개발부터 국제 지식재산 성장까지 뒷받침

문체부, '케이-게임' IP 키운다...1,200억 원 게임 펀드 결성...넥슨 588억 원 참여, 문화계정 역대 최대 규모로 초기 개발부터 국제 지식재산 성장까지 뒷받침

유관기관 · 실감형콘텐츠 4
엔비디아, 과학 연구 가속 AI 소프트웨어 공개...우주 관측 데이터 처리 최대 1만4900배 빨라져...현지시간 6월 22일 ISC 콘퍼런스서 '쿠다-X' 신규 라이브러리·서비스 발표, 화학·신소재부터 암흑물질 탐색까지 적용

엔비디아, 과학 연구 가속 AI 소프트웨어 공개...우주 관측 데이터 처리 최대 1만4900배 빨라져...현지시간 6월 22일 ISC 콘퍼런스서 '쿠다-X' 신규 라이브러리·서비스 발표, 화학·신소재부터 암흑물질 탐색까지 적용

인공지능 4
울트라리틱스, 차세대 실시간 영상 AI 'YOLO26' 공개...탐지·분할·자세추정 한 모델로...현지시간 6월 2일 논문 사전공개, 후처리 'NMS' 없애고 학습 비용 줄여 COCO서 정확도·속도 동시 향상

울트라리틱스, 차세대 실시간 영상 AI 'YOLO26' 공개...탐지·분할·자세추정 한 모델로...현지시간 6월 2일 논문 사전공개, 후처리 'NMS' 없애고 학습 비용 줄여 COCO서 정확도·속도 동시 향상

인공지능 4
SK하이닉스, 'AI 메모리의 미래' 5가지 제시...HBM 넘어 D램·낸드까지 '풀 스택' 강조...연산보다 데이터 이동·저장 효율이 AI 경쟁력 좌우, 학습서 추론으로 넓어지는 수요에 종합 대응 선언

SK하이닉스, 'AI 메모리의 미래' 5가지 제시...HBM 넘어 D램·낸드까지 '풀 스택' 강조...연산보다 데이터 이동·저장 효율이 AI 경쟁력 좌우, 학습서 추론으로 넓어지는 수요에 종합 대응 선언

인공지능 · 반도체 4