울트라리틱스, 차세대 실시간 영상 AI 'YOLO26' 공개...탐지·분할·자세추정 한 모델로...현지시간 6월 2일 논문 사전공개, 후처리 'NMS' 없애고 학습 비용 줄여 COCO서 정확도·속도 동시 향상

발행: 2026년 6월 23일

울트라리틱스가 통합 실시간 영상 AI 'YOLO26'을 공개했다.

[한국정보기술신문] 컴퓨터 비전(영상 인식) 소프트웨어 기업 울트라리틱스(Ultralytics)가 차세대 실시간 영상 인식 인공지능(AI) 모델 패밀리 'YOLO26'을 공개했다. 연구진은 현지시간 6월 2일 논문 공유 사이트 아카이브(arXiv)에 관련 논문을 사전공개하고, 코드와 학습된 모델을 깃허브(GitHub)에 함께 내놨다. 컴퓨터 비전은 카메라로 들어온 사진이나 영상에서 사람·자동차 같은 대상을 찾아내고 그 의미를 해석하도록 하는 기술을 말하며, 사전공개는 학술지의 정식 심사를 거치기 전에 연구 결과를 미리 공개하는 것을 뜻한다.

YOLO는 'You Only Look Once(한 번만 본다)'의 줄임말로, 이미지를 한 번 훑어 그 안의 여러 물체의 위치와 종류를 동시에 알아내는 '객체 탐지' 기술 계열이다. 객체 탐지란 사진 속 대상마다 네모 상자를 그려 위치를 표시하고 그것이 무엇인지 이름표를 붙이는 작업을 가리킨다. 처리 속도가 빠르고 다양한 기기에 올리기 쉬워, 자율주행과 로봇, 보안 영상 분석, 증강현실 등 빠른 판단이 필요한 분야에서 널리 쓰여 왔다. YOLO26은 울트라리틱스가 앞서 내놓은 'YOLO11'을 토대로 만들어졌다.

스크린샷 2026-06-23 오후 1.51.52.png — arXiv 제공

무엇이 달라졌나...'후처리 단계'부터 덜어냈다

이번 모델의 가장 큰 변화는 'NMS'라 불리는 후처리 단계를 없앤 것이다. NMS(비최대 억제)는 AI가 같은 물체에 여러 개의 상자를 겹쳐 그렸을 때, 그중 가장 확실한 하나만 남기고 나머지를 지우는 정리 작업을 말한다. 그동안 대부분의 YOLO 계열 모델은 추론(실제로 영상을 분석하는 단계)을 마친 뒤에 이 작업을 따로 거쳐야 했다. 이 과정은 처리 흐름을 복잡하게 만들고 약간의 시간을 더 잡아먹는 요인이 돼 왔다.

YOLO26은 '듀얼 헤드(dual-head)'라는 두 갈래 구조를 써서 이 문제를 풀었다. 머리(헤드)란 모델 끝에서 실제로 상자와 이름표를 뽑아내는 부분을 가리킨다. 하나의 머리는 물체마다 단 하나의 상자만 내놓도록 설계돼 후처리 없이 곧바로 결과를 낼 수 있고, 다른 하나는 학습 때 더 풍부한 신호를 주기 위해 여러 후보 상자를 만들어 내는 기존 방식을 유지한다. 사용자는 상황에 따라 후처리 없는 빠른 방식과 정확도를 조금 더 높이는 방식 가운데 골라 쓸 수 있다. 후처리 단계를 거치지 않고 입력부터 결과까지 한 번에 처리하는 방식을 '종단간(end-to-end)' 추론이라고 부른다.

군더더기 'DFL' 떼어내 가벼워진 머리

연구진은 또 'DFL(분포 초점 손실)'이라는 구성 요소를 통째로 들어냈다. DFL은 상자의 경계 위치를 더 정밀하게 맞추기 위해 도입된 방식이지만, 그 대신 계산해야 할 값이 크게 늘어나 모델의 머리 부분이 무거워지는 단점이 있었다. 특히 작고 가벼운 모델일수록 이 머리가 차지하는 비중이 커서 부담이 됐다.

논문에 따르면, 앞선 모델 'YOLO11n'은 DFL을 쓸 때 매개변수가 약 260만 개였으나 이를 빼면 약 230만 개로 줄었다. 매개변수는 AI가 학습으로 익히는 값으로, 그 수가 많을수록 연산과 저장 부담이 커진다. 연구진은 DFL을 제거하는 것만으로 매개변수를 약 12%, 연산량을 약 20% 줄일 수 있었다고 설명했다. 또 DFL은 한 번에 표현할 수 있는 상자의 최대 크기에 제한이 있었는데, 이를 없앤 덕분에 큰 물체도 제약 없이 다룰 수 있게 됐다고 덧붙였다. 대신 떨어질 수 있는 정밀도는 아래에 설명하는 새로운 학습 기법으로 보완했다.

학습 방식도 손질...'대형 언어모델 기술'까지 끌어와

YOLO26은 모델을 학습시키는 방법에도 세 가지 새 기법을 적용했다. 첫째는 'MuSGD'라는 최적화 기법이다. 최적화 기법은 AI가 정답에 가까워지도록 값을 조금씩 고쳐 나가는 방법을 말한다. 연구진은 최근 챗GPT 같은 대형 언어모델(LLM)을 학습시킬 때 효율이 좋다고 알려진 '무온(Muon)' 방식을 기존 방식과 결합해, 객체 탐지 분야에 처음 적용했다. 기존에는 충분한 정확도에 이르려면 같은 데이터를 약 600번 되풀이해 학습시켜야 했는데, 새 방식으로 학습 비용을 줄이는 것을 목표로 삼았다.

둘째는 'Progressive Loss(점진적 손실)'다. 학습이 진행될수록 실제 추론에 쓰이는 머리 쪽에 점점 더 무게를 실어 집중적으로 가르치는 방식이다. 셋째는 'STAL'이라는 라벨 할당 전략이다. 기존 방식에서는 사진을 잘게 줄여 처리하는 과정에서 아주 작은 물체가 학습 신호를 전혀 받지 못하고 빠지는 일이 있었다. STAL은 이런 작은 물체에도 반드시 학습 기회가 돌아가도록 보장해, 작은 대상에 대한 탐지 능력을 끌어올리는 것이 목적이다.

한 모델로 다섯 가지 일...'말로 찾는' 확장판도

YOLO26은 가장 작은 'n'부터 가장 큰 'x'까지 다섯 가지 크기로 제공된다. 작은 모델은 스마트폰이나 소형 기기처럼 성능이 제한된 환경에, 큰 모델은 정확도가 더 중요한 환경에 맞춰 골라 쓸 수 있다. 또 하나의 통합된 구조 안에서 객체 탐지뿐 아니라 물체의 윤곽까지 따내는 '인스턴스 분할', 사람의 관절 위치를 잡는 '자세 추정', 사진 전체의 종류를 가리는 '분류', 기울어진 물체를 비스듬한 상자로 잡는 '회전 탐지'까지 다섯 가지 작업을 모두 처리한다.

여기에 'YOLOE-26'이라는 확장판도 함께 선보였다. 미리 정해 둔 종류만 찾는 기존 방식과 달리, 글로 된 설명이나 예시 이미지를 주면 그에 맞는 물체를 찾아내고, 아무런 지시 없이도 대상을 알아내는 '오픈 보캐뷸러리(개방형 어휘)' 방식을 지원한다. 예컨대 "빨간 우산"이라고 입력하면 학습 때 따로 배우지 않은 대상도 찾아낼 수 있다는 것이다.

성능은...정확도·속도 균형 끌어올려

연구진이 공개한 수치를 보면, YOLO26 계열은 표준 시험 자료인 'COCO'에서 정확도 지표(mAP) 40.9~~57.5를 기록했다. 이때 한 장을 처리하는 데 걸린 시간은 엔비디아 'T4' 그래픽카드 기준 1.7~~11.8밀리초(1밀리초는 1000분의 1초)였다. mAP는 객체 탐지의 정확도를 나타내는 대표 지표로, 값이 클수록 더 정확하다는 뜻이다. 같은 크기끼리 비교했을 때 앞선 YOLO11보다 정확도가 1.6~2.8점 높아져, 정확도와 속도의 균형이 개선됐다고 연구진은 밝혔다.

다른 작업에서도 YOLO11 대비 인스턴스 분할 정확도가 최대 3.7점, 자세 추정이 7.2점, 회전 탐지가 3.4점 올랐다. 개방형 확장판 'YOLOE-26x'는 또 다른 시험 자료(LVIS)에서 글로 지시해 찾는 방식의 정확도 40.6을 기록했다. 코드와 학습된 모델은 깃허브를 통해 누구나 받아 쓸 수 있도록 공개됐다.

다만 이번 결과는 모델을 만든 울트라리틱스 연구진이 직접 측정해 사전공개 논문에 담은 수치로, 아직 학술지의 정식 심사나 제3자의 독립적인 검증을 거치지는 않았다. 실제 다양한 현장에서의 성능과 안정성은 외부 사용자들의 검증과 적용 사례가 쌓이면서 가려질 전망이다.

한국정보기술신문 인공지능분과 정유리 기자 news@kitpa.org

울트라리틱스, 차세대 실시간 영상 AI 'YOLO26' 공개...탐지·분할·자세추정 한 모델로...현지시간 6월 2일 논문 사전공개, 후처리 'NMS' 없애고 학습 비용 줄여 COCO서 정확도·속도 동시 향상

무엇이 달라졌나...'후처리 단계'부터 덜어냈다

군더더기 'DFL' 떼어내 가벼워진 머리

학습 방식도 손질...'대형 언어모델 기술'까지 끌어와

한 모델로 다섯 가지 일...'말로 찾는' 확장판도

성능은...정확도·속도 균형 끌어올려

함께 읽으면 좋은 기사

구글, 제미나이 통합 인터페이스 '인터랙션 API' 정식 출시...모델·에이전트 한 창구로 다룬다...자율 작업 수행 '관리형 에이전트'·백그라운드 실행 추가, 지난해 12월 베타 거쳐 기본 개발 도구로

교육부·평가원, 2025년 국가수준 학업성취도 평가 결과 6월 24일 발표...전반적 성취수준·학교생활은 지난해와 비슷, '중3 수학' 1수준 학생 비율은 전년보다 늘어

삼성전자, 업계 최고 성능 'UFS 5.0' 메모리 개발...온디바이스 AI 최적의 솔루션 제시...10.8GB/s 데이터 전송 대역폭으로 차세대 스마트폰 등 모바일 기기에 탑재 예정, AI 모델·데이터 빠르게 RAM에 전달

문체부, '케이-게임' IP 키운다...1,200억 원 게임 펀드 결성...넥슨 588억 원 참여, 문화계정 역대 최대 규모로 초기 개발부터 국제 지식재산 성장까지 뒷받침

엔비디아, 과학 연구 가속 AI 소프트웨어 공개...우주 관측 데이터 처리 최대 1만4900배 빨라져...현지시간 6월 22일 ISC 콘퍼런스서 '쿠다-X' 신규 라이브러리·서비스 발표, 화학·신소재부터 암흑물질 탐색까지 적용

울트라리틱스, 차세대 실시간 영상 AI 'YOLO26' 공개...탐지·분할·자세추정 한 모델로...현지시간 6월 2일 논문 사전공개, 후처리 'NMS' 없애고 학습 비용 줄여 COCO서 정확도·속도 동시 향상

SK하이닉스, 'AI 메모리의 미래' 5가지 제시...HBM 넘어 D램·낸드까지 '풀 스택' 강조...연산보다 데이터 이동·저장 효율이 AI 경쟁력 좌우, 학습서 추론으로 넓어지는 수요에 종합 대응 선언

파도로 전기 만든다...에코 웨이브 파워, NVIDIA AI 인프라·디지털 트윈 활용...기존 항만 구조물에 부유체 달아 발전, 로스앤젤레스선 'AI가 전력 맞춰 일감 배분'하는 데이터센터 시범

복지부, AI·로봇 고령친화제품 진입 문 넓힌다...우수제품 지정 '품목→기능' 개편...현행 36개 품목 열거 방식 버리고 자세·이동·안전 등 7대 기능 분야로 전환, 6월 23일부터 7월 13일까지 행정예고

캐나다, 첫 '국가 원자력 전략' 공개...15년간 원전 최대 10기 짓는다...현지시간 6월 22일 발표, 2050년까지 전력망 2배 목표로 '민간 원자력 르네상스' 선언, 캔두 원전 수출 확대·우라늄 두 배 증산까지

0.2B 경량 이미지 보정 AI '뫼비우스' 나왔다...덩치 2%로 100억 모델 따라잡았다...화중과기대·비보 AI랩 연구진, 매개변수 2% 미만에 15배 빠른 속도로 자연·인물 6개 시험서 대등하거나 앞서

구글 딥마인드, 영화사 A24와 손잡고 'AI 영화 도구' 함께 만든다...구글, A24에 약 7500만 달러 투자...현지시간 6월 22일 발표, 다년간 비독점 연구 협력으로 제작 현장에 연구자 투입