서울대, 글자·사진·소리·영상 동시 처리하는 통합 AI 모델 'Dynin-Omni' 개발...기존 모델 대비 4~5배 빠른 생성 속도로 Physical AI 시대 선도

2026년 4월 7일

2분

서울공대 도재영 교수팀, 멀티모달 정보를 단일 모델로 통합 처리하는 차세대 AI 구현

[한국정보기술신문] 서울대학교 공과대학 전기정보공학부 도재영 교수 연구팀이 텍스트, 이미지, 영상, 음성을 동시에 이해하고 생성할 수 있는 차세대 통합 AI 파운데이션 모델 'Dynin-Omni'를 개발했다고 7일 발표했다. 이 모델은 기존 AI와 달리 여러 형태의 정보를 단일 모델로 끊김 없이 처리할 수 있어 물리적 세계에서 작동하는 Physical AI 시대를 앞당길 것으로 평가된다.

하나의 지능이 모든 감각 통합 처리

Dynin-Omni의 가장 큰 특징은 기존 AI처럼 여러 모델을 복잡하게 연결하지 않고, 하나의 지능이 사람처럼 보고 듣고 말하는 모든 과정을 끊김 없이 수행한다는 점이다. 텍스트, 이미지, 영상, 음성을 동일한 기준으로 동시에 처리하며, 변환 과정 없이 서로 다른 형식의 정보를 직접 연결한다.

도재영 교수는 "AI가 정보를 이해하는 능력과 결과물을 만들어내는 능력을 하나로 합쳐 통합 AI의 가능성을 열었다"고 설명했다.

디퓨전 기술로 생성 속도 혁신

Dynin-Omni는 ChatGPT와 같은 기존 대화형 AI가 단어를 순차적으로 생성하는 방식과 달리, 결과물 전체를 한 번에 생성한 뒤 반복적인 연산을 통해 완성도를 높이는 디퓨전 기술을 적용했다. 이를 통해 기존 모델 대비 최대 4~5배 빠른 생성 속도를 구현했다.

글로벌 성능 평가에서 우수성 입증

연구팀이 실시한 19개 글로벌 AI 성능 평가에서 Dynin-Omni는 기존 통합 모델을 능가하는 성과를 보였다. 정보 추론, 영상 이해, 이미지 생성 및 편집, 음성 처리 등 다양한 작업에서 우수성을 입증했다.

특히 이해 기능과 생성 기능을 단일 모델에 통합한 완전 통합 구조로 복잡한 다중 AI 연결 방식의 한계를 극복했다.

Dynin-Omni는 여러 형태의 정보를 동시에 이해하고 즉각 반응해야 하는 다양한 분야에서 활용될 전망이다. 로봇, AI 비서, 스마트 기기는 물론 의료, 제조, 주거 공간 등에서 혁신적인 사용자 경험을 제공할 것으로 기대된다.

도 교수는 "물리적 세계에서 작동하는 AI는 다양한 감각 정보를 통합적으로 처리해야 한다"며 "Dynin-Omni가 Physical AI 시대를 앞당기는 핵심 기술이 될 것"이라고 전망했다.

이번 연구는 한국연구재단, 과학기술정보통신부, 정보통신산업진흥원의 지원을 받아 수행됐다. 서울대 AIDAS 연구실 도재영 교수와 11명의 연구원이 참여해 독자적인 AI 기술력을 확보했다는 평가를 받고 있다.

연구팀은 "글로벌 AI 기업들이 멀티모달 AI 개발에 집중하고 있는 가운데, 국내 기술로 경쟁력 있는 통합 AI 모델을 개발해 기술 주권 확보에 기여했다"고 의미를 부여했다.

한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org

서울대, 글자·사진·소리·영상 동시 처리하는 통합 AI 모델 'Dynin-Omni' 개발...기존 모델 대비 4~5배 빠른 생성 속도로 Physical AI 시대 선도

하나의 지능이 모든 감각 통합 처리

디퓨전 기술로 생성 속도 혁신

글로벌 성능 평가에서 우수성 입증

함께 읽으면 좋은 기사

엔비디아가 공개한 Nemotron 3 Nano Omni 모델...비전, 오디오, 언어를 하나로 통합한 멀티모달 AI 모델

엔씨, 로블록스 코리아와 마케팅 MOU 체결...NCFZ PC방 협력

구글 번역 20주년...AI 기반 발음 연습 기능 추가...글로벌 소통 강화

Ghostty, 깃허브 떠난다...서비스 불안정성을 이유로 자체 서비스로 이전 예정