인공지능 ·
애플, LLM으로 오디오·모션 데이터 분석해 사용자 활동 파악...12가지 일상 활동 높은 정확도로 분류
애플 연구진이 대규모 언어모델을 활용해 센서 데이터를 융합 분석하는 새로운 활동 인식 기술을 공개했다.
[한국정보기술신문] 애플 연구진이 대규모 언어모델(LLM)을 활용해 오디오와 모션 데이터를 분석하여 사용자의 활동을 정확하게 파악할 수 있다는 연구 결과를 발표했다. 이번 연구는 기존 센서 데이터만으로는 한계가 있던 활동 분석의 정확도를 크게 향상시킬 수 있는 가능성을 제시했다.
애플 연구팀은 'Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition'이라는 제목의 논문을 통해 LLM이 오디오와 모션 시계열 데이터를 후기 융합 방식으로 분석하여 활동을 분류하는 방법을 제안했다. 이 기술은 특정 작업을 위한 별도의 훈련 없이도 zero-shot 및 one-shot 분류에서 우수한 성능을 보였다.
1인칭 관점 데이터셋으로 실험 진행
연구진은 1인칭 관점에서 촬영된 방대한 미디어 데이터셋인 Ego4D를 활용했다. 이 데이터셋에는 가정 내 작업부터 야외 활동까지 수천 시간에 달하는 실제 환경과 상황이 포함되어 있다. 연구팀은 이 중 일상생활 활동을 선별하여 20초 길이의 샘플을 구성했다.
분석 대상 활동은 청소기 사용, 요리, 빨래, 식사, 농구, 축구, 반려동물과 놀기, 독서, 컴퓨터 사용, 설거지, TV 시청, 운동 및 웨이트트레이닝 등 12가지 고수준 활동이다. 이들 활동은 가정 및 피트니스 작업 전반을 포괄하도록 선정되었다.
텍스트 설명 기반 분석 방식 채택
주목할 점은 LLM이 실제 오디오 녹음을 직접 받지 않고, 오디오 모델과 IMU 기반 모션 모델이 생성한 짧은 텍스트 설명을 입력받는다는 것이다. IMU는 가속도계와 자이로스코프 데이터를 통해 움직임을 추적하는 센서다.
연구진은 오디오와 모션 데이터를 소규모 모델로 처리하여 텍스트 캡션과 클래스 예측을 생성한 후, 이를 Gemini-2.5-pro와 Qwen-32B 같은 LLM에 입력했다. 그리고 LLM이 해당 활동을 얼마나 정확하게 식별하는지 평가했다.
폐쇄형과 개방형 테스트에서 모두 우수한 성능
애플은 두 가지 상황에서 모델의 성능을 비교했다. 하나는 12가지 가능한 활동 목록을 제공하는 폐쇄형 테스트이고, 다른 하나는 선택지를 전혀 제공하지 않는 개방형 테스트다.
각 테스트에서 모델은 오디오 캡션, 오디오 레이블, IMU 활동 예측 데이터, 추가 문맥 등 다양한 조합의 정보를 받았다. 실험 결과 LLM은 12개 클래스에 대한 zero-shot 및 one-shot 분류에서 우연보다 훨씬 높은 F1 점수를 기록했다.
연구진은 여러 모델을 결합하는 방식이 활동 및 건강 데이터 분석에 큰 도움이 될 수 있으며, 특히 원시 센서 데이터만으로는 사용자 활동을 명확하게 파악하기 어려운 경우에 유용하다고 설명했다.
재현 가능성을 위한 자료 공개
애플은 논문과 함께 Ego4D 세그먼트 ID, 타임스탬프, 프롬프트, 실험에 사용된 one-shot 예제 등 보충 자료를 공개했다. 이는 다른 연구자들이 연구 결과를 재현하는 데 도움을 주기 위한 조치다.
연구진은 LLM 기반 융합 방식이 공유 임베딩 공간을 학습하기 위한 정렬된 훈련 데이터가 제한적인 멀티모달 시간 응용 프로그램을 가능하게 한다고 강조했다. 또한 애플리케이션별 멀티모달 모델을 위한 추가 메모리와 연산 없이도 모델을 배포할 수 있다는 장점을 제시했다.
이번 연구는 애플이 향후 LLM 분석을 기존 센서 데이터와 결합하여 사용자 활동에 대한 더욱 정밀한 이해를 제공하는 방향으로 나아갈 가능성을 시사한다.
한국정보기술신문 인공지능분과 김성현 기자 news@kitpa.org