인공지능 · 방송통신 ·
xAI, X 플랫폼 'For You' 피드 알고리즘 전면 공개...Grok 기반 추천시스템 오픈소스화
일론 머스크의 xAI가 X 플랫폼의 핵심 추천 알고리즘을 깃허브를 통해 전격 공개했다.
[한국정보기술신문] xAI가 소셜미디어 플랫폼 X(구 트위터)의 'For You' 피드를 구동하는 핵심 추천 알고리즘을 오픈소스로 공개했다. 이번 공개는 일론 머스크가 지속적으로 강조해온 알고리즘 투명성 약속의 실천으로, 주요 소셜미디어 플랫폼이 자사의 핵심 추천 시스템을 완전히 공개한 첫 사례로 평가받고 있다.
24일 공개된 깃허브 저장소에 따르면, 이번에 공개된 알고리즘은 xAI가 자체 개발한 대규모 언어모델 Grok을 기반으로 한 트랜스포머 모델을 핵심으로 사용한다. 해당 시스템은 사용자가 팔로우하는 계정의 게시물(인네트워크)과 머신러닝 기반으로 발견된 전체 게시물(아웃네트워크)을 결합해 개인화된 피드를 생성한다.
수작업 배제한 완전 AI 기반 시스템
이번에 공개된 알고리즘의 가장 주목할 만한 특징은 모든 수작업 기능과 대부분의 휴리스틱을 제거했다는 점이다. xAI 측은 "Grok 기반 트랜스포머가 사용자의 참여 이력(좋아요, 답글, 공유 등)을 이해하고 이를 바탕으로 관련성 있는 콘텐츠를 결정하는 모든 작업을 수행한다"고 밝혔다.
시스템은 좋아요, 답글, 리포스트, 클릭, 프로필 클릭, 비디오 시청, 사진 확대, 공유, 체류 시간, 팔로우, 관심 없음, 차단, 음소거, 신고 등 총 15가지 참여 유형에 대한 확률을 예측한다. 이러한 예측값들은 가중치가 적용돼 최종 점수로 결합되며, 긍정적 행동은 양의 가중치를, 부정적 행동은 음의 가중치를 부여받는다.
4단계 파이프라인 구조로 운영
공개된 알고리즘은 홈믹서, 썬더, 피닉스, 후보파이프라인 등 4개의 주요 구성요소로 이뤄져 있다. 홈믹서는 전체 피드를 조율하는 오케스트레이션 레이어로, 쿼리 수집, 소스 검색, 데이터 보강, 필터링, 점수화, 선택, 사후 필터링, 부수효과 등 8단계 파이프라인을 관리한다.
썬더는 모든 사용자의 최근 게시물을 추적하는 인메모리 저장소로, 카프카로부터 게시물 생성 및 삭제 이벤트를 실시간으로 수집한다. 사용자별로 원본 게시물, 답글 및 리포스트, 비디오 게시물을 별도로 관리하며, 외부 데이터베이스를 거치지 않고 밀리초 미만의 속도로 인네트워크 콘텐츠를 제공한다.
피닉스는 머신러닝 구성요소로 검색과 랭킹 두 가지 기능을 담당한다. 검색 기능은 투타워 모델을 사용해 사용자 특성과 참여 이력을 임베딩으로 인코딩하고, 모든 게시물을 별도의 임베딩으로 인코딩한 뒤 내적 유사도를 통해 상위 K개의 게시물을 검색한다. 랭킹 기능은 후보 격리 기법을 적용한 트랜스포머를 사용해 각 후보에 대한 참여 확률을 예측한다.
후보 격리로 일관성 확보
특히 xAI는 트랜스포머 추론 과정에서 후보들이 서로에게 어텐션을 적용할 수 없도록 하는 후보 격리 기법을 도입했다. 이를 통해 게시물의 점수가 배치 내 다른 게시물에 영향을 받지 않아 점수의 일관성을 유지하고 캐싱이 가능하도록 했다.
필터링은 점수화 전후 두 단계에서 이뤄진다. 점수화 전에는 중복, 오래된 게시물, 본인 게시물, 차단 및 음소거된 작성자, 음소거된 키워드, 이전에 본 게시물, 구독 자격이 없는 콘텐츠 등을 제거한다. 점수화 후에는 삭제되거나 스팸, 폭력적 콘텐츠 등을 최종적으로 걸러낸다.
후보파이프라인은 추천 파이프라인 구축을 위한 재사용 가능한 프레임워크로, 소스, 하이드레이터, 필터, 스코러, 셀렉터, 사이드이펙트 등의 트레이트를 정의한다. 프레임워크는 가능한 경우 소스와 하이드레이터를 병렬로 실행하며, 구성 가능한 오류 처리와 로깅 기능을 제공한다.
다중 행동 예측으로 정교화
단일 관련성 점수 대신 여러 행동에 대한 확률을 예측하는 다중 행동 예측 방식도 눈에 띈다. 이를 통해 시스템은 사용자가 좋아할 가능성뿐만 아니라 싫어하거나 차단할 가능성까지 고려해 더 정교한 추천을 수행할 수 있다.
해시 기반 임베딩 방식도 특징적이다. 검색과 랭킹 모두에서 여러 해시 함수를 사용해 임베딩을 조회하는 방식을 채택했다. 이는 대규모 데이터셋에서 효율적인 처리를 가능하게 한다.
시스템은 작성자 다양성 스코어러를 통해 동일 작성자의 반복 점수를 감쇠시켜 피드의 다양성을 보장한다. 또한 아웃네트워크 콘텐츠에 대한 점수를 별도로 조정하는 기능도 갖추고 있다.
오픈소스 생태계 기여 기대
이번 공개는 아파치 라이선스 2.0 하에 이뤄져 누구나 자유롭게 사용, 수정, 배포할 수 있다. 공개된 저장소에는 러스트(62.9%)와 파이썬(37.1%)으로 작성된 코드가 포함돼 있으며, 현재 7천 개 이상의 스타와 1천200개 이상의 포크를 기록하며 개발자 커뮤니티의 높은 관심을 받고 있다.
업계 전문가들은 이번 공개가 추천 시스템의 투명성을 높이고 연구 커뮤니티에 귀중한 자료를 제공할 것으로 평가한다. 특히 대규모 언어모델을 추천 시스템에 적용한 실제 사례를 공개함으로써 관련 연구 발전에 기여할 것으로 기대된다.
다만 일각에서는 핵심 알고리즘 공개가 악용될 가능성에 대한 우려도 제기한다. 알고리즘의 작동 방식을 이해한 악의적 사용자가 시스템을 조작해 특정 콘텐츠의 노출을 인위적으로 늘릴 수 있다는 지적이다. xAI 측은 이에 대한 별도의 입장을 밝히지 않았다.
한편 xAI는 지난해 11월 자사의 대규모 언어모델 Grok-1을 오픈소스로 공개한 바 있다. 이번 For You 피드 알고리즘 공개는 Grok 모델을 실제 프로덕션 환경에서 어떻게 활용하는지 보여주는 사례로, AI 기술의 실용화 방법론을 제시한다는 점에서 의의가 있다.
한국정보기술신문 방송통신분과 김범수 기자 news@kitpa.org