인공지능 ·

AGI 정의 새 프레임워크 등장...GPT-4는 27%, GPT-5는 58% 수준

발행일2025년 10월 27일

읽는 시간2분 7초

인간 수준 범용 인공지능 평가 위해 10개 인지 영역으로 체계화, 장기 기억 저장 능력이 주요 병목 지점으로 지적돼

[한국정보기술신문] 범용 인공지능의 명확한 정의 부재로 인해 현재 인공지능과 인간 수준 인지 능력 사이의 격차가 모호해지는 문제를 해결하기 위한 정량적 평가 프레임워크가 제시됐다.

10월 21일 arXiv에 게재된 논문 'A Definition of AGI'는 AGI를 교육받은 성인의 인지적 다재다능함과 숙련도를 충족하거나 초과하는 인공지능으로 정의하고, 이를 측정할 수 있는 구체적인 평가 체계를 제안했다. 연구진은 인간 인지 능력에 대한 가장 실증적으로 검증된 모델인 캐텔-혼-캐롤 이론을 기반으로 일반 지능을 10개 핵심 인지 영역으로 분해했다.

10개 인지 영역으로 체계화한 AGI 평가

제시된 프레임워크는 일반 지식, 읽기와 쓰기 능력, 수학 능력, 즉석 추론, 작업 기억, 장기 기억 저장, 장기 기억 검색, 시각 처리, 청각 처리, 속도 등 10개 핵심 인지 요소로 구성된다. 각 영역은 10%씩 동일한 가중치로 평가되며, 100%는 AGI 달성을 의미한다.

논문은 GPT-4와 GPT-5에 이 프레임워크를 적용한 결과를 공개했다. GPT-4는 전체 27%의 AGI 점수를 기록했으며, GPT-5는 58%로 나타났다. 세부적으로 GPT-4는 일반 지식 8%, 읽기와 쓰기 6%, 수학 4%를 기록했으며, 즉석 추론과 장기 기억 저장, 시각 처리, 청각 처리 영역에서는 0%를 받았다. GPT-5는 대부분의 영역에서 개선을 보였으나, 장기 기억 저장 능력은 여전히 0%에 머물렀다.

장기 기억 저장이 가장 큰 병목

연구진은 현재 인공지능 시스템이 높은 비균질적 인지 프로파일을 보인다고 분석했다. 방대한 훈련 데이터를 활용하는 지식 집약적 영역에서는 높은 숙련도를 보이지만, 기초 인지 메커니즘, 특히 장기 기억 저장에서 심각한 결함을 나타낸다는 것이다.

장기 기억 저장 능력의 부재는 AGI 도달을 막는 가장 중요한 병목으로 지적됐다. 지속적으로 학습할 수 없는 인공지능 시스템은 기억상실증을 겪으며, 매 상호작용마다 맥락을 다시 학습해야 하는 한계가 있다. 현재 시스템들은 대규모 컨텍스트 윈도우를 사용해 장기 기억 저장 부족을 보완하고 있지만, 이는 비효율적이고 계산 비용이 높으며 며칠이나 몇 주에 걸친 맥락이 필요한 작업에는 확장이 불가능하다.

연구진은 또한 환각 현상을 줄이기 위해 외부 검색 도구를 통합하는 검색 증강 생성 방식도 장기 기억의 근본적 약점을 가리는 능력 왜곡이라고 지적했다.

경제적 가치와 AGI는 별개

논문은 AGI를 경제적으로 가치 있는 인공지능이나 경제 수준의 인공지능과 구분했다. 보도에 따르면 오픈AI와 마이크로소프트가 AGI를 1000억 달러의 이익을 창출할 수 있는 인공지능으로 정의했다고 알려졌지만, 연구진은 아이폰과 같은 좁은 기술도 수십억 달러의 경제적 가치를 창출할 수 있다며 이러한 정의에 반대했다.

연구진은 AGI에 앞서거나 이후에 도래할 수 있는 다른 유형의 전략적으로 중요한 인공지능도 정의했다. 여기에는 생물무기 인공지능, 사이버전 인공지능, 자가 유지 인공지능, 재귀 인공지능, 초지능, 대체 인공지능 등이 포함된다. 특히 재귀 인공지능은 인간 연구자 없이도 인공지능 연구개발 전 주기를 독립적으로 수행해 훨씬 더 발전된 인공지능 시스템을 만들 수 있으며, 이는 잠재적으로 초지능으로 이어질 수 있다고 설명했다.

연구진은 구체적인 AGI 정의를 통해 비생산적인 논쟁을 종식하고 AGI까지의 거리에 대한 논의를 명확히 할 수 있을 것으로 기대했다.

한국정보기술신문 인공지능분과 성연주 기자 news@kitpa.org