구글 AI, 유방암 검진 워크플로우 혁신으로 진단 정확도 크게 향상...간격암 25% 추가 발견, 판독 시간 46% 단축 효과 입증

구글 연구팀이 AI 기반 유방암 검진 시스템으로 진단 정확도를 높이고 의료진 업무량을 크게 줄였다.

[한국정보기술신문] 구글 연구팀이 머신러닝을 활용한 유방암 검진 워크플로우 개선 연구 결과를 3월 17일 발표했다. 시니어 기술 프로그램 매니저 리홍 시(Lihong Xi)와 엔지니어링 매니저 다니엘 골든(Daniel Golden)이 주도한 이번 연구는 영국 NHS 유방암 검진 프로그램을 통해 AI가 실제 임상 환경에서 진단 정확도 향상과 의료진 업무량 감소를 동시에 달성할 수 있음을 입증했다.

영국은 35-64세 여성의 주요 사망 원인인 유방암 문제에 직면해 있다. 더욱 심각한 것은 2028년까지 임상 방사선과 의사의 40%가 부족할 것으로 예상되어 NHS 유방암 검진 프로그램의 지속가능성이 위협받고 있다는 점이다. 이 연구는 AI 통합을 통해 이러한 격차를 해결하는 것을 목표로 했다.

첫 번째 연구에서는 5개 NHS 검진 서비스에서 수집한 12만 5000개의 유방조영상을 분석했다. 39개월간의 엄격한 추적 검증을 통해 민감도, 특이도, 병변 수준 국소화를 평가했으며 인구통계학적 공정성 분석도 포함했다. 이어 런던 12개 실제 검진 사이트에서 9266건의 사례를 2개월간 실시간 처리하여 AI 시스템을 배포했다.

두 번째 연구에서는 22명의 공인 판독자가 5만 명 여성의 8732건 사례를 중재했다. 기존 이중 판독 워크플로우와 AI 강화 워크플로우를 비교하여 실제 검진 서비스 규칙을 사용한 중재 시뮬레이션을 실시했다.

진단 성능 대폭 개선

연구 결과 암 발견율이 여성 1000명당 7.54건에서 9.33건으로 증가했다. 특히 AI는 기존 이중 판독에서 놓쳤던 간격암의 25%를 추가로 발견했다. 간격암은 정기 검진 사이에 발생하는 암으로 기존 방법으로는 발견하기 어려운 사례들이다. AI는 침습성 암과 첫 검진 사례에서 특히 우수한 민감도를 보였다.

업무 효율성 측면에서도 놀라운 성과를 거뒀다. AI 도입으로 필요한 인간 판독을 46% 줄일 수 있었으며, 민감도와 특이도를 유지하면서도 전체 판독자 시간을 36-44% 단축했다. AI 처리 시간은 중간값 기준 17.7분으로 인간 판독자의 2일 이상과 비교해 현저히 빨랐다.

연구는 실제 운영상의 중요한 고려사항들도 밝혀냈다. 인간 중재자들이 93건의 정확한 AI 재검 결정을 잘못 번복하는 사례가 있었으며, 유방 보형물과 같은 복잡한 사례에서는 여전히 이중 판독자 평가가 필요했다. 또한 과거와 현재 임상 데이터 간의 분포 변화로 인해 보정이 필요했다.

인구통계학적 공정성 확보

AI 성능은 중재 후에도 기존 워크플로우 대비 비열등성을 유지했다. 연령, 인종, 유방 밀도, 사회경제적 지위에 걸쳐 체계적인 인구통계학적 격차는 나타나지 않았다. 이는 AI 시스템이 다양한 인구 집단에서 공정하게 작동함을 보여준다.

이번 연구는 AI 지원 검진이 진단 향상과 의료진 부담 감소를 동시에 달성할 수 있음을 입증했다. 특히 공격적인 암 유형의 탐지를 강화하면서도 방사선과 의사 인력 부족 문제를 효율적인 워크플로우로 해결할 수 있음을 보여줬다. 기존 임상 프로토콜에서 진단 정확도를 유지하면서도 안전성을 보장한다는 점이 중요하다.

연구팀은 성공적인 AI 통합을 위해서는 늘어난 중재량 관리, 모델 설명가능성 개선, 데이터 드리프트 적극적 관리 등의 운영 이슈 해결이 필요하다고 강조했다. AI가 의료진을 대체하기보다는 협력하는 방향이 지속가능한 의료 서비스 제공에 최적임을 시사한다.

한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org