국내 연구진이 대규모 의료 인공지능(AI) 모델을 개발할 수 있는 학습 기술을 개발했다. 개인정보 문제로 대량 학습이 불가능한 의료 영상의 단점을 해결하는 것은 물론 기존 모델보다 우수한 성능을 낼 수 있는 기술이다. 의료계가 최근 주목하는 의료 AI의 성능을 크게 끌어올릴 수 있을 것으로 기대를 모은다.
박상현 대구경북과학기술원(DGIST) 로봇및기계전자공학과 교수가 이끄는 연구진은 3일 미국 스탠퍼드대와 공동으로 다양한 신체 장기를 영역화할 수 있는 AI 기술을 개발했다고 밝혔다.
병원과 연구기관은 다양한 신체 장기 영상 데이터를 수집해 보관하고 있다. 그러나 AI 성능을 높이려면 이들 기관이 가진 데이터를 모두 통합해 학습하는 모델이 필요하다. 다만 의료 데이터는 개인 정보 유출의 우려로 한 곳에 모아 활용하기 어렵다는 문제가 있다. 개별 기관에 보관한 데이터 만을 활용하기에는 관심 영역이 크게 달라 다양한 장기의 데이터를 동시에 학습하는 것도 어려운 상황이다.
연구진은 서로 다른 장기의 데이터를 외부 유출 없이 효과적으로 활용할 수 있는 연합학습 기반 ‘다중 장기 영역화 모델’을 개발했다. 연합학습은 분산된 데이터를 직접 공유하지 않고도 AI에게 학습시킬 수 있는 기술이다. 그러나 연합학습은 분산 데이터의 정보를 추출하는 과정에서 정보가 손실되는 ‘망각(Catastrophic Forgetting) 현상이 일어나 실제 의료 AI에 적용하기 어려웠다.
연구진은 연합학습의 망각 현상을 해결하기 위해 ‘지식 증류(Knowledge Distillation)’ 방법을 사용했다. 모델에 사전 지식을 입력한 후 각 기관에서 갖고 있는 장기 영상을 영역화한 데이터를 함께 활용해 연합학습을 하는 방식이다.
이렇게 개발한 AI 모델은 적은 파라미터(변수)와 연산량으로도 더 우수한 성능을 내는 것으로 나타났다. AI 모델의 성능을 검증하기 위해 7개의 서로 다른 영역화 데이터가 포함된 복부 데이터셋에 적용했다. 검증 결과, 기존 모델이 66.82%의 성능을 보였으나 새롭게 개발한 모델을 사용했을 때는 71%의 우수한 성능을 보였다.
박 교수는 “여러 의료기관의 의료영상 데이터를 공유하지 않고도 효과적으로 의료 AI를 학습하고 활용할 수 있게 됐다”며 “의료영상 분석에 큰 도움을 주고 앞으로 대규모 의료 AI 모델 개발에도 기여할 것으로 기대한다”고 말했다.
연구 결과는 국제 학술지 ‘의료 영상 분석’에 지난 3월 25일 소개됐다.
참고자료
Medical Image Analysis, DOI: https://doi.org/10.1016/j.media.2024.103156