응급실에서 환자의 증상을 듣고 빠르게 병명을 가려내야 하는 상황에서 인공지능(AI)이 의사보다 정확한 판단을 내릴 수 있다는 연구 결과가 나왔다./ AI생성 이미지

응급실에서 환자의 증상을 듣고 빠르게 병명을 가려내야 하는 상황에서 인공지능(AI)이 의사보다 더 정확한 판단을 내릴 수 있다는 연구 결과가 나왔다. 오픈AI의 추론형 AI 모델 'o1(오원)'이 응급실 환자 진단을 포함한 다양한 임상 추론 실험에서 의사 집단을 앞섰다는 것이다.

멀지 않은 미래에는 환자가 응급실에 도착하자마자 AI가 예상 병명을 제시하고, 의사에게 필요한 응급 조치를 제안하는 식으로 응급 의료가 바뀔 것이라는 전망이 나온다.

미국 하버드 의대, 스탠퍼드대, 베스 이스라엘 디코니스 메디컬센터 등 공동 연구팀은 이런 내용의 연구 결과를 1일 국제 학술지 사이언스에 발표했다. 연구팀은 뉴잉글랜드저널오브메디신(NEJM)의 복잡한 임상 사례, 의학 교육용 진단 추론 문제, 실제 응급실 환자 사례 등 6가지 실험에서 AI와 의사들의 성과를 비교했다.

특히 베스 이스라엘 디코니스 메디컬센터 응급실 환자 76명의 실제 진료 데이터를 활용한 실험이 주목받았다. 환자가 처음 응급실에 들어와 증상을 말하는 단계, 응급실 의사가 평가하는 단계, 입원 또는 중환자실 이송이 결정되는 단계 등 세 시점으로 나눠 AI와 의사의 감별 진단 능력을 비교했다.

분석 결과, 환자가 응급실에 도착한 직후 문진 단계에서 AI가 질병 후보를 의사보다 더 정확하게 제시했다. o1은 환자 10명 중 6~7명꼴(67.1%)로 실제 병명과 같거나 매우 가까운 진단을 제시했다. 반면 전문의 2명은 각각 5명꼴(55.3%, 50%)에 그쳤다. 이후 환자에 대한 정보가 더 늘어난 단계에서도 AI가 앞섰다. 응급실 의사가 환자를 직접 평가한 뒤의 정보까지 넣었을 때 o1은 72.4%의 사례에서 실제 병명과 같거나 매우 가까운 진단을 제시했다. 입원이나 중환자실 이송이 결정될 만큼 정보가 더 쌓인 단계에서는 이 비율이 81.6%까지 올라갔다.

치료 방침을 묻는 임상 관리 과제에서도 o1-프리뷰는 90% 수준의 높은 성과를 보였다. GPT-4를 활용한 의사는 41%, 일반 자료를 참고한 의사는 34%에 그쳐 AI와 큰 차이를 보였다.

의학적 추론 능력을 평가하는 시험에서도 AI는 압도적인 성과를 보였다. o1-프리뷰는 총 80번의 답변 중 78번을 만점으로 평가받은 반면, 전문의는 80번 중 28번, 전공의는 72번 중 16번만 만점을 받았다.

다만 연구팀은 이번 결과가 AI가 곧바로 인간 의사를 대체한다는 뜻은 아니라고 선을 그었다. 이번 실험은 대부분 글로 정리된 의무 기록과 사례 설명을 바탕으로 이뤄졌다. 실제 진료에서는 환자의 표정, 통증 정도, 목소리, 영상 검사, 진찰 등 비(非)문자 정보도 중요하다. 연구팀은 "이번 연구는 텍스트 기반 임상 판단 능력만 평가한 것"이라며 "AI를 실제 진료에 안전하게 도입하려면 인간 의사와 AI가 어떻게 협업할지 검증하는 연구와 전향적 임상시험이 필요하다"고 밝혔다.