검사·처방·입원 결정도…의사처럼 환자 돌보는 AI 나왔다

환자에게 증상을 묻고 필요한 검사를 정한 뒤 결과를 해석해 약을 처방하고, 입원 계획까지 세우는 인공지능(AI)을 개발했다는 연구 결과가 네이처에 발표됐다. 구글도 질병의 진행과 치료 반응에 따라 진료 계획을 조정하는 AI를 개발해 네이처에 공개했다. /제미나이 생성 이미지

환자에게 증상을 묻고 필요한 검사를 정한 뒤 결과를 해석해 약을 처방하고, 입원 계획까지 세우는 인공지능(AI)이 개발됐다. 여러 차례 환자를 만나 질병의 진행과 치료 반응에 따라 진료 계획을 조정하는 AI도 개발돼 가상 진료 시험에서 의사와 비슷하거나 일부 항목에서 더 높은 성적을 냈다.

독일 드레스덴공대·하이델베르크대병원 연구진이 개발한 '미라(MIRA)'와 구글 리서치·구글 딥마인드의 '아미(AMIE)' 연구 결과가 17일(현지 시각) 국제 학술지 '네이처'에 나란히 발표됐다. 기존 의료 AI가 주로 질병 진단이나 의료 영상 판독처럼 한정된 과제를 수행했다면, 두 AI는 병력 청취부터 검사 선택, 치료 결정, 추적 관찰에 이르는 환자 관리 전반을 지원하도록 설계됐다.

◇검사·처방·입원 계획까지 세우는 '미라'

미라는 병원 전자의무기록을 본뜬 격리된 가상 환경에서 작동하는 AI 에이전트다. 환자 역할을 하는 또 다른 AI와 대화하며 증상과 과거 병력, 복용 중인 약, 알레르기 등을 확인한다. 이어 혈액·소변·미생물·영상 검사를 선택해 주문하고, 검사 결과를 토대로 진단을 내린다.

약물명과 용량을 정해 처방하고 수술이나 시술을 선택하며, 환자를 입원시킬지도 결정한다. 기존 의료 AI처럼 단순히 "폐렴일 가능성이 있다"는 식의 답변을 내놓는 것이 아니라, 전자의무기록이 처리할 수 있는 표준화된 형식의 검사·처방 명령을 생성한 것이다. 이를 위해 검사·약물·질병을 분류하는 국제 의료 코드 체계를 적용해 병원 전자의무기록의 작동 방식을 모방했다.

연구진은 미국의 중환자·응급 진료 데이터베이스에서 충수염, 담낭염, 게실염, 췌장염, 폐색전증, 요로 감염, 폐렴, 췌장암 등 8개 질환의 환자 기록 574건을 가져와 미라를 평가했다. 전체 진단 정확도는 88.9%였다. 충수염은 148건 중 146건을 맞혀 정확도가 98.6%였고, 췌장염은 92.3%, 폐색전증은 90%였다. 반면 폐렴은 72.4%, 요로 감염은 77.6%로 질환에 따라 성능 차이가 나타났다.

연구진은 미라와 전문의 4명이 같은 조건에서 진료한 환자 311건도 직접 비교했다. 미라의 평균 진단 정확도는 87.8%로 전문의 집단의 78.1%보다 높았다.

미라는 환자와 대화한 뒤 신체검사, 혈액검사, 영상검사를 차례로 시행하고 약물이나 수술을 선택하는 등 실제 응급실과 비슷한 순서로 진료했다.

◇치료 반응에 따라 계획 수정하는 '아미'

구글이 개발한 아미는 외래 환자를 여러 번 만나면서 질병의 변화와 치료 반응을 추적하도록 설계됐다. 의사는 병명을 정한 뒤에도 어떤 검사를 추가할지, 약을 계속 쓸지 바꿀지, 환자를 언제 다시 볼지 판단해야 한다. 이처럼 시간에 따라 환자의 상태를 살피며 진료 계획을 조정하는 사고 과정을 '관리 추론'이라고 한다.

아미는 환자와 대화하는 AI와 전체 치료 계획을 짜는 AI가 역할을 나눠 작동한다. 구글의 생성형 AI '제미나이'를 기반으로 환자의 이전 진료 내용과 현재 상태를 분석하고, 영국 국립보건임상연구원 등의 진료 지침에서 관련 내용을 찾아 검사·치료 계획에 반영한다.

연구진은 심장, 호흡기, 산부인과·비뇨기, 소화기, 신경·근골격계 분야의 가상 환자 사례 100건을 만들었다. 각 환자가 세 차례 진료받는 상황에서 아미와 일차의료 의사 21명의 판단을 비교했다. 환자는 훈련받은 배우가 맡았으며, 전문의들이 대화 기록과 진료 계획을 평가했다.

전체 진료 계획이 적절하다는 평가를 받은 비율은 환자의 첫 방문에서 아미가 95%, 의사가 72%였다. 두 번째 방문에서는 각각 96%와 80%, 세 번째 방문에서는 98%와 81%였다.

검사와 치료 방안을 얼마나 구체적으로 제시했는지를 평가한 항목에서도 아미가 높은 점수를 받았다. 예컨대 단순히 "항생제를 처방한다"고 쓰는 데 그치지 않고 약물명과 용량, 투여 방법, 치료 기간, 추적 검사 시점까지 제시했다.

다만 구체적인 답변을 길게 생성하도록 설계된 AI가 이런 평가에서 유리할 수 있고, 답변의 구체성이 곧 실제 치료 효과나 안전성을 뜻하는 것은 아니다.

◇가상 시험 성과… 실제 진료까지는 추가 검증 필요

이번 결과를 곧바로 "AI가 의사를 이겼다"는 의미로 해석하기는 어렵다는 평가가 나온다. 미라 연구는 과거 환자의 전자의무기록을 이용한 시뮬레이션이었다. 미라와 대화한 환자도 실제 사람이 아니라, 진료 기록에 적힌 병력만을 바탕으로 답하도록 만든 AI였다. 실제 응급실 환자는 증상을 빠뜨리거나 앞뒤가 맞지 않게 설명하고, 상태가 시시각각 변할 수 있다.

아미도 실제 외래 환자를 진료한 것이 아니라 훈련된 배우와 문자로 진행한 가상 임상시험이었다. 실제 진료에서는 신체검사와 비용, 검사 가능 여부, 환자 선호, 의료진 간 협의 등 훨씬 많은 변수가 작용한다.

두 연구팀도 AI가 독립적으로 환자를 진료할 준비가 된 것은 아니라고 밝혔다. 실제 환자를 대상으로 한 임상시험과 안전성 평가, 잘못된 검사·처방을 차단할 감독 체계가 필요하다는 것이다. AI의 판단으로 환자에게 피해가 발생했을 때 의사와 병원, 개발사 가운데 누가 책임질지도 해결해야 할 문제다.

미라가 전자의무기록 안에서 검사와 치료 명령을 실행하는 '행동형 AI'라면, 아미는 여러 차례의 진료를 이어가며 환자의 최신 상태에 맞춰 계획을 조정하는 '질병 관리형 AI'다. 두 연구는 의료 AI가 질병을 진단하는 도구를 넘어 의사의 진료 과정을 폭넓게 지원하는 방향으로 발전하고 있음을 보여준다.