의료 AI, ‘가상 병원’서 먼저 평가…서울대병원·하버드 의대 첫 공개

서울대병원과 하버드 의대 연구팀이 실제 병원처럼 작동하는 '가상 병원'을 만들어 의료 인공지능(AI)을 시험하는 시스템을 세계 최초로 공개했다. 환자를 직접 대상으로 하지 않고도, AI의 판단이 환자 상태와 병원 운영에 어떤 영향을 미치는지 미리 확인할 수 있는 방식이다.

김성은 서울대병원 의생명연구원 특화연구소 연구교수. /서울대병원

서울대병원은 김성은 서울대병원 특화연구소 연구교수와 하버드 의대 공동 연구팀이 거대언어모델(LLM) 기반 의료 AI를 동적으로 평가하는 '임상 환경 시뮬레이터(Clinical Environment Simulator, CES)'를 국제 학술지 '네이처 메디슨(Nature Medicine, IF 50)' 최신 온라인판에 발표했다고 14일 밝혔다.

그동안 의료 AI 평가는 주로 과거 환자 데이터를 바탕으로 '진단을 얼마나 정확히 맞히는지'를 보는 방식이었다. 하지만 실제 병원에서는 상황이 계속 변한다. 환자의 상태가 시간에 따라 악화하기도 하고, 병상이나 의료진, 검사 장비처럼 사용할 수 있는 자원도 한정돼 있다. 이런 요소들은 기존 평가 방식에서는 제대로 반영되지 않았다.

연구팀이 개발한 '임상 환경 시뮬레이터(CES)'는 이러한 현실을 그대로 옮겨 놓은 '디지털 병원'이다. 이 시스템은 환자의 상태 변화를 재현하는 '환자 엔진'과 병상·의료진·장비 상황을 관리하는 '병원 엔진'으로 구성된다. 두 시스템이 동시에 작동하면서, AI의 결정이 이후 상황에 어떤 변화를 일으키는지 계속 반영된다.

예를 들어, AI가 검사를 늦게 지시하면 안정적이던 흉통 환자가 급성 심근경색으로 악화하며 상태가 나빠질 수 있다. 반대로 한 응급 환자에게 CT 촬영을 우선 배정하면 다른 환자들의 검사 대기 시간이 길어지는 상황도 생긴다. AI의 판단 하나가 특정 환자의 치료 결과뿐 아니라 병원 진료 환경 전체 흐름까지 바꿀 수 있는 셈이다.

이 시스템은 AI를 두 가지 기준으로 평가한다. 환자가 실제로 얼마나 잘 치료됐는지, 병원이 얼마나 효율적으로 운영됐는지를 함께 본다. 특정 환자 치료만 잘해도 병원 전체에 부담을 주면, 점수가 낮아지는 구조다.

임상 환경 시뮬레이터(CES) 작동 패러다임. /서울대병원

연구팀은 또 전산망 장애나 응급 환자 급증 같은 극한 상황을 가정해 AI의 대응 능력도 시험했다. 실제 병원에서 발생할 수 있는 위기 상황까지 미리 검증하겠다는 취지다.

이번 연구의 가장 큰 의미는 환자를 위험에 노출하지 않고 의료 AI를 사전에 검증할 수 있는 환경을 마련했다는 점이다. 앞으로 이런 방식이 확산하면, 의료 AI가 병원에 도입되기 전 반드시 거치는 '시험 단계'로 자리 잡을 가능성이 있다.

김성은 연구교수는 "가상 병원이 인체의 복잡한 생리적 반응을 완벽히 예측할 수는 없다"면서도 "이번 연구는 의료 AI가 단편적인 문제를 푸는 도구를 넘어, 역동적인 의료 체계 내에 완전하게 통합되어 실제적인 도움을 주도록 검증하는 가장 가치 있는 다음 단계가 될 것"이라고 말했다.

참고자료

Nature Medicine(2026), https://doi.org/10.1038/s41591-026-04252-6

의료 AI, '가상 병원'서 먼저 평가…서울대병원·하버드 의대 첫 공개