AI, 의료진 업무 개선엔 ‘합격점’이지만… 치료 성과는 차이 없어

인공지능(AI)이 의료진의 진료 기록과 치료 계획을 개선하는 데는 도움을 줬지만, 환자의 실제 치료 결과까지 나아지게 했다는 증거는 확인되지 않았다는 대규모 임상시험 결과가 나왔다. /뉴시스

인공지능(AI)이 의료진의 진료 기록과 치료 계획을 개선하는 데는 도움을 줬지만, 환자의 실제 치료 결과까지 나아지게 했다는 증거는 확인되지 않았다는 대규모 임상시험 결과가 나왔다. AI가 의료진의 판단을 지원하는 도구로 실제 진료 현장에 적용될 가능성은 확인됐지만, 환자의 건강 개선으로 이어지는지는 더 큰 규모의 검증이 필요하다는 것이다.

영국 버밍엄대 등 국제 공동 연구팀은 케냐 1차 진료 기관 16곳에서 환자 9691명을 대상으로 생성형 AI 기반 진료 보조 도구의 효과를 분석한 결과를 국제 학술지 '네이처 메디신'에 최근 발표했다.

연구팀은 케냐에서 1차 진료를 담당하는 임상 의료인 103명 가운데 52명에게는 기존 전자의무기록 시스템과 함께 'AI 컨설트'를 사용하게 하고, 나머지 51명에게는 기존 시스템만 제공했다. AI 컨설트는 GPT-4o를 기반으로 한 임상 의사 결정 지원 도구다. 연구팀의 최종 분석에는 AI 보조 진료를 받은 환자 4693명과 일반 진료를 받은 환자 4654명이 포함됐다.

의료진은 환자의 증상과 검사 결과 등을 전자의무기록에 입력하고, 이를 AI가 분석해 케냐 진료 지침에 맞는 진단과 치료 의견을 제시했다. 위험도는 녹색·노란색·빨간색으로 표시했다.

최종 진단과 처방은 의료진이 직접 결정했다. 의료진은 AI의 조언을 받아들이거나 수정하거나 무시할 수 있었다. 환자들은 AI 임상 지원 도구가 연구에 사용된다는 설명을 듣고 참여에 동의했지만, 자신을 진료한 의료진이 AI 사용군인지 대조군인지는 알지 못했다.

연구팀은 진료 후 14일 안에 증상이 낫지 않아 다시 병원을 찾거나 상급 의료 기관으로 이송되는 등의 '치료 실패'가 발생했는지 조사했다. 그 결과 치료 실패율은 AI군 2.2%, 대조군 2.0%로 통계적으로 의미 있는 차이가 없었다.

입원과 사망 등 중대한 이상 사례도 두 집단에서 비슷했다. 연구팀은 AI가 환자에게 해를 끼쳤다는 안전성 신호는 발견되지 않았다고 밝혔다.

반면 진료 기록과 치료 계획의 질은 개선됐다. AI 사용 여부를 모르는 케냐 가정의학 전문의들이 진료 2000건을 평가한 결과, AI를 사용한 의료진이 대조군보다 적절한 진단을 기록하고 진료 내용을 충실하게 작성하며 적절한 치료 계획을 세웠다는 평가를 더 많이 받았다.

환자 만족도는 두 집단에서 같았다. 전체 항생제 처방 비율에도 유의미한 차이가 없었지만, AI군의 환자당 항생제 비용은 대조군보다 평균 0.15달러 낮았다. 연구팀은 AI가 효과가 비슷하면서 가격이 낮은 항생제를 선택하도록 의료진을 유도했을 가능성이 있다고 분석했다.

다만 이번 연구는 케냐 도시 지역의 한 민간 의료기관 네트워크에서 시행됐고, 환자를 관찰한 기간도 14일로 짧았다는 한계가 있다. 연구팀은 치료 실패가 예상보다 적게 발생해 AI의 효과를 찾아내기에는 연구 규모가 충분하지 않았다고 했다.

AI, 의료진 업무 개선엔 '합격점'이지만… 치료 성과는 차이 없어