챗GPT가 미국 의사 면허 시험인 USMLE를 통과할 정도의 성능을 보여줬다는 내용의 논문.

지난해 처음 발표된 대화형 인공지능(AI) ‘챗GPT’가 미국의사면허시험(USMLE)을 무난하게 통과할 정도의실력을 갖췄다는 연구 결과가 나왔다.

미국 캘리포니아 마운틴뷰의 의료기관인 앤서블헬스(Ansible Health) 연구진은 챗GPT를 대상으로 3단계에 걸친 USMLE 시험을 실시한 결과 모든 시험에서 50% 이상 정확도를 보여줬다는 연구 결과를 논문 사전공개 사이트인 바이오아카이브에 지난달 21일 소개했다.

이번 실험은 의대생 2학년을 대상으로 하는 스텝1, 의대생 4학년을 대상으로 하는 스텝2, 전공의 1년차를 대상으로 하는 스텝3의 문제를 풀게 하는 방식으로 진행됐다. USMLE 홈페이지에 공개된 376개의 문제 샘플 중 챗GPT가 인식할 수 있는 텍스트 기반의 문제 305개가 연구에 사용됐다.

챗GPT는 정확성의 측면에서는 모든 평가 단계에서 50% 이상의 정답을 보여줬고, 60% 이상의 정확도를 보여주는 것도 있었다. 연구를 진행한 앤서블헬스의 빅처 쳉(Victor Tseng) 박사는 “챗GPT는 특별한 교육 없이도 3개 시험 모두 통과할 수 있는 수준을 보여줬다”고 설명했다.

이와 별도로 의료용 AI 챗봇인 ‘플랜팜’도 USMLE 시험을 통과할 수 있다는 연구 결과도 나왔다. 플랜팜에게 시험 문제를 풀게 했더니 정확도가 67.6%에 이르는 것으로 나타났다는 것이다. 연구를 진행한 구글AI의 비벡 나타라잔 연구원은 이전 버전보다 정확도가 17%P는 높아진 것이라고 설명했다.

이런 연구 결과는 의학 교육이나 임상 단계에서 챗GPT를 비롯한 AI 챗봇이 더 광범위하게 쓰일 수 있는 가능성을 보여줬다는 평가가 나온다. 실제로 앤서블헬스 연구진은 챗GPT를 활용해 보험사에게 보낼 문서를 작성하게 하거나 영상의학의 판독문을 작성하게 하는 등 일상적이고 반복적인 서류 작업을 맡겼더니 의료 인력이 해당 업무에 써야 할 시간을 33% 절감할 수 있었다고 논문에서 밝히기도 했다.

참고자료

bioRxiv, DOI : https://doi.org/10.1101/2022.12.19.22283643

arxiv, DOI : https://arxiv.org/abs/2212.13138