과학자들도 인공지능(AI) 챗봇 ‘챗GPT(ChatGPT)’가 쓴 논문 초록을 사람이 쓴 것인지 기계가 만들었는지 제대로 구분하지 못한다는 연구 결과가 나와 충격을 안겨주고 있다. 대학생들이 과제물 작성을 챗봇에 맡길 수 있다는 우려가 나온 데 이어, 연구자들까지 챗봇의 유혹에 빠질 수 있다는 것이다.
미국 노스웨스턴대의 캐서린 가오 박사 연구진은 지난달 27일 논문 사전공개 사이트인 바이오아카이브(bioRxiv)에 “챗GPT가 쓴 의학 논문 초록이 표절 검사 프로그램을 통과했으며, 의학 연구자들도 10편 중 3편 정도 걸러내지 못하는 것으로 나타났다”고 밝혔다.
◇AI가 쓴 초록, 사람도 3분의 1은 못 걸러
챗GPT는 세계 최대 AI 연구소인 오픈AI가 지난해 11월 30일 무료 공개한 대화형 AI 서비스이다. 오픈AI는 테슬라의 일론 머스크와 링크드인 공동창업자인 리드 호프먼 등 IT업계의 거물들이 2015년 설립했다. 챗GPT는 ‘대형 언어 모델’이라고 부른다. 인간이 만든 수많은 문장을 학습해 마치 사람이 이야기하듯 자연스러운 대화가 가능하다. 같은 방식으로 원하는 글도 작성할 수 있다.
노스웨스턴대 연구진은 챗봇에게 미국의학협회저널(JAMA), 뉴잉글랜드저널오브메디슨(NEJM), 랜싯, 브리티시메디컬저널(BMJ), 네이처 메디슨 등 세계적인 의학 학술지에 실린 논문을 참조해 의학 논문 초록 50편을 작성하게 했다. 이 초록을 실제 연구자들이 쓴 초록과 함께 전문 프로그램으로 표절이나 AI 제작물 여부를 검사했다. 의학 연구자들에게도 같은 검사를 의뢰했다.
챗GPT가 쓴 초록은 표절 검사를 100% 통과했다. AI 제작물 검사 프로그램은 66%를 기계가 썼다고 잡아냈다. 인간은 프로그램보다 크게 낫지 않았다. 챗봇이 만든 초록 중 32%를 실제 초록이라고 잘못 판정했다. 반대로 사람이 쓴 초록 14%는 반대로 기계가 썼다고 착각했다.
영국 옥스퍼드대의 기술 규제 전문가인 샌드라 와처 교수는 지난 12일(현지 시각) 국제 학술지 ‘네이처’에 “매우 우려된다”며 “전문가가 무엇이 옳고 그른지 판단할 수 없는 상황이라면, 복잡한 주제를 다루도록 중개하는 존재가 사라지는 것”이라고 말했다.
챗GPT는 이미 과학 논문 작성에 활용되고 있다. 스페인 연구자들은 지난달 8일 논문 사전공개 사이트인 아카이브(arXiv)에 챗GPT로 신약개발에서 AI의 역할을 다룬 논문을 작성해 공개했다.
지난달 12일 의학논문 사전 공개사이트인 메드아카이드(MedRxiv)에 오른 논문에는 아예 챗GPT가 세 번째 공저자로 올랐다. 이어 지난달 16일에는 영국 맨체스터대 간호과의 시오반 오코너 교수가 동료 과학자들의 심사를 거쳐 국제 학술지에 발표한 논문에 자신과 챗GPT를 공동 저자로 등재했다.
◇”챗봇 금지해야” vs “논문 양적 평가가 더 문제”
네이처는 이번 연구 결과를 소개하면서 챗GPT에 대해 과학계의 의견이 갈리고 있다고 전했다.
많은 과학자가 챗GPT가 만든 글이 사람이 쓴 것과 구분하기 어려우면 큰 문제가 될 수 있다고 우려한다. 앞서 나온 논문들은 챗GPT의 역할을 논문에 명시했지만, 나중에는 이번 실험처럼 그냥 사람이 했다고 속일 수도 있기 때문이다. 옥스퍼드대의 와쳐 교수는 “과학 연구는 우리 사회에서 엄청난 역할을 한다”며 “과학자들이 연구가 진짜인지 판단할 수 없다면 무서운 결과를 초래할 것”이라고 우려했다. 연구 정보를 바탕으로 한 정책 결정이 부정확할 수도 있다는 것이다.
뉴욕과 파리에 본사를 둔 AI 업체인 허깅 페이스(Hugging Face)의 이렌 솔라이만도 “의학 분야에서 가짜 정보는 인간의 안전을 위협할 수 있다”며 “학술지는 더 철저하게 정보가 정확한지 검증해야 한다”고 말했다. 그는 챗봇이 근본적으로 과학 발전에 도움이 되지 않는다고 지적했다. 솔라이만은 “대형 언어 모델은 과거에 나온 정보를 훈련한다”며 “사회적, 과학적 진보는 과거와 다른 방식으로 생각할 때 이뤄진다”고 말했다.
이와 달리 챗GPT에 대한 우려가 지나치다고 보는 전문가들도 있다. 프린스턴대의 컴퓨터 과학자인 아르빈드 나라야난 교수는 네이처에 “진지한 과학자라면 논문 초록을 쓰는 데 챗GPT를 쓰지 않을 것”이라고 지나친 우려를 경계했다. 그는 “챗봇이 만든 초록을 검사할 수 있는지보다 이런 도구가 정확하고 훌륭한 초록을 만들 수 있는지가 문제”라고 말했다.
AI 기술을 적극적으로 활용해야 한다는 의견도 있다. 박용근 KAIST 전기및전자공학부 교수는 소셜미디어에 “시간과 데이터 학습의 문제이지, 결국 AI가 대부분 일반인보다 글을 잘 쓰는 시대가 올 것”이라며 “변화로 내 직업이 없어질까 고민하는 것보다는, 어떻게 활용하면 내 업무의 효율을 올리고 또 기존에 못했던 새로운 일을 할 수 있을까 상상하는 게 더 중요할 듯”이라는 글을 올렸다.
규제안에 대해서도 의견이 갈린다. 이번 챗GPT 초록 평가 논문을 발표한 노스웨스턴대 연구진은 과학계가 AI로 만든 문장을 논문에 쓰지 못하도록 해야 한다고 촉구했다. 아니면 연구기관들이 해당 기술은 특정 상황에 허용한다면 이를 명시하는 기준이 있어야 한다는 것이다, 실제로 이달 초 제40회 국제기계학습학술대회 조직위원회는 챗GPT나 다른 AI 언어 도구로 쓴 논문을 금지한다고 발표했다. 이 대회는 오늘 7월 하와이에서 열린다.
반면 프린스턴대의 나라야난 교수는 “이런 문제에 대한 해결책이 챗봇 자체에 집중해서는 안 된다”며 “대학이 교수를 채용하거나 승진 심사를 할 때 논문의 질이나 영향과 상관없이 숫자로만 평가하는 잘못된 관행을 더 문제 삼아야 한다”고 말했다. 논문에 대한 양적 평가가 계속되면 논문 수를 늘리기 위해 앞서 표절의 유혹에 빠졌듯 챗봇에도 손길이 갈 수 있다는 것이다.
참고자료
bioRxiv, DOI: https://doi.org/10.1101/2022.12.23.521610 (2022).
arXiv, DOI: https://doi.org/10.48550/arXiv.2212.08104 (2022).
MedRxiv, DOI: https://doi.org/10.1101/2022.12.19.22283643
Nurse Education in Practice, DOI: https://doi.org/10.1016/j.nepr.2022.103537