/pixabay

스프링거 네이처를 비롯해 주요 학술출판기업들이 논문 저자로 대화형 인공지능(AI)인 챗GPT(ChatGPT) 사용을 금지하거나 제한하려는 움직임을 보이는 가운데 챗GPT가 논문저자로서 충분한 실력이 있다는 연구 결과가 나왔다. 학술 논문에서 챗GPT의 역할과 위상을 둘러싼 논란이 당분간 이어질 것으로 보인다.

마이클 다울링 아일랜드 더블린시티대 경영대학원 교수 연구진은 이달 25일(현지 시각) “챗GPT를 활용해 학술지에 실을 수 있을 만한 논문을 작성했다”며 “챗GPT가 여러 측면에서 연구에 유용하다”고 국제 학술지 ‘파이낸스 리서치 레터스’에 발표했다.

다울링 교수 연구진은 학술 출판계가 나서서 규제할 만큼 챗GPT가 연구에서 중요한 역할을 대신할 수 있는지, 어떤 위험이 있는지 실험했다.

오픈AI가 개발한 인공지능(AI) 챗봇, 챗GPT. /오픈AI

◇ 챗GPT로 논문 작성할 수 있다

챗GPT는 대화형 AI으로 설계됐지만 기존 정보를 모아 요약하거나 여기서 더 나아가 새로운 아이디어를 내놓을 수 있다. 주어진 글을 검토하고 다시 여기에 대한 결과를 되돌려 주는 기능도 있다. 하지만 학계 일각에선 챗GPT가 2021년까지 생성된 데이터만 습득해 최신 정보가 부족하고, 정보 출처도 정확하지 않아 연구에 사용하는데 한계가 있다는 지적이 제기되고 있다. 챗GPT가 쓴 글을 연구자가 썼다고 속이거나 표절 논란도 일어날 가능성이 있다.

연구진은 챗GPT에게 ‘암호화폐’라는 큰 주제만 정해주고 세 가지 방법으로 논문을 작성하게 하고 결과를 비교했다.

연구진은 먼저 챗GPT가 기존에 학습한 데이터만 이용해 논문을 쓰게 했다. 다음으로 챗GPT가 데이터를 학습한 2021년 이후에 나온 188개의 새로운 연구논문 초록을 입력한 뒤 논문을 작성하도록 했다. 마지막 방법으로는 최신 연구의 초록과 함께 연구자의 지식을 함께 입력했다. 챗GPT가 작성한 첫 답변을 읽고 다시 개선 방안을 제시하거나 특정 부분을 구체적으로 작성해달라고 요구하는 방식이다.

챗GPT가 이렇게 작성한 논문은 학술지 검토 위원과 실제 학술 논문을 발표한 연구자 32명에게 직접 평가받았다. 평가자는 출력물이 정확한지, 저명한 금융 분야 학술지에 게재될 만큼 의미 있는지 기준에 따라 1부터 10점까지 점수를 매겼다.

평가 결과 챗GPT의 지식만 써서 작성한 논문은 평균 7.05점, 최신 연구 논문의 초록을 추가해 작성한 방식은 6.63점, 초록과 연구자의 지식을 더한 세 번째 방법은 7.62점을 받았다. 전문가들은 모든 결과물에 1~10점의 중간인 5.5점 이상의 점수를 줬다.

연구진은 “이 정도 수준이면 챗GPT의 결과물을 논문으로서 받아들일 수 있다는 뜻으로 볼 수 있다”고 말했다.

특히 연구자의 지식을 추가한 세 번째 논문은 연구적으로 우수하다는 평가를 받기도 했다. 연구진은 “최신 연구 데이터와 연구자의 지식이 논문의 품질을 결정하는 핵심 요소”라며 “연구자의 역할은 아직 죽지 않았다”고 밝혔다.

◇ 챗GPT, 아이디어 제안과 데이터 수집에 뛰어나

연구진은 챗GPT가 논문을 작성할 때 연구 아이디어 제안과 관련 문헌 검토, 관련 데이터 수집과 요약, 연구 방식 설계라는 네 가지 연구 단계를 수행하게 했다. 단계별로 작성된 글도 검토 위원과 저자에게 평가를 받았다.

평가자들은 챗GPT가 낸 연구 아이디어와 수집 데이터를 높게 평가한 것으로 드러났다. 챗GPT가 기존 문헌에서 연구해야 할 주제를 찾고 참고 문헌에서 특정 부분의 데이터를 가져와 요약하는 데 강점을 보인 것이다.

챗GPT는 문헌 검토와 연구 설계에선 비교적 낮은 평가를 받았다. 문헌 검토는 주제와 관련된 내용을 분석한 뒤 연구의 필요성을 설명할 근거를 찾는 단계다. 문헌 검토와 관련 데이터 내용을 바탕으로 적합한 연구 방식도 만들어내야 했지만 여러 아이디어들을 연결하는 능력에 한계를 보였다. 연구진은 “그럼에도 불구하고 논문으로 쓸만한 내용을 제공해 챗GPT가 연구 전반을 수행할 수 있다”고 판단했다.

연구진은 “챗GPT가 연구에서 중요한 역할을 할 수 있다는 것을 확인했다”며 “연구자가 챗GPT를 위협으로 생각하기보다는 비용이 저렴한 전자 비서와 같은 연구 보조 수단으로 간주해야 한다”고 주장했다. 연구에서의 챗GPT 사용이 무조건 안 된다고 하기보다는 챗GPT를 사용해서 좋은 결과를 얻을 수 있다면 선택적으로 사용해야 한다는 뜻이다.

연구진은 “챗GPT는 앞으로 더 실력이 좋아질 것”이라며 “역할을 인정하고 단속하는 것이 관건”이라고 말했다.

네이처와 네이처의 출판사 스프링거 네이처는 24일(현지 시각) “챗GPT를 포함한 AI를 논문 저자로 인정하지 않을 것”이라며 사설을 통해 가이드를 발표했다./네이처 뉴스 사설 캡처

◇ 학술계에서도 ‘챗GPT는 도구’ vs ‘무조건 제한’ 엇갈려

실제로 연구 현장에선 일부 연구자를 중심으로 챗GPT의 연구 역량을 미리 예상한 듯 챗GPT를 연구에 사용하고 공동 저자로 지정하고 있다. 지난달 12일 의학논문 사전 공개사이트인 메드아카이브(MedRxiv)에는 챗GPT를 세 번째 공저자로 한 논문이 발표됐다.

학계와 학술 출판계는 챗GPT를 학술 논문 저자로 인정할 것인가를 두고 논란이 여전히 계속되고 있다.

국제학술지 네이처를 발간하는 스프링거 네이처는 24일 “챗GPT를 포함한 AI를 논문 저자로 인정하지 않겠다”며 “AI가 쓴 글을 잡아내기 위한 기술을 개발하고 있다”고 밝혔다. 네이처는 다만 ‘챗GPT같은 AI를 연구에 활용하는 경우에는 논문에 명시해야 한다’는 가이드 라인을 내놨다. 저자는 아니지만 연구 도구로서 챗GPT 사용은 인정한 셈이다. 전문가들은 스프링거 네이처가 과학, 기술, 의학 등 3000종 이상의 학술지를 출판하는 대형 학술 출판기업인만큼 이 같은 조치가 학계에 미칠 영향이 클 것으로 보고 있다.

생명과학과 의학 분야의 간판급 학술지인 셀과 랜싯을 출판하는 엘스비어 그룹 역시 네이처와 같은 입장을 취했다. 앤드류 데이비스 엘스비어 부사장은 가이드라인에서 “연구 논문의 가독성과 언어를 개선하기 위해 AI를 사용할 수 있지만 데이터 해석이나 결론 도출 같은 저자가 해야 하는 주요 작업을 대체하지는 않는다”고 밝혔다. 엘스비어에 속한 2700개의 학술지에서도 AI의 사용 여부와 방법을 설명하도록 했다.

반면 미국에서 발행하는 국제학술지 사이언스의 홀든 소프 편집장은 26일(현지 시각) 사설을 통해 “챗GPT가 만든 텍스트는 표절에 해당한다”며 “챗GPT가 저자가 되는 것은 물론 챗GPT가 만든 텍스트와 그림, 이미지, 그래픽도 논문에 넣을 수 없다”고 밝혔다. 사이언스 계열의 학술지 6개에도 똑같이 적용된다. 가장 강력한 수준의 챗GPT 사용 제재다.

지난 26일 크리스토퍼 매닝 미국 스탠퍼드대 언어인지학및컴퓨터과학과 교수 연구진은 AI가 만든 글을 잡아내는 디텍트GPT(DetectGPT)를 만들어 발표했다. 잡고 잡히는 AI의 싸움에서 국제 학술 출판계는 어떤 결론에 다다를 지 귀추가 주목된다.

참고 자료

Finance Research Letters, DOI: https://doi.org/10.1016/j.frl.2023.103662