대화형 인공지능(AI) ‘챗GPT’ 열풍이 계속되는 가운데 과학계에선 AI를 활용해 연구와 논문 작성을 할 수 있을지에 대한 관심이 커지고 있다. 하지만 챗GPT가 학습한 데이터를 바탕으로 만든 새로운 문장에서 정확한 출처를 확인하기 어렵고, 심지어 없는 자료를 만들어서 제시하는 사례까지 나오면서 섣부른 사용은 금물이라는 신중론이 적지 않다.
15일 과학계에 따르면 챗GPT가 실제로 있지 않은 출처 자료를 만드는 사례가 발견되고 있다. 자연어 생성 모델인 챗GPT가 학습한 데이터를 바탕으로 문장을 만들면서 나타나는 현상이다. 챗GPT를 이용해 쓴 논문을 믿을 수 있을지 신뢰성에 대한 우려의 목소리가 나오고 있다.
백민경 서울대 생명과학부 교수는 “챗GPT가 논문을 쓸 수 있는지 확인하던 중 정확하지 않은 참고 문헌 자료를 제시하는 상황이 있었다”며 “당분간 챗GPT로 논문을 쓰는 것은 어려울 것으로 보인다”고 말했다.
실제로 챗GPT가 잘못된 참고 논문을 제공하는 사례는 쉽게 확인할 수 있다. 챗GPT에 “단백질 구조와 관련된 참고 논문을 알려달라”고 입력하자, 국제 학술지 ‘단백질: 구조, 기능, 생명정보학’에 2019년 소개됐다는 논문을 제시했다. 2019년 열린 단백질 구조 예측 능력 평가 대회(CASP)와 관련해 실제 있는 논문처럼 보이지만, 해당 학술지에서 논문명, 저자, 출판시기가 일치하는 논문은 없는 것으로 나타났다. 이외에도 10차례 이상 다양한 분야의 참고 논문을 알려 달라고 했을 때 실제로 있는 자료를 제시한 경우는 한 차례도 없었다.
또 다른 문제는 챗GPT가 만든 문장에서 과학 논문에서 가장 중요한 참고 논문을 찾을 수 없다는 점이다. 참고 논문은 내용이 이미 발표된 논문에서 증명됐다는 것을 보여주기 위한 수단으로 참고 논문만 수백 편에 달하는 논문도 있다. 그만큼 과학적인 사실을 검증할 때 중요한 수단이지만, 챗GPT는 학습한 내용의 출처가 무엇인지 전혀 공개하지 않고 있다. 실제로 챗GPT를 논문 작성에 활용했다는 사례 대부분은 인용 논문을 표기하지 않는 요약문인 ‘초록’을 만드는 수준에 머무르고 있다.
주형준 고려대 안암병원 순환기내과 교수는 “의학 논문을 쓸 때는 내용의 출처가 가장 중요하지만, 챗GPT가 쓴 문장의 출처를 알 수 없어 어차피 일일이 다시 확인해야 한다”며 “내용을 요약할 때는 좋은 성능을 보였지만, 논문 작성에 큰 도움이 되지는 않았다”고 말했다.
이처럼 챗GPT가 잘못된 정보를 제시하거나 정확한 출처를 밝히지 못하는 이유는 자연어 생성 모델의 특징 때문이다. 자연어 생성 모델은 학습한 데이터를 바탕으로 문장을 만들 때 앞에 나온 단어와 연관성이 가장 높은 단어로 이어가는데, 이 과정에서 학습한 데이터가 섞이거나 실제 존재하지 않는 문장을 만들 가능성이 크다. 특히 상대적으로 데이터가 적은 과학 관련 용어에서는 정확도가 더 낮아질 수 밖에 없다.
존 슐먼 오픈AI 연구원은 “과학에 특화된 언어 AI인 ‘갤럭티카’를 개발했지만, 과학이라는 특성을 반영하지 못해 3일만에 비공개로 전환해야 했다”며 “과학용 언어 AI를 개발하려면 아직 해결해야 할 문제가 많다”고 말했다.
챗GPT가 대중들의 관심을 받는 사이 해외 연구자들은 논문 작성용으로 개발된 다른 AI 모델에 관심을 보이고 있다. 미국의 비영리 AI 개발 단체인 아우트(Ought)가 지난해 4월 공개한 논문 검색 AI 엘리싯(Elicit)은 참고 논문 정보를 정확하게 알려주는 기능을 탑재하고 있다. 네이처는 이달 6일 기사에서 “챗GPT를 비롯한 자연어 모델의 단점을 해결할 도구”라며 엘리싯을 소개했다.
알파고와 알파폴드를 개발한 구글 자회사 딥마인드도 올해 말 출시를 목표로 정확한 출처를 표기하는 연구용 자연어 AI 모델을 개발하고 있는 것으로 알려졌다.