사람들이 생성형 인공지능(AI)인 챗GPT가 쓴 시와 셰익스피어나 에밀리 디킨슨의 시를 구분하지 못한다는 연구 결과가 나왔다. 심지어 누가 쓴 시인지 알려주지 않은 상태에서는 대문호의 시보다 AI가 쓴 시를 더 선호하는 것으로 나타났다.

미국 피츠버그대 브라이언 포터 박사 연구팀은 15일 국제 학술지인 사이언티픽 리포트에 일반인에게 유명 시인 10명과 이들을 모방해서 챗GPT가 지어낸 시를 읽게 한 뒤 이를 평가하는 실험을 진행한 결과를 발표했다.

일반인을 대상으로 한 실험에서 챗GPT가 만든 시가 유명 시인들의 시보다 더 높은 점수를 얻은 연구 결과가 발표됐다./DALL · E3

연구팀은 1634명의 일반인 참가자를 모집했다. 이어 10명의 유명 시인으로부터 5편씩의 시를 수집하고, 챗GPT 3.5를 이용해 각 시인의 스타일로 생성된 5편의 시를 추가했다. 일반인 참가자들에게 10편의 시를 무작위로 제공한 뒤, 이 시가 AI가 만든 건지, 사람이 쓴 것인지 물었다. 10명의 시인은 윌리엄 셰익스피어, 월트 휘트먼, TS 엘리엇, 에밀리 디킨슨, 도러시아 라스키 등 세계적인 대문호와 유명 시인들이었다.

제시된 10편의 시가 AI가 만든 것인지, 시인이 쓴 것인지 구분하는 실험에서 참가자들의 정확도는 46.6%에 불과했다. 이지선다에서 찍는 것보다도 낮은 정확도였다.

포터 박사는 “AI가 해당 작가들이 작품을 기반으로 훈련을 받았기 때문에 이들의 시를 모방한 건 놀라운 일이 아니다”라고 말했다.

연구진은 AI가 쓴 시는 시인이 쓴 것과 비교해 두드러지는 특징이 있었다고 밝혔다. AI가 만든 시는 주제가 명확하고, 처음 읽을 때도 직관적이고 쉽게 이해할 수 있었다. 반면 시인이 쓴 시는 정확한 이해를 위해 분석과 역사적 맥락에 대한 이해가 필요했다. 또 AI의 시는 기본적인 운율과 일관된 연을 사용해 전통적인 규칙을 준수했다. 반면 시인의 시에서는 이런 규칙을 깨는 파격이 종종 나타났다. 포터 박사는 “에밀리 디킨슨은 종종 의도적으로 예상된 운율 체계를 깼는데, 디킨슨을 모방한 AI의 시에서는 이런 특징이 나타나지 않았다”고 말했다.

일반인 참가자들은 AI가 만든 시를 시인의 시보다 높게 평가하기도 했다. 연구진은 참가자들을 ‘사람이 쓴 시’ ‘AI가 쓴 시’ ‘출처 정보 없음’의 세 가지 그룹으로 나뉜 뒤, 시에 대해 14가지 특성을 평가하게 했다.

그 결과 AI가 쓴 시라고 알려준 그룹은 실제 시를 쓴 게 AI인지, 사람인지에 상관 없이 낮은 점수를 줬다. 반면 출처 정보를 주지 않은 그룹에서는 AI가 만든 시를 시인이 쓴 시보다 더 높게 평가했다.

연구진은 “시는 AI가 따라오기 힘든 텍스트 영역으로 여겨져왔지만, 이번 연구 결과는 생성형 AI의 능력이 시에서도 이미 사람들의 기대를 넘어섰다는 걸 보여준다”고 말했다.

참고 자료

Scientific Reports(2024), DOI : https://doi.org/10.1038/s41598-024-76900-1