무료 온라인 백과사전 위키피디아가 인공지능(AI) 기업에 무단 데이터 수집(스크래핑)을 중단해달라고 촉구했다.
위키피디아를 운영하는 위키미디어 재단은 10일(현지시각) AI 개발자들에게 위키피디아의 콘텐츠 출처를 밝히는 등 "책임감 있게" 사용하고, 자사 유료 제품인 '위키미디어 엔터프라이즈 플랫폼'을 이용해달라고 요청했다.
주요 AI 기업들은 위키피디아의 콘텐츠를 대량으로 긁어서 대형언어모델(LLM)을 기반으로 한 생성형 AI 모델 학습에 이용하는 것으로 알려졌다. AI 모델이 고도화되려면 학습하는 데이터의 품질이 좋아야 하는데, 위키피디아의 콘텐츠는 분량이 방대하면서도 객관적이고 신뢰할 수 있다는 평가를 받는다.
최근 AI 봇들이 사람인 것처럼 위장해 위키피디아 스크래핑을 하고 있다고 재단은 밝혔다. 재단에 따르면 올해 5~6월 위키피디아 방문자 수가 비정상적으로 높았는데, 무단 데이터 수집을 하러 방문한 AI 봇이 급증한 결과였다. 재단은 "최근 인간 이용자의 방문은 전년 동기 대비 8% 줄어든 반면, AI 봇의 접속으로 추정되는 방문은 늘었다"고 했다.
AI 봇인데 마치 인간인 것처럼 위장해 '봇 탐지'를 피하려는 시도도 있었다고 재단은 덧붙였다.
그러면서 자사 유료 제품을 사용하면 콘텐츠를 대규모로 확보하면서도 위키피디아 서버에는 심각한 부담을 주지 않게 된다고 설명했다.
또 AI 플랫폼이 위키피디아를 인용해 답변을 할 때 출처를 반드시 명시해달라고 촉구했다. 재단은 "사람들이 인터넷에서 공유되는 정보를 신뢰하려면 플랫폼이 정보의 출처를 명확히 밝히고 (이용자가) 해당 출처에 방문할 기회를 제공해야 한다"고 강조했다.
그러면서 "(인간 이용자의) 위키피디아 방문이 줄면 콘텐츠의 품질을 높일 자원봉사자가 줄어들고 이를 지원할 개인 기부자들도 감소할 수 있다"고 지적했다.