빅테크 기업들의 인공지능(AI) 학습 데이터 무단 수집 논란이 일자, 이를 막기 위한 움직임이 활발해지고 있다. 해외에선 정부 차원에서 빅테크의 AI 학습을 금지하기 시작했고, 학습 데이터를 수집하는 AI봇을 무용지물로 만드는 보안 기술도 등장했다.

인공지능(AI)의 데이터 학습 관련 일러스트 / 챗GPT

10일(현지시각) 외신들에 따르면 미국 인터넷 보안 전문 기업 클라우드플레어는 최근 빅테크들이 사용하는 AI봇을 차단하는 기능을 선보였다. AI봇은 인터넷에서 방대한 양의 데이터를 수집하기 위해 설계된 자동화 프로그램으로, 대규모언어모델(LLM)과 AI 기반 애플리케이션 구동을 위한 정보 수집에 활용된다.

클라우드플레어가 공개한 AI봇의 활동 데이터에 따르면 6월 한 달 간 클라우드플레어 사용자 중 약 39%가 AI봇에 의해 홈페이지 스크랩을 당했다. 그러나 이 중 2.98%만이 AI봇의 홈페이지 스크랩을 자체적으로 차단한 것으로 나타났다. 홈페이지 데이터가 AI봇에 무방비로 노출된 것이다.

특히 바이트댄스의 ‘바이트스파이더’, 아마존의 ‘아마존봇’, 앤트로픽의 ‘클로드봇’, 오픈AI의 ‘GPT봇’ 등은 인터넷상에서 가장 많은 콘텐츠를 긁어간 AI봇으로 조사됐다. 경제매체 포브스는 “인기 있는 웹사이트일수록 AI봇의 표적이 될 가능성이 높기 때문에 AI봇 차단 조치를 구현할 가능성도 높다”고 전했다.

정부 차원의 조치도 이뤄지고 있다. 브라질의 국가 데이터 보호당국(ANPD)은 자국 내에서 메타의 개인 데이터에 대한 AI 훈련을 금지했고, 이를 어길 경우 하루 5만헤알(약 1277만원)의 벌금을 내도록 했다. 앞서 메타는 개인정보 보호정책을 업데이트하며 브라질의 페이스북, 메신저, 인스타그램 데이터를 AI 훈련에 사용할 수 있는 권한을 부여했다.

앞서 유럽연합(EU)과 아일랜드도 비슷한 결정을 내렸다. EU 집행위원회는 이달 초 메타에 대해 ‘디지털 시장법(DMA)’ 위반 결정을 내렸다. 유럽 이용자들의 개인정보 제공을 사실상 강요하고, 이를 활용한 맞춤형 광고 등으로 부당한 이익을 취했다는 게 이유다. 메타는 아일랜드 규제당국인 데이터보호위원회가 AI 학습 연기를 요청하자 ‘메타 AI’ 출시를 연기하기도 했다.

이 같은 움직임은 AI 기업들이 허락 없이 다른 사람들의 데이터를 AI 학습에 무단 사용하면서 생겨났다. 구글 대항마로 부상한 AI 검색 스타트업 퍼플렉시티도 언론사들의 콘텐츠를 무단으로 사용해 논란이 됐다. 포브스 편집자인 존 파코스키는 지난달 SNS에서 퍼플렉시티의 뉴스 요약 내용과 포브스 기사가 유사하다고 지적하기도 했다.

오픈AI도 AI 학습에 뉴스 콘텐츠를 무단으로 사용하면서 법적 분쟁에 시달리고 있다. 지난 4월 시카고트리뷴, 덴버포스트, 뉴욕데일리뉴스 등 미국 유력지 8사는 “오픈AI와 마이크로소프트(MS)가 AI 서비스 모델을 개발하면서 자사가 저작권을 가진 기사 수백만 건을 무단 사용했다”며 미 법원에 소장을 제출했다.

무단 데이터 수집이 문제가 되자 최근 AI 학습을 위한 데이터를 돈 주고 사는 빅테크들도 늘고 있다. 애플은 AI 학습을 위해 글로벌 이미지·영상 콘텐츠 업체 셔터스톡의 데이터를 5000만달러를 지불하고 구매할 계획이고, 구글과 오픈AI는 여러 미디어 기업과 데이터 사용 계약을 맺고 있다.