AI 개발에 뉴스 콘텐츠 쓰는데, 언론사 동의 필요 없다?… 네이버, 저작권 침해 논란

네이버 초거대 언어모델 '하이퍼클로바'의 로고. /네이버

'네이버는 서비스 개선, 새로운 서비스 개발을 위한 연구를 위해 직접, 공동으로 또는 제3자에게 위탁하는 방식으로 정보를 이용할 수 있다. 단, 네이버의 계열사가 아닌 제3자에게 위탁하는 방식으로 진행할 경우 사전에 제공자의 동의를 얻어야 한다.'

네이버가 최근 언론사들에 통보한 '뉴스콘텐츠제휴 약관 개정안' 제8조 3항의 내용이다. 그간 네이버 계열사가 연구 및 개발 목적으로 뉴스 콘텐츠를 활용하려면 사전에 언론사의 동의를 얻어야 했는데, 이런 '허들'을 없애겠다는 것이다. 네이버는 자회사 네이버클라우드를 통해 자사 초거대 언어모델 '하이퍼클로바'를 고도화, 올해 상반기 중 생성형 인공지능(AI)을 탑재한 검색 서비스 '서치GPT(가칭)'를 출시할 예정이다. 업계에선 네이버도 오픈AI처럼 저작권 침해 논란에서 자유롭지 못할 것이란 전망이 나온다.

10일 네이버에 따르면 회사는 지난달 30일 뉴스 콘텐츠 제휴를 맺은 언론사들에게 이메일을 보내 해당 조항이 담긴 개정안을 전달하고 "오는 4월 30일 자정까지 별도의 거부 의사를 밝히지 않는 경우 개정될 제휴 약관에 동의한 걸로 간주한다"고 통보했다.

주요 신문사를 회원으로 둔 한국온라인신문협회는 "네이버가 사전에 약관 변경 내용을 설명하고 의견을 청취하지 않은 점에 유감을 표한다"며 지난 6일 이 조항 등이 부당하다는 취지의 의견서를 네이버에 전달했다. 협회는 서비스 개선과 새로운 서비스 개발이 향후 언론사에 도움이 될 것이라는 일방적인 포장으로 모든 네이버 계열사와 향후 네이버에 편입되는 계열사에서 (언론사가 제공한 뉴스 콘텐츠를) 사용할 수 있도록 약관을 규정하는 것은 통상적인 정보의 활용 범위를 벗어나는 불공정 계약이다"라고 했다.

협회는 해외 언론사들이 오픈AI가 생성형 AI 챗봇 '챗GPT'를 학습하는 과정에서 자사 콘텐츠를 무단으로 사용한 데 대해 문제를 제기한 점을 들어 "이런 분쟁을 방지하기 위해서도 뉴스 서비스 외에 정보를 활용하는 부분은 언론사에 사전 동의를 구해야 한다"고 강조했다.

오픈AI는 월스트리트저널(WSJ)과 로이터, 뉴욕타임스(NYT), 가디언, BBC, CNN, 알자지라, 워싱턴포스트(WP), AP, 파이낸셜타임스(FT) 등 20개 언론사의 뉴스 콘텐츠를 챗GPT 학습에 활용한 것으로 알려졌다. WSJ를 보유한 미국 뉴스코프 산하 다우존스앤컴퍼니는 이에 지난 2월 "WSJ 기자들이 작성한 기사를 AI를 학습시키는 데 활용하고자 하는 누구든 다우존스로부터 적절한 라이선스를 받아야 한다"며 "다우존스는 오픈AI와 관련 계약을 맺은 바 없고, (챗GPT 학습에 WSJ의 뉴스 콘텐츠가 얼마나 활용됐는지) 검토에 착수했다"는 입장을 밝혔다.

로버트 톰슨 뉴스코프 최고경영자(CEO)는 지난달 투자자들을 대상으로 진행한 한 행사에서 오픈AI 등 AI 기업들과 문제를 논의하기 시작했다고 밝혔다. 톰슨 CEO는 "(AI 기업들이) 활용하고 있는 건 언론사의 독점 콘텐츠다"라며 "당연히 어떤 형태로든 보상이 있어야 한다"고 했다.

미국 월스트리트저널(WSJ) 기자 출신인 프란체스코 마르코니 어플라이드엑셀(AppliedXL) 최고경영자(CEO)가 지난 2월 오픈AI의 생성형 인공지능(AI) 챗봇 '챗GPT'에게 '어떤 언론사의 뉴스 콘텐츠를 기반으로 학습했는가'라는 질문을 던져 얻은 답변. /트위터 캡처

네이버는 "언론사가 제공하는 뉴스 콘텐츠는 상업 목적이 아닌 연구 목적에 한정해 활용할 것"이라는 입장이다. 오해의 소지가 있는 문구는 수정을 검토 중이라고 했다. 하지만 네이버는 이미 네이버쇼핑을 비롯해 독거 노인을 위한 콜 서비스 '클로바 케어콜', 음성 기록 서비스 '클로바노트' 등 10여개 서비스에 하이퍼클로바를 적용하고 있어 신뢰하기 어렵다는 지적이 나온다. 최수연 네이버 대표도 지난 2월 2022년 결산 실적발표 콘퍼런스콜에서 "하이퍼클로바가 계속해서 발전하고 있고, 유료 B2B(기업간거래) 시장도 열리고 있기 때문에 서치GPT 투자를 통해 수익화를 모색할 수 있을 것"이라고 밝힌 바 있다.

더욱이 하이퍼클로바는 네이버 글로벌향 전략의 핵심이다. 네이버는 올해 마이크로소프트(MS)·구글 등 빅테크 기업이 일제히 생성형 AI 개발 경쟁이 뛰어들자, 한국어 특화 모델로 틈새 시장을 노리겠다는 포부를 밝혔다. 하이퍼클로바가 타사 언어모델 대비 한국어 데이터가 많다는 점을 십분 활용한다는 것이다. 네이버에 따르면 회사는 하이퍼클로바 학습에 활용하는 데이터 중 절반 이상을 네이버 블로그 및 네이버 카페에서 가져오고 있다. 네이버는 이를 위해 2018년 사용자 약관에 '사용자가 제공한 콘텐츠를 인공지능 분야 기술 연구 등의 연구 개발 목적으로 네이버 및 네이버 계열사에서 사용할 수 있다'는 조항을 추가했다.

네이버가 하이퍼클로바를 기반으로 개발 중인 서치GPT는 특히 언론사가 제공하는 뉴스 콘텐츠를 활용할 것으로 예상된다. 김용범 네이버 서치US 최고과학자는 지난 2월 네이버 연례 개발자 콘퍼런스 '데뷰'에서 서치GPT의 강점으로 '팩트 체크'를 내세웠다. 신뢰도 높은 검색 결과를 위해 사실 검증 모델을 적용, 사용자 피드백을 바탕으로 강화 학습을 거쳐 정확성을 개선한다는 설명이다. 업계는 김 최고과학자가 말한 사실 검증 모델 학습에 뉴스 콘텐츠가 쓰일 것으로 보고 있다.

다만 국내에는 AI 개발 과정에서 발생할 수 있는 저작권 침해 문제와 관련한 규제가 아직 없다. 국회에는 오히려 정보분석(데이터마이닝)을 위한 저작물 이용 시 저작재산권자의 이용 허락을 받지 않고도 복제·전송하도록 규정하는 법안이 발의돼 있다. 공정거래위원회가 네이버의 약관 개정을 불공정 행위로 판단할지 여부에 업계의 관심이 쏠리는 이유다. 공정위는 2019년 이용자의 저작물을 제한 없이 광범위하게 이용할 수 있도록 한 구글의 약관을 불공정 약관으로 보고 시정을 명령한 바 있다.

공정위 관계자는 "계약조항의 문제이기 때문에 약관법에서도, 공정거래법에서도 다룰 수 있는 여지가 있다"고 말했다. 단, "네이버가 새 약관을 정식 시행한 것이 아니고, 일각의 반발에 따라 수정을 검토하겠다고 밝힌 만큼 일련의 과정을 관심 갖고 지켜보고 있는 상황이다"라고 덧붙였다.