“학습 데이터 구축 도와달라” 산업계, 생성형 AI 개발에 정부 지원 요청한 이유

이종호 과학기술정보통신부 장관이 지난 8일 경기 성남시 판교카카오아지트에서 '제3차 인공지능 최고위 전략대화'를 열고 발언하고 있다. 이날 전략대화에는 고진 디지털플랫폼정부위원회 위원장, 고학수 개인정보보호위원회 위원장을 비롯한 정부 인사들과 네이버클라우드, 카카오엔터프라이즈, LG AI연구원, SK텔레콤 산업계 인사들이 참석했다. /연합뉴스

"'쓰레기를 넣으면 쓰레기가 나온다(Garbage in garbage out)'는 말이 있습니다. 인공지능(AI)도 좋은 데이터를 넣어야 좋은 결과가 나옵니다."
백상엽 카카오엔터프라이즈 대표

산업계가 지난 8일 과학기술정보통신부가 주최한 제3차 인공지능 최고위 전략대화에서 한국이 글로벌 생성형 인공지능(AI) 개발 경쟁에서 뒤처지지 않기 위해 반드시 필요한 준비물로 '양질의 데이터'를 꼽았다. 기업들은 특히 학습 데이터 구축 확대, 저작권 허용 범위 설정 등 환경 조성을 강조했다. 과기정통부가 이들의 의견을 토대로 관계 부처와 함께 이달 중 초거대 AI 산업 정책 방향을 발표할 계획인 가운데 정부의 데이터 개방 및 활용 현황을 짚어본다.

9일 정보통신정책연구원(KISDI)에 따르면 지난해 6월 기준 '공공데이터 포털'에 공개된 파일 데이터는 5만1733건, 공개 응용프로그램인터페이스(API)는 9141건이다.

파일 데이터의 경우 공공행정 분야의 개방 건수가 7228건으로 가장 많은 것으로 나타났다. 그 뒤는 ▲문화관광(6285건) ▲산업고용(5064건) ▲교통물류(4098건) ▲환경기상(3885건)이 이었다. 개방 건수가 가장 적은 분야는 ▲법률(405건) ▲통일외교안보(708건) ▲식품건강(1209건) ▲과학기술(1505건) 등이었다.

반면 데이터 활용도가 가장 높은 분야는 ▲법률(99.5%) ▲산업고용(94.1%) ▲통일외교안보(93.5%) 등으로 집계됐다. 데이터 개방이 적은 분야가 오히려 활용도가 더 높은 것이다. 오픈 API도 파일 데이터와 마찬가지로 ▲문화관광(1101건) ▲공공행정(925건) 분야 등의 개방 건수가 가장 많았지만 활용도는 ▲과학기술(100%) ▲법률(100%) ▲식품건강(99.8%) 등이 가장 높은 것으로 나타났다.

공개된 이후 한 번도 활용되지 않은 파일 데이터는 4838건, 오픈 API는 220건이나 됐다. 한은영 KISDI ICT데이터사이언스연구본부 연구위원은 "수요자가 활용하지 않는 데이터는 그 가치를 발휘할 수 없기 때문에 공공데이터 개방 정책의 진정한 성공을 위해서는 데이터 활용에 방점을 둬야 한다"며 "정부와 공공기관은 양적인 개방 성과에 안주하지 말고, 개방된 데이터가 시장에서 널리 채택돼 활용될 수 있도록 수요자가 필요로 하는 공공데이터의 종류를 파악하고 그 품질을 확보해 제공해야 한다"고 진단했다.

정보통신정책연구원(KISDI) '공공데이터 개방 및 활용 현황 분석' 보고서 중 일부 발췌. /KISDI

공공 외 분야도 사정은 비슷하다. 정부는 지금까지 '데이터 댐' 사업을 통해 'AI 허브'에 ▲한국어 데이터 93종 ▲영상이미지 78종 ▲헬스케어 67종 ▲재난안전환경 59종 ▲농축수산 41종 ▲교통물류 46종의 AI 학습 데이터를 구축했지만 업계에서는 여전히 부족하다는 평가가 나온다. 양승현 SK텔레콤 최고기술책임자(CTO)는 전날 전략대화에서 "AI 허브에 초거대 언어모델이 학습할 수 있는 데이터가 없어 현재 자본을 들여 해결하고 있지만 지속하는 데 애로사항이 있다"며 "오픈AI의 '챗GPT'는 다량의 영어 데이터를 학습해 똑똑해졌지만, 한국어 데이터는 양과 질 모두 충분치 않다"고 했다.

AI에 데이터를 학습시키는 과정에서 발생하는 저작권 문제도 골치다. 해외에서는 이미 저작권 침해 소송이 시작됐다. 세계 최대 이미지 판매 사이트 게티이미지는 지난달 3일 영국 AI 스타트업 스태빌리티AI를 상대로 손해배상 청구소송을 제기했다. 지난해 11월에는 미국에서 복수의 개발자가 코딩 오픈소스 플랫폼 깃허브와 깃허브를 인수한 마이크로소프트(MS), MS의 투자를 받은 오픈AI 등을 상대로 집단 소송을 제기했다.

국내에서도 출판인회의가 최근 회원사에 공문을 보내 "IT 기업들이 추후 한국형 AI 서비스를 개발하고 출시하기 위해 출판 저작물이나 콘텐츠를 활용할 가능성이 있어 출판사의 콘텐츠 제공은 신중할 필요가 있다"며 "AI 서비스와 관련해 출판 콘텐츠를 제공할 때는 사용 목적이나 분량, 범위, 기간 등을 분명하게 설정해야 '문어 말뭉치' 사태와 같은 저작물 무단 이용에 따른 저작권 침해를 막을 수 있다"고 조언한 것으로 알려졌다. 지난해 불거진 문어 말뭉치 사태는 웅진북센이 국립국어원 말뭉치 사업에 참여하면서 자회사 북토피아 책 콘텐츠 약 1만6000종을 출판사 허락없이 쓴 사건을 말한다.

업계 관계자는 "글로벌 빅테크 기업들과 기술 격차를 좁히기 위해 노력하고 있지만 여러모로 난관이 많은 상황이다"라며 "개인정보보호법이 개정된 것처럼 AI 학습 데이터 저작권에 대한 새로운 법적 기준이나 사회적 합의가 빨리 마련되길 바란다"고 했다. 지난 7일 국무회의에서 의결된 개인정보보호법 개정안에는 상호계약 등 합리적으로 예상할 수 있는 범위 내에선 개인 동의 없이도 개인정보를 수집·이용할 수 있도록 하는 내용이 담겼다. 대신 개인정보보호위원회가 기업·기관의 개인정보 처리 방침을 평가·관리하고 필요 시 개선 권고를 하도록 했다. 이 개정안은 오는 14일 공포돼, 9월 15일부터 시행될 예정이다.

정준화 국회입법조사처 입법조사관은 "챗GPT가 생성형 AI 시장을 선점해 이용자의 초기 피드백을 독점하고 있지만, 아직 시장은 초기 단계이기 때문에 우리 기업에도 충분한 기회가 있다. 한글에서의 비교우위를 발판으로 국내 기업들이 생성형 AI를 준비 중이지만, 장기적으로 우리나라를 넘어 비영어권 시장으로의 확산도 노려볼만 하다"며 "기업의 꾸준한 노력, 정부의 안정적인 환경 조성, 우수한 인재의 육성과 유치, 이용자의 활발한 사용이 모두 필요한 때다"라고 했다.

"학습 데이터 구축 도와달라" 산업계, 생성형 AI 개발에 정부 지원 요청한 이유